Important Announcement
PubHTML5 Scheduled Server Maintenance on (GMT) Sunday, June 26th, 2:00 am - 8:00 am.
PubHTML5 site will be inoperative during the times indicated!

Home Explore IntroductiontoDataMining (Edition 2015)

IntroductiontoDataMining (Edition 2015)

Published by Jamornkul Laokietkul, 2016-02-25 07:39:05

Description: IntroductiontoDataMining

Keywords: Data mining

Search

Read the Text Version

ข้อมูลและกำรจัดเตรยี มข้อมูล 43 องคค์ วำมรู้ (Knowledge) คือ สำรสนเทศทถ่ี ูกคัดเลือกเพื่อนำมำใช้ในกำรแก้ไขปัญหำต่ำง ๆตำมควำมต้องกำรได้อย่ำงมีประสิทธิภำพสำหรับกำรคัดเลือกองค์ควำมรู้น้ัน จำเป็นต้องอำศัยประสบกำรณ์ในกำรเรียนรู้กับวิธีกำรเลือกสำรสนเทศใช้ในกำรแก้ไขปัญหำได้อย่ำงเหมำะสม ข้อมูลหรือ สำรสนเทศ ชุดเดียวกันน้ัน อำจสำมำรถนำมำใช้ในกำรแก้ไขปัญหำได้แตกต่ำงกันตำมควำมต้องกำรของผู้ใช้งำน หรือผู้เลือกใช้สำรสนเทศ ในกำรนำไปใช้แก้ไขปัญหำ อันจะส่งผลให้ได้ผลลัพธ์ที่ต่ำงกันด้วยท้ังน้ีข้ึนอยู่กับประสบกำรณ์ กำรฝึกฝนและมุมมองในกำรเลือกสำรสนเทศไปใช้งำน สำหรับข้อมูลสำหรับกำรทำเหมืองข้อมูลนั้น หมำยถึง ข้อมูลท่ีสำมำรถนำมำใช้ในกำรวิเครำะห์ข้อมูลและนำไปใช้ประโยชน์ โดยอำจมำจำกแหล่งข้อมูลในรูปแบบต่ำงๆ ซง่ึ ขึ้นอยู่กับวตั ถปุ ระสงคข์ องกำรทำเหมืองข้อมลู ra.ac.th2. แหลง่ ท่ีมาของขอ้ มลู แหล่งที่มำของข้อมูล (Data Source) สำหรับกำรตัดสินใจเร่อื งต่ำง ๆ โดยเฉพำะอย่ำงย่ิงหำกเปรียบเทียบเป็นกำรตัดสินใจในองค์กรธุรกิจน้ัน อำจจำแนกได้เป็น 2 ส่วนใหญ่ ๆ ได้แก่k.chandแหลง่ ข้อมูลภำยในองคก์ ร และ แหลง่ ขอ้ มูลภำยนอกองคก์ ร 1) แหล่งข้อมูลภำยในองค์กร (Internal Data Source) เป็นแหล่งข้อมูลทั้งหมดท่ีอยู่jmภำยในองค์กร ได้แก่ข้อมูลแผนกต่ำง ๆ เช่น ข้อมูลกำรปฏิบัติงำนในแต่ละวัน ข้อมูลบุคลำกร เช่นผู้บริหำร เจ้ำหน้ำที่ผู้ชำนำญกำร หัวหน้ำงำน พนักงำน ข้อมูลสินค้ำและบริกำร ข้อมูลเคร่ืองจักรขอ้ มลู คลงั สนิ คำ้ และ ขอ้ มลู ในกำรปฏิบตั ิงำน เป็นตน้ 2) แหล่งข้อมูลภำยนอกองค์กร (External Data Source) เป็นแหล่งข้อมูลท้ังหมดท่ีอยู่ภำยนอกองค์กร ที่จำเป็นและเก่ียวข้องกับกำรตัดสินใจ เช่น หน่วยงำนรัฐบำล หน่วยงำนเอกชนสถำบันวจิ ัยห้องสมุด เป็นต้น โดยมีตัวอย่ำงของข้อมูล เชน่ กฎหมำยพระรำชกำหนดทเี่ กี่ยวข้อง หรือผลกำรวจิ ยั ผลสำรวจ หรือแม้แต่ผลกำรจัดอนั ดบั ควำมน่ำเชอ่ื ถือ เป็นตน้ ท่ีมำของแหล่งข้อมูลจำกภำยนอกองค์กรน้ี อำจไมไ่ ด้อยู่ในรูปแบบฐำนข้อมูลที่สำมำรถสง่ั กำรเข้ำถึงได้โดยตรง หำกแต่อำจอยู่ในรูปแบบ หนังสือหนังสือพิมพ์เว็บไซต์ หรือ CD-ROM เป็นต้นซึ่งจำเป็นตอ้ งมีกำรนำเขำ้ ข้อมูลสฐู่ ำนขอ้ มลู เพอ่ื นำไปใชป้ ระโยชน์ต่อไป เหมอื งข้อมลู เบ้ืองต้น

44 ข้อมูลและกำรจดั เตรยี มข้อมลู 3. การรวบรวมขอ้ มูล แม้ว่ำจะมีแหล่งข้อมูลมำกมำย แต่หำกกำรรวบรวมข้อมูลน้ันไม่ได้มีกำรคัดเลือกเรียบเรียง หรือ กล่ันกรอง ข้อมูลให้ตรงประเด็นท่ีต้องกำร หรือแม้กระทั่งในบำงกรณีอำจมีกำรรวบรวมข้อมูลที่ไม่เพียงพอต่อกำรปฏิบัติงำน หรือกำรตัดสินใจ ซ่ึงปัญหำที่เกิดขึ้นในลักษณะน้ีเ รี ย ก ว่ ำ “Garbage In Garbage Out (GIGO)” คื อ ก ำ ร ไ ด้ ม ำ ซึ่ ง ข้ อ มู ล ท่ี ผิ ด พ ล ำ ด แ ล ะส่งผลต่อข้อผิดพลำดในปฏิบัติงำนและกำรตัดสินใจได้ ดังนั้นจึงมีข้อควรปฏิบัติในกำรรวบรวมข้อมูลสำหรับสนับสนุนกำรตัดสินใจ เพ่ือให้ได้มำซ่ึง ข้อมูลที่ดี ถูกต้อง ครบถ้วน สมบูรณ์และตรงประเด็น ดังน้ี 1) วิธีกำรรวบรวมข้อมูล ในกำรเก็บรวบรวมข้อมูลจำกแหล่งข้อมูลต่ำง ๆสำหรับระบบสนับสนุนกำรตัดสินใจน้ัน ทำได้หลำกหลำยวิธี เฉกเช่นเดียวกับกำรพัฒนำระบบสำรสนเทศอ่ืน ๆ ท่ัวไปซ่ึงในกำรพิจำรณำคัดเลือกวิธีกำรท่ีเหมำะสมต้องคำนึงถึงเครื่องมือที่ต้องใช้และควำมเชี่ยวชำญของผู้ทำกำรเก็บรวบรวมข้อมูล เพ่ือให้องค์กรได้รับข้อมูลต่ำง ๆ อย่ำงถูกต้องra.ac.thครบถ้วน สมบูรณ์ ตำมเป้ำหมำยและสำมำรถนำข้อมูลท่ีได้รับมำใช้ประโยชน์อย่ำงเต็มที่โดยกำรรวบรวมขอ้ มูลสำมำรถทำได้หลำยวธิ ดี ้วยกัน อำทเิ ช่น k.chand(1) กำรศึกษำเก่ียวกับเวลำในกำรปฏิบัติงำน (Time Study) ซ่ึงต้องรวบรวมข้อมูลโดยกำรสังเกตกำรณ์ปฏบิ ัติงำนในช่วงเวลำต่ำง ๆ (2) กำรสำรวจ (Survey) เช่น กำรสำรวจควำมต้องกำรใช้งำนคอมพิวเตอร์ของผู้ใช้jmในหนว่ ยงำนต่ำง ๆ โดยเคร่ืองมอื เช่น แบบสอบถำม (Questionnaire) (3) ก ำ ร สั ง เ ก ต ก ำ ร ณ์ (Observation) คื อ ก ำ ร เ ฝ้ ำ ศึ ก ษ ำ แ ล ะ สั ง เ ก ต ดูกำรทำงำน เพ่ือรวบรวมข้อมูลต่ำง ๆ ในกำรปฏิบัติงำนจริง ๆ ซ่ึงอำจเป็นข้อมูลเก่ียวกับขั้นตอนกำรทำงำนปัญหำที่เกิดระหว่ำงกำรปฏิบตั ิงำน โดยอำจใช้เคร่ืองมือท่ีช่วยสำหรับกำรสงั เกตกำรณ์ เช่นกล้องวีดิโอ สำหรับบนั ทกึ ภำพกำรทำงำน (4) กำรสัมภำษณ์ (Interview) คือ กำรสอบถำม พูดคุยกับบุคคลต่ำง ๆหรือผู้เช่ียวชำญเพ่ือรวบรวมข้อมูลที่ต้องกำรซ่ึงควำมสมบูรณ์ของข้อมูลที่ได้รับจำกวิธีกำรสัมภำษณ์ข้ึนอยู่กับปัจจัยหลำยอย่ำงเช่น วิธีกำรสัมภำษณ์ กำรตั้งคำถำมหรือแม้กระท่ังเวลำในกำรสัมภำษณ์เน่ืองจำกถ้ำทำกำรสัมภำษณ์ในขณะที่ผู้ให้สัมภำษณ์กำลังเร่งรีบหรือไม่พร้อมอำจได้รับข้อมูลท่ีไม่ครบถ้วนและปัจจัยที่สำคัญท่ีสุดในกำรสัมภำษณ์คือ บุคคลที่ทำกำรสัมภำษณ์ส่วนเคร่ืองมือที่ใช้ชว่ ยในกำรสัมภำษณ์ คือ แบบสัมภำษณ์ กำรจดบนั ทึก กำรบันทกึ เทปหรือกำรบนั ทึก วดี ิโอเปน็ ตน้เหมอื งขอ้ มลู เบื้องต้น

ข้อมูลและกำรจัดเตรียมข้อมูล 45 2) คุณภำพของขอ้ มูล (Data Quality) ในกำรนำเอำข้อมูลมำใช้ประกอบกำรดำเนินกำรใดๆ น้ัน ข้อมลู ที่รวบรวมมำนัน้ ต้องมีประโยชน์เพียงพอท่จี ะใช้สำหรบั งำนนน้ั ๆ ซึ่งอำจหมำยรวมไปถึงเป็นประโยชน์ต่อกำรกำรตัดสินใจในเรื่องท่ีต้องกำรได้ ดังนั้นจึงมีข้อควรพิจำรณำถึงคุณภำพของข้อมูล ในกำรนำมำใช้ในประเด็นต่ำง ๆ ด้งน้ี (1) คณุ ภำพโดยท่ัวไปของข้อมูลได้แก่ เรอื่ งของควำมสอดคล้องของข้อมูล สำมำรถนำไปใชป้ ระโยชน์ได้ทนั ต่อควำมตอ้ งกำรมีควำมครบถ้วนสมบูรณ์และในเร่ืองของปริมำณข้อมูล (2) คุณภำพโดยธรรมชำตขิ องข้อมลู ได้แก่ ควำมถกู ตอ้ ง และนำ่ เช่อื ถือ (3) คุณภำพของข้อมูลในมุมมองกำรเข้ำถึง ได้แก่ ควำมสำมำรถในกำรเข้ำถึงและควำมปลอดภัยของข้อมูล (4) คุณภำพของข้อมูลในมุมมองของกำรนำเสนอ ได้แก่ กำรสื่อควำมหมำย ง่ำยต่อกำรเขำ้ ใช้ กระชับไดใ้ จควำม มีเนอื้ หำสอดคล้องกัน ra.ac.th3) ปัญหำของขอ้ มูล (1) ข้ อ มู ล ไ ม่ ถู ก ต้ อ ง เ นื่ อ ง จ ำ ก ค ว ำ ม ผิ ด พ ล ำ ด จ ำ ก แ ห ล่ ง ข้ อ มู ล ห รื อk.chandกำรป้อนข้อมูลเขำ้ สู่ระบบโดยไม่ได้ตรวจสอบควำมถูกต้อง ทำใหข้ ้อมลู ไมส่ ำมำรถนำมำใช้ประโยชน์ได้ซึ่งอำจแก้ไขด้วยกำรหำวิธีกำรนำเข้ำข้อมูลท่ีป้องกันควำมผิดพลำดท่ีเกิดจำกกำรป้อนข้อมูลเชน่ กำรกำหนดขนำดของข้อมูล เพื่อปอ้ งกนั กำรป้อนขอ้ มูลมำกหรือนอ้ ยเกนิ ไป jm(2) ขอ้ มูลไม่เป็นปัจจุบัน อำจมีสำเหตุจำกในกระบวนกำรรวบรวมข้อมูลหรือค้นหำข้อมูลมีควำมล่ำช้ำ ส่งผลให้ข้อมูลที่ได้จำกกำรรวบรวมนั้นไม่ทันต่อกำรใช้งำนของผู้ใช้ซ่ึงอำจแก้ไขได้ด้วยกำรพัฒนำระบบสำรสนเทศเพื่อกำรประมวลผลข้อมูลหรือใช้เทคโนโลยีใหม่ ๆ ในกำรเก็บรวบรวมข้อมูลแต่วิธีกำรนี้อำจสร้ำงควำมลังเลต่อผู้บริหำรในกำรอนุมัติเน่ืองจำกต้องใช้เงินลงทุนที่คอ่ นขำ้ งสงู และอำจตอ้ งเปล่ยี นแปลงขั้นตอนกำรทำงำนบำงอย่ำง (3) ข้อมูลท่ีได้ไม่เหมำะสมกับกำรใช้งำน อำจมีสำเหตุมำจำกข้อมูลที่เก็บรวบรวมม ำ น้ั น ไ ม่ ไ ด้ รั บ ก ำ ร คั ด เ ลื อ ก เ อ ำ เ ฉ พ ำ ะ ข้ อ มู ล ท่ี มี ค ว ำ ม ส อ ด ค ล้ อ ง กั บ ก ำ ร ใ ช้ ง ำ นทำให้ระบบต้องใช้แบบจำลองที่ซับซ้อนจึงทำให้ผลลัพธ์ท่ีได้ไม่เหมำะสม หรือไม่สำมำรถอ่ำนค่ำได้หรืออ่ำน ค่ำได้ย ำกอำจ แก้ไขไ ด้ด้ว ยกำ รนำเท คโ นโ ล ยีคลังข้ อมูล ( Data Warehouse)เขำ้ มำใช้งำนร่วมกับระบบสนับสนุนกำรตดั สนิ ใจหรืออำจพัฒนำระบบเพื่อปรบั ปรุงข้อมลู เหลำ่ นั้นก่อนนำเขำ้ สู่ระบบสนับสนนุ กำรตดั สนิ ใจหรอื อำจสรำ้ งแบบจำลองเพอ่ื วเิ ครำะห์ข้อมูลเหล่ำนั้น เหมืองขอ้ มลู เบือ้ งตน้

46 ข้อมลู และกำรจดั เตรียมข้อมูล (4) ข้อมูลท่ีต้องกำรไม่มีอยู่ในระบบอำจมีสำเหตุเน่ืองมำจำกไม่เคยมีใครเก็บข้อมูลเหล่ำน้ันไว้หรือข้อมูลที่ต้องกำรใช้นนั้ ไม่เคยมีมำก่อนเลยในองคก์ รอำจแก้ไขได้ด้วยกำรวิเครำะห์ควำมตอ้ งกำรขอ้ มูลในอนำคตใช้เทคโนโลยคี ลงั ขอ้ มูลหรอื สรำ้ งข้อมลู เหล่ำนนั้ ขึ้นมำใหม่ 4) ข้อแนะนำเกี่ยวกับข้อมูลก่อนนำมำใช้งำน นอกจำกประเด็นคุณภำพข้อมูล และปญั หำของข้อมูล ท่ีต้องพิจำรณำในกำรใช้งำนข้อมูลสำหรับกำรตัดสินใจแล้ว ยังมีข้อแนะนำในกำรใช้งำนขอ้ มูลดังน้ี (1) ควรตรวจสอบว่ำข้อมูลที่ได้มำอยู่ในรูปแบบท่ีถูกต้องตำมต้องกำรโดยเฉพำะอย่ำงย่ิงในระหว่ำงกำรรวบรวมข้อมูล หำกไม่ใช่ควรจัดให้อยู่ในรูปแบบท่ีต้องกำรเพื่อใหง้ ำ่ ยต่อกำรนำไปใช้ (2) ควรตรวจสอบว่ำข้อมูลที่นำมำใช้นั้นเป็นปัจจุบัน (ทันสมัย) เนื่องจำกบำงครั้งข้อมูลบำงอย่ำงอำจต้องได้รับกำรปรับปรุงอยู่เสมอซ่ึงหำกไม่ใช่ข้อมูลท่ีได้รั บกำรปรับปรุงล่ำสุดแล้วra.ac.thอำจส่งผลตอ่ กำรตัดสินใจดว้ ย (3) ควรตรวจสอบควำมสมบูรณ์ของข้อมูลก่อนนำมำใช้ เช่น ตัวเลขผลรวมk.chandของขอ้ มูลนน้ั ถกู ต้องจรงิ และต้องตรวจสอบวำ่ ได้แหลง่ ท่มี ำของผลรวมนัน้ มำดว้ ย (4) ควรตรวจสอบปริมำณข้อมูลว่ำ ข้อมูลท่ีได้รวบรวมมำน้ันเพียงพอต่อกำรตัดสินใจหรือไม่ในแตล่ ะเรื่อง jmแม้ว่ำจะสำมำรถเก็บรวบรวมข้อมูลมำได้หำกแต่ข้อมูลเหล่ำนั้นอำจไม่สำมำรถนำมำใช้ประโยชน์ได้ จึงจำเป็นต้องมีกำรกลั่นกรอง หรือคัดเลือกเพ่ือให้ได้ข้อมูลท่ีเหมำะสมมีประโยชน์สำมำรถนำไปใช้งำนได้ทันที ดงั น้ันนอกจำกจะมขี ้อมลู เป็นส่วนประกอบสำคญั แล้ว ยงั ตอ้ งมีเทคโนโลยีจัดกำรข้อมูลที่มีประสิทธิภำพ เช่น ระบบจัดกำรฐำนข้อมูล หรือ เทคโนโลยีจัดกำรข้อมูลอ่ืน ๆเพอื่ ใช้เปน็ เครือ่ งมือ กลไก ในกำรจัดกำรกบั ขอ้ มูลสำหรับกำรตัดสินใจอกี ดว้ ยชนดิ ของข้อมลู สาหรับเหมอื งข้อมลู ชนิดของข้อมูล (Data Type) สำหรับกำรทำเหมืองข้อมูล สำมำรถแบ่งออกเป็น 2 รูปแบบได้แก่ 1) ข้อมูลแบบมีโครงสร้ำง (Structured Data) หรือข้อมูลท่ีถูกจัดให้อยู่ในรูปแบบตำรำง และอำจถูกจัดเก็บไว้โดยเทคโนโลยีจัดกำรข้อมูล เช่น ฐำนข้อมูล บนระบบจัดกำรฐำนข้อมูลเชิงสัมพันธ์และ 2) ข้อมลู แบบไม่มโี ครงสร้ำง (Unstructured data) ซ่ึงจัดเปน็ ข้อมูลที่พบเจอได้ในรูปแบบตำ่ ง ๆได้ในยุคปัจจุบัน เช่น ข้อควำมในรูปแบบอีเมล์ (E-mail) หรือ ข้อมูลต่ำง ๆ บนเครือข่ำยสังคมออนไลน์ (Social network) เปน็ ตน้เหมอื งขอ้ มลู เบอ้ื งตน้

ข้อมูลและกำรจัดเตรียมข้อมูล 47 1. ขอ้ มลู แบบมโี ครงสรา้ ง ข้อมูลแบบมีโครงสร้ำง (Structured data) เป็นข้อมูลท่ัวๆ ไปท่ีเรำมักจะพบเห็นกันในรูปแบบของตำรำง เช่น ข้อมูลที่เก็บรำยละเอียดของสมำชิก หรือ กำรซื้อขำยสินค้ำ โดยปกติแล้วข้อมูลเหล่ำน้ีมักพบลักษณะของกำรจัดเก็บอยู่ในรูปแบบของไฟล์ประเภท Excel หรือในฐำนข้อมลู ต่ำง ๆ โดยเป็นที่คุ้นเคยกับ คุณลักษณะของข้อมูลแบบมีโครงสร้ำง ตำมหลักกำรทฤษฎีแนวคิดฐำนข้อมูล และระบบจดั กำรฐำนข้อมลู หำกแตใ่ นกำรทำเหมอื งข้อมลู อำจมีควำมแตกต่ำงไปบ้ำง ดงั นี้ตารางที่ 3-1 นยิ ำมศพั ท์เฉพำะคณุ ลกั ษณะโครงสร้ำงข้อมูลคุณลักษณะโครงสร้างข้อมูล ตามแนวคิดฐานขอ้ มลู การทาเหมืองขอ้ มูลชุดขอ้ มูล Table ตำรำง Dataset ชุดขอ้ มูลjmk.chandra.ac.thแถวขอ้ มลูRelation รเี ลชัน Relation รีเลชนัคอลัมน์ Record เรคคอรด์ Example ตัวอยำ่ ง Row แถว Instance อนิ สแตนซ์คำ่ ของขอ้ มลู ทป่ี รำกฏ Tuple ทเู พิล Data ขอ้ มูลในแตล่ ะคอลัมน์ Attribute แอตทริบวิ ต์ Attribute แอตทรบิ วิ ต์ Column คอลมั น์ Feature ฟเี จอร์ Meta Data คณุ ลกั ษณะข้อมูล Data ข้อมูล Item ไอเทม็ Value คำ่ Value คำ่ Variable ค่ำ ตัวอย่ำงเช่น ข้อมูลสมำชิกฟิตเนตแห่งหนึ่ง ซึ่งประกอบด้วย 6 แถว และ 6 คอลัมน์ดงั ตัวอย่ำงต่อไปน้ีId Name Gender Birthdate Type Income1001 Somchai Pensuk Male 1994/02/14 1 150001002 Somying Jaiyen Female 1991/09/30 1 120002003 Somsri Rakdee Female 1989/12/11 2 180002001 Dawan Somrak Female 1985/03/25 2 250002002 Nida Phonpin Female 1995/04/03 1 160003001 Chaiya Deejing Male 1990/10/24 2 17500 ภาพท่ี 3-1 ข้อมูลรำยละเอยี ดของสมำชิกฟิตเนต เหมอื งขอ้ มลู เบ้ืองต้น

48 ข้อมลู และกำรจดั เตรยี มข้อมลู จำกข้อมูลในภำพที่ 3-1 แถวแรกจะหมำยถึง ช่ือของแต่ละ แอตทริบิวต์ และแถวท่ี 2เปน็ ตน้ ไป คือ ชุดข้อมูล ดงั นั้นสำมำรถแปลควำมหมำยชุดข้อมูล ในแถวที่ 2 ได้วำ่ ลูกค้ำที่มีหมำยเลขสมำชิก 1001 มีชื่อว่ำ Somchai Pensuk เป็นเพศ ชำย เกิดวันที่ 14 กุมภำพันธ์ 2537 เป็นสมำชิกประเภทที่ 1 มเี งนิ รำยได้ 15,000 บำท เป็นต้น 2. ขอ้ มูลแบบไมม่ โี ครงสรา้ ง ข้อมูลแบบไม่มีโครงสร้ำง (Unstructured data) น้ันเป็นข้อมูลส่วนใหญ่ท่ีปรำกฏท่ัวไปอยู่ในชีวิตประจำวัน เช่น ข้อควำม หรือ รูปภำพต่ำงๆ โดยข้อมูลเหล่ำน้ี ล้วนแต่มีควำมหมำยและมีสำคัญ โดยเฉพำะอย่ำงย่ิงในยุคปัจจุบัน ที่เป็นยุคของข้อมูลมหำศำล หรือท่ีเรียกว่ำ“บ๊ิก ดำต้ำ (Big Data)” ซึ่งมักจะเป็นข้อมูลไม่มีโครงสร้ำงเช่นกัน ดังนั้น กำรนำเอำข้อมูลลักษณะนี้มำวิเครำะห์เพื่อใช้ประโยชน์น้ัน จึงจำเป็นต้องมีกำรจัดรูปแบบข้อมูล ให้อยู่ในรูปแบบที่มีโครงสร้ำงก่อนนำมำใช้ประโยชน์นั่นเอง เช่น ตัวอย่ำงของกำรนำไปประยุกต์เพ่ือหำทัศนคติต่ำงๆ ของลูกค้ำที่เกิดขน้ึk.chandra.ac.thประเภทขอ้ มูลสาหรบั ทาเหมืองขอ้ มูล สำหรบั กำรทำเหมืองขอ้ มูลนั้น ข้อมลู ทส่ี ำมำรถนำมำใช้ในกำรทำเหมืองข้อมลู เป็นไปทั้งข้อมูลแบบมีโครงสร้ำง และแบบไม่มีโครงสร้ำง ท้ังน้ีขึ้นอยู่กับวัตถุประสงค์ของกำรวิเครำะห์ข้อมูล หรือjmวัตถุประสงค์ในกำรใช้ประโยชน์ข้อมูล โดยสำมำรถแบ่งประเภทข้อมูลสำหรับกำรทำเหมืองข้อมูลไดด้ งั นี้ 1. ฐานขอ้ มลู เชงิ สัมพันธ์ ฐำนข้อมูลเชิงสัมพันธ์ (Relational Database) เป็นฐำนข้อมูลท่ีจัดเก็บอยู่ในรูปแบบของตำรำง โดยในแต่ละตำรำงจะประกอบไปด้วยแถวและคอลัมน์ และเชื่อมโยงควำมสัมพันธ์ของขอ้ มลู ทงั้ หมดออกมำแสดงได้โดย Entity Relationship Model ฐำนข้อมูลเชิงสัมพันธ์ จัดเป็นวิธีกำรจัดเก็บข้อมูลเพื่อนำมำใช้ประโยชน์อย่ำงใดอย่ำงหน่ึงที่มีประสิทธิภำพมำกที่สุดในยุคน้ี ดังนั้นในปัจจุบันข้อมูลส่วนใหญ่ในระบบสนับสนุนกำรตัดสินใจจึงมักถูกจัดเก็บอยู่ในรูปแบบของฐำนข้อมูล ซึ่งกำรใช้งำนฐำนข้อมูลนั้น จำเป็นต้องอำศัยตัวกลำงคือซอฟต์แวร์ซง่ึ ทำหน้ำทีใ่ นกำรประสำนงำนคือ “ระบบจัดกำรฐำนขอ้ มลู ”เหมืองข้อมูลเบอ้ื งตน้

ข้อมูลและกำรจดั เตรียมข้อมูล 49 ภาพที่ 3-2 ตวั อยำ่ งกำรจัดเก็บขอ้ มูลในฐำนขอ้ มูลเชงิ สัมพันธ์ (ที่มำ: จำมรกลุ , 2556) 2. คลงั ขอ้ มูล คลังข้อมูล (Data Warehouse) เป็นกำรเก็บรวบรวมข้อมูลจำกหลำยแหล่งมำเก็บไว้ในรูปแบบเดียวกันและรวบรวมไว้ในท่ีๆ เดียวกัน เช่น ฐำนข้อมูลปฏิบัติกำร (Operational Database)ของระบบงำนประจำวันภำยในองค์กรหรือหน่วยงำน และฐำนข้อมูลอ่ืน ๆ จำกภำยนอกองค์กรra.ac.th(External Database) คลังข้อมูลมีลักษณะของกำรจัดเก็บข้อมูลที่จะแตกต่ำงไปจำกข้อมูลในฐำนข้อมูลทั่วไป โดยจะต้องสำมำรถเก็บข้อมูลย้อนหลังได้หลำย ๆ ปี เพ่ือใช้เป็นข้อมูลk.chandในกำรตัดสินใจ หรือใช้ในกำรวิเครำะห์ข้อมูลที่ถูกต้องและมีประสิทธิภำพ ซ่ึงกำรวิเครำะห์ข้อมูลท่ีอยู่ในคลังข้อมูลน้ัน สำมำรถทำได้ในหลำยลักษณะ เช่น กำรวิเครำะห์ข้อมูลแบบหลำยมิติ(Multidimensional Analysis) รวมไปถึง กำรทำเหมืองข้อมูล ข้อมูลท่ีถูกจัดเก็บในคลังข้อมูลนั้นjmมีวัตถุประสงค์เพื่อนำมำใช้ประโยชน์ในงำนด้ำนต่ำง ๆ ซึ่งรวมไปถึงกำรใช้งำนเพื่อประกอบกำรตดั สินใจในเรอื่ งต่ำง ๆ ของผู้บริหำรองคก์ ร ภาพท่ี 3-3 สถำปัตยกรรมคลงั ขอ้ มูล (ที่มำ: จำมรกุล, 2556 โดย ประยกุ ต์จำก กติ ติ ภกั ดวี ฒั นกุล, 2546) เหมืองขอ้ มลู เบอ้ื งต้น

50 ข้อมูลและกำรจดั เตรยี มข้อมลู 3. ฐานขอ้ มลู เชิงธรุ กรรม ฐำนข้อมูลเชิงธุรกรรม (Transactional Database) ประกอบด้วยข้อมูลรำยกำรธุรกรรมที่มักจะเรียกทำศัพท์ว่ำ ทรำนแซกชัน ซึ่งแต่ละรำยกำรนั้นเป็นกำรแทนค่ำด้วยเหตุกำรณ์ในขณะใดขณะหน่ึง ตัวอย่ำงของข้อมูลเขิงธุรกรรม เช่น ใบเสร็จรับเงิน จะเก็บข้อมูลในรูปช่ือลูกค้ำและรำยกำรสินค้ำท่ีลูกค้ำรำยซ้ือ หรือ ใบบันทึกรำยกำรของตู้ ATM จะเก็บข้อมูลในรูปแบบหมำยเลขบัญชี และ รำยกำรธุรกรรมทำงกำรเงนิ (ถอน โอนเงิน ชำระเงิน) เป็นต้น k.chandra.ac.thภาพที่ 3-4 ตวั อยำ่ งข้อมลู เชิงธรุ กรรม jm4. ฐานข้อมลู ขนั้ สงู ฐำนข้อมูลขั้นสูง (Advanced Database) เป็นฐำนข้อมูลทจ่ี ัดเก็บในรูปแบบอ่ืนๆ เช่น ข้อมูลแบบเชิงวัตถุ (Object-Oriented Data) ข้อมูลท่ีเป็นไฟล์ข้อควำม (Text File) ข้อมูลมัลติมีเดียข้อมูลในรูปของเว็บ หรือรวมไปถึงฐำนข้อมูลแบบไม่มีโครงสร้ำง (NoSQL) เป็นต้น (อดุลย์ ย้ิมงำม,2554) ภาพท่ี 3-5 ตัวอยำ่ งโครงสร้ำงข้อมูลแบบเชิงวตั ถุ (ที่มำ: http://docs.couchbase.com/developer/dev-guide-3.0/compare-docs-vs-relational.html)เหมืองข้อมลู เบือ้ งตน้

ข้อมูลและกำรจดั เตรยี มข้อมูล 51ลกั ษณะของขอ้ มูลท่ีเหมาะสาหรับการทาเหมืองขอ้ มูล หำกจะพิจำรณำ ลักษณะของข้อมูลท่ีเหมำะสมสำหรับกำรนำมำใช้ประโยชน์ด้ำนต่ำง ๆ น้ันซ่ึงหมำยรวมไปถึงกำรทำเหมืองข้อมูล อำจกล่ำวได้ว่ำ ข้อมูลท่ีมีควำมเหมำะสม และควรค่ำสำหรับกำรทำเหมอื งข้อมูลนัน้ ควรมลี ักษณะดังตอ่ ไปนี้ 1) ข้อมูลขนำดใหญ่ เกินกวำ่ จะพิจำรณำควำมสัมพนั ธ์ที่ซ่อนอยู่ภำยในข้อมูลได้ด้วยตำเปล่ำ หรือโดยใช้ระบบสำรสนเทศทั่วไปท่ีอำศัย ระบบจัดกำรฐำนข้อมูล ในกำรจัดกำรฐำนข้อมลู 2) ข้อมูลท่ีมำจำกหลำยแหล่ง โดยอำจรวบรวมมำจำกหลำยระบบปฏบิ ัติกำรหรือหลำกหลำยระบบจัดกำรฐำนข้อมูล เช่น Oracle DB2 MS SQL MS Access ซึ่งหมำยรวมถึงข้อมลู ทถี่ ูกรวบรวมไวเ้ ป็นคลงั ข้อมูล นั่นเอง 3) ข้อมูลที่มีควำมคงที่ หมำยถึง ข้อมูลไม่มีกำรเปล่ียนแปลงตลอดช่วงเวลำที่ทำเหมืองข้อมูล โดยหำกข้อมูลที่มีอยู่น้ัน เป็นข้อมูลท่ีเปล่ียนแปลงตลอดเวลำ จำเป็นจะต้องra.ac.thแก้ปัญหำนี้ก่อน โดยอำจบันทึกฐำนข้อมูลน้ันไว้และนำฐำนข้อมูลท่ีบันทึกไว้มำทำเหมืองข้อมูลเนื่องจำกหำกนำเอำข้อมูลท่ีมีกำรเปล่ียนแปลงอยู่ตลอดเวลำมำเข้ำสู่กระบวนกำรทำเหมืองข้อมูลk.chandอำจทำให้ผลลัพธ์ท่ีได้จำกำรทำเหมืองข้อมูลนั้น มีควำมสมเหตุสมผล และใช้ประโยชน์ได้ในช่วงเวลำหน่งึ เท่ำนั้น ดงั นั้นเพ่ือให้ได้ผลลัพธท์ ่ีมีควำมถกู ตอ้ งเหมำะสมอยู่ตลอดเวลำจงึ ต้องทำเหมืองข้อมูลใหม่เปน็ ระยะ ๆ ในช่วงเวลำท่เี หมำะสม jm4) ข้อมูลที่มีโครงสร้ำงซับซ้อน เช่น ข้อมูลรูปภำพ ข้อมูลมัลติมีเดียต่ำง ๆซึ่งข้อมูลเหล่ำนี้สำมำรถนำมำใช้ประโยชน์โดยกำรทำเหมืองข้อมูล ได้เช่นกัน หำกแต่อำจต้องใช้เทคนิควธิ ีในกำรทำเหมืองขอ้ มลู ข้นั สูงขัน้ ตอนและวิธกี ารจัดเตรียมข้อมูล สำหรับข้ันตอนและวิธีกำรจัดเตรียมข้อมูล นั้นเป็นขั้นตอนสำคัญในกำรจัดกำรข้อมูลท่ีได้รับกำรคัดเลือกมำใช้ ตำมวัตถุประสงค์ ควำมต้องกำร นำมำจัดเตรียมให้อยู่ในรูปแบบที่เหมำะสมเพ่ือพร้อมสำหรับกำรนำเข้ำสู่กระบวนกำรวิเครำะห์ข้อมูลต่อไป ซ่ึงขั้นตอนกำรจัดเตรียมข้อมูลสำหรับกำรทำเหมืองข้อมูลนี้ แบ่งออกเป็น 4 ขั้นตอนสำคัญ ได้แก่ กำรสำรวจและตรวจสอบข้อมูลกำรผสำนขอ้ มลู กำรปรับสภำพขอ้ มลู และ กำรลดรปู ข้อมลู เหมอื งขอ้ มูลเบ้อื งต้น

52 ข้อมลู และกำรจัดเตรยี มข้อมูล ra.ac.thภาพที่ 3-6 ขัน้ ตอนกำรจัดเตรยี มข้อมลู สำหรับเหมอื งข้อมลู k.chand1. กำรสำรวจและตรวจสอบขอ้ มลู กำรสำรวจและตรวจสอบข้อมูล (Data Exploration and Cleaning) จัดเป็นข้ันตอนjmกำรตรวจสอบควำมสมบูรณ์ของข้อมูล ทำกำรคัดกรองข้อมูล โดยเฉพำะอย่ำงยิ่งกำรคัดกรอง และจัดกำรกับข้อมูลท่ีขำดหำยไป โดยกำรเติมเต็มข้อมูล และ จัดกำรกับข้อมูลท่ีมีควำมผิดพลำด หรือผิดปกติ หรือ ข้อมูลไม่สอดคล้องกัน โดยกำรจัดกำรให้มีควำมถูกต้อง พร้อมสำหรับกำรวิเครำะห์ขอ้ มูล ซึ่งข้ันตอนนี้ เป็นทนี่ ิยมเรียกกนั ว่ำ เปน็ ขัน้ ตอนกำรทำควำมสะอำดข้อมลู หรอื Data Cleaningน่นั เอง สำเหตุสำคัญของขั้นตอนกำรสำรวจและตรวจสอบข้อมูล เน่ืองจำก ลักษณะของข้อมูลท่ีไม่เหมำะสมสำหรับกำรวิเครำะห์ข้อมูล 3 ลักษณะ ได้แก่ ข้อมูลไม่สมบูรณ์ (Incomplete Data)ข้อมูลรบกวน (Noisy Data) และ ขอ้ มลู ไม่สอดคล้องกัน (Inconsistent Data) 1) ข้อมูลไม่สมบูรณ์ (Incomplete Data) เช่น ข้อมูลมีค่ำของคุณลักษณะบำงประกำรที่จำเป็นขำดหำยไป (Missing Value) ขำดคุณลักษณะที่น่ำสนใจ หรือ ระบุเป็น N/A ไว้ซง่ึ ขำดรำยละเอยี ดของข้อมูลทสี่ ำมำรถนำไปใช้ประโยชน์ในกำรวิเครำะหไ์ ด้เหมืองขอ้ มลู เบอื้ งตน้

ข้อมลู และกำรจดั เตรียมข้อมูล 53 Id Name Gender Birthdate Income Class1001 Mr.Somchai Pensuk Male 1994/02/14 15000 Aerobic1002 Ms.Somying Jaiyen Female 1991/09/30 N/A Aerobic2003 Mr.Somsri Rakdee Female 1989/12/11 22000 Pilates2001 Ms.Dawan Somrak 1985/03/25 120002002 Ms.Nida Phonpin Female 2545/04/03 16000 Yoga3001 Mr.Chaiya Deejing Male 1990/10/24 17500 Pilates4005 Ms.Wanna Kandee Female 1990/06/12 18000 Yoga ภาพที่ 3-7 ตวั อยำ่ งชดุ ข้อมูลที่ไม่สมบรู ณ์สำหรับกำรจัดกำรกับข้อมูลที่ขำดหำยไปน้ัน มีเทคนิควิธีกำรในกำรจัดกำรได้หลำกหลำยวิธีโดยวิธีกำรท่นี ยิ มใชก้ ัน มดี ังต่อไปน้ี (1) ไม่ใช้ข้อมูลขำดหำยไป เป็นกำรตัดทิ้งแถวรำยกำรข้อมูลท่ีมีข้อมูลสูญหำยra.ac.thนิยมใช้กับกำรทำเหมืองข้อมูลเพื่อกำรจำแนกประเภท (Classification) ในกรณีท่ีพบว่ำมีค่ำคุณลักษณะขำดหำยไปเป็นจำนวนมำก เชน่ จำกภำพที่ 3-7 เม่ือตัดแถวข้อมูลแล้วจะเหลือเฉพำะแถวข้อมลู ที่ครบถว้ น ดังภำพk.chandId Gender1001 Male Femalejm2003 Name Birthdate Income Class Mr.Somchai Pensuk 1994/02/14 15000 Aerobic Mr.Somsri Rakdee 1989/12/11 22000 Pilates2002 Ms.Nida Phonpin Female 2545/04/03 16000 Aerobic4005 Ms.Wanna Kandee Female 1990/06/12 18000 Yoga ภาพท่ี 3-8 ตัวอย่ำงข้อมูลที่ขำดหำยไป (2) เติมเตม็ ข้อมูลท่ีขำดหำยไปดว้ ยมอื คือ กำรค้นหำและเติมเต็มชุดข้อมลู ทขี่ ำดหำยไปด้วยผู้ที่ทำหน้ำท่ีจัดเตรียมข้อมูล หรือผู้รับผิดชอบ ดังนั้นวิธีกำรน้ีจำเป็นต้องใช้เวลำ และไม่เหมำะสมกับชุดข้อมูลทมี่ ีปริมำณมำก เช่น หำกเติมข้อมูลเพศ ให้กับชุดข้อมูล Id 2001 โดยพิจำรณำจำกชื่อลูกคำ้ จะต้องเติม Female2001 Ms.Dawan Somrak Female 1985/03/25 12000 Yoga ภาพท่ี 3-9 กำรเติมเต็มข้อมูลท่ขี ำดหำยไปดว้ ยมอื เหมืองข้อมลู เบือ้ งตน้

54 ข้อมลู และกำรจัดเตรียมข้อมลู (3) เติมเต็มข้อมูลด้วยค่ำท่ีรับรู้โดยสำกล เป็นกำรเติมข้อมูลท่ีขำดหำยไปด้วยค่ำคงท่ีใด ๆ ท่ีกำหนดขึ้นในลักษณะที่ยอมรับกันโดยทั่วไป เช่น “ไม่ระบุค่ำ” “Unknown”ซ่ึงวิธีกำรนี้อำจส่งผลถึงประสิทธิภำพของตัวแบบที่วิเครำะห์ได้ โดยหำกมีกำรเติมค่ำในลักษณะนี้คอ่ นขำ้ งมำก จะทำให้ไมส่ ำมำรถนำขอ้ มลู ไปใช้ประโยชนไ์ ด้ 1002 Ms.Somying Jaiyen Female 1991/09/30 N/A Aerobic ภาพที่ 3-10 กำรเติมเตม็ ขอ้ มลู ด้วยค่ำท่รี บั รู้โดยสำกล (4) เติมเต็มข้อมูลด้วยค่ำเฉลี่ย วิธีกำรนี้เหมำะสำหรับชุดข้อมูลเชิงตัวเลข(Numerical Data) ที่เป็นค่ำจำนวนจริง เป็นกำรเติมข้อมูลท่ีขำดหำยไปโดยใช้ค่ำเฉล่ียของชุดข้อมูลแอตตริบิวต์ น้ัน ๆ นำมำเติมในชุดท่ีขำดหำยไปน่ันเอง เช่น จำกภำพตัวอย่ำงที่ 3-7 หำกทรำบว่ำra.ac.thลกู ค้ำทีร่ ำยได้เฉลย่ี เดือนละ 12000 บำท จะใช้คำ่ นี้แทนค่ำรำยไดข้ องลูกค้ำที่ขำดหำย k.chand1002 Ms.Somying Jaiyen Female 1991/09/30 12000 Aerobic jmภาพท่ี 3-11 กำรเติมเต็มขอ้ มูลดว้ ยคำ่ เฉลี่ย (5) กำรเติมเต็มข้อมูลด้วยค่ำเฉล่ียของชุดข้อมูลที่จัดจำแนกประเภทไว้เป็นประเภทเดียวกัน เป็นวิธีกำรเติมข้อมูลเช่นเดียวกันกับ วิธีกำรที่กล่ำวถึงก่อนหน้ำนี้ แต่เป็นกำรพิจำรณำใช้ค่ำเฉล่ียของชุดข้อมูลเฉพำะท่ีถูกจำแนกไว้เป็นประเภทเดียวกัน นำมำเติม เช่น จำกภำพตัวอย่ำงท่ี 3-7 หำกทรำบว่ำค่ำเฉลี่ยรำยได้ของลูกค้ำท่ีจัดอยู่ในกลุ่มประเภท Yoga อยู่ท่ีเดือนละ13500 บำท จะใช้คำ่ นเี้ ติมเป็นคำ่ รำยไดข้ องลกู คำ้ ที่อยู่ในกลมุ่ ประเภท Yoga ทข่ี ำดหำยไป 1002 Ms.Somying Jaiyen Female 1991/09/30 13500 Aerobicภาพที่ 3-12 กำรเติมเต็มข้อมูลด้วยคำ่ เฉล่ียของชุดข้อมูลท่ีจัดจำแนกประเภทไว้เป็นประเภทเดียวกนัเหมอื งข้อมูลเบื้องตน้

ข้อมูลและกำรจดั เตรยี มข้อมูล 55 (6) กำรเติมเต็มข้อมูลด้วยค่ำท่ีเป็นไปได้มำกท่ีสุด หมำยถึง กำรเติมเต็มข้อมูลดว้ ยค่ำทเ่ี ปน็ ไปไดม้ ำกท่ีสุดนี้ จัดเป็นอีกวธิ ีกำรนยิ มกนั แพร่หลำย เนื่องจำกทำนำยค่ำข้อมูลทีข่ ำดหำยโดยพิจำรณำจำกค่ำของข้อมูลชุดปัจจุบัน และควำมสัมพันธ์ระหว่ำงคุณลักษณะในชุดข้อมูล สำหรับกำรค้นหำค่ำที่เป็นไปได้มำกท่ีสุดน้ัน อำจทำได้โดยกำรคำนวณจำกวิธีกำรทำงคณิตศำสตร์ เช่นค่ำที่ได้จำกสมกำรควำมถดถอย (Regression) ค่ำท่ีได้จำกกำรอนุมำน โดยใช้สูตรของเบย์(Bayesian Formula) หรือวิธีอื่น เช่น วิธีต้นไม้ตัดสินใจ (Decision Tree) โดยใช้ข้อมูลลูกค้ำมำสร้ำงต้นไม้ตัดสินใจ เพ่ือทำนำยรำยได้ของลูกค้ำ แล้วนำไปแทนค่ำที่ขำดหำย ไป เช่นจำกภำพท่ี 3-7 หำกใช้วิธีสร้ำงต้นไม้ตัดสินใจแล้ว จะสำมำรถเติมค่ำให้แก่ข้อมูลชุด Id 3001เปน็ Aerobic ดังภำพjmk.chandra.ac.th3001 Mr.Chaiya Deejing Male 1990/10/24 17500 Aerobicภาพท่ี 3-13 กำรเติมเต็มข้อมลู ดว้ ยคำ่ ทเ่ี ปน็ ไปได้มำกท่ีสุดด้วยวิธีตน้ ไมต้ ดั สนิ ใจ 2) ข้อมูลรบกวน (Noisy Data) เช่น ข้อมูลมีค่ำผิดพลำด (Error) หรือมีค่ำผิดปกติ(Outliers) ในลกั ษณะเกนิ กว่ำขอบเขตของขอ้ เทจ็ จรงิ ของขอ้ มูลนัน้ ๆ ซงึ่ อำจสืบเนอื่ งมำจำก อปุ กรณ์เก็บรวบรวมข้อมูลทำหน้ำที่ผิดพลำด ปัญหำกำรบันทึกหรือป้อนค่ำข้อมูล ปัญหำกำรส่งข้อมูล (datatransmission) ผิดพลำด หรือ ปัญหำด้ำน ข้อจำกัดทำงเทคโนโ ลยี เช่น ข้อจำกัดของขนำดบฟั เฟอร์ เหมืองขอ้ มูลเบอื้ งต้น

56 ข้อมลู และกำรจดั เตรยี มข้อมลู สำหรับกำรจัดกำรกับข้อมูลรบกวน มีเทคนิควิธีกำรในกำรจัดกำรได้หลำกหลำยวิธีเช่น กำรปรับข้อมูลให้เรียบ กำรปรับข้อมูลด้วยกำรวิเครำะห์ควำมถดถอย กำรปรับข้อมูลด้วยกำรจัดกล่มุ (1) กำรปรับข้อมูลให้เรียบ (Binning Methods), เป็นวิธีกำรเรียงลำดับข้อมูลแล้วใชห้ ลกั กำรตดั แบ่งเป็นสว่ น (Partition) แบง่ ข้อมูลออกเปน็ ส่วนแตล่ ะส่วนเรยี กว่ำ “bin” จำกน้ันทำกำรปรับเรียบข้อมูลในแต่ละ bin โดยใช้กำรปรับเรียบข้อมูลแบบท้องถิ่น เรียกว่ำ“local smoothing” โดยอำศัยค่ำที่ได้จำกเพื่อนบ้ำนใกล้เคียง (Neighborhood) ใน bin หรือbucket เดยี วกัน เช่น ใช้ค่ำเฉล่ยี (Means) คำ่ กลำง (Medians) หรือคำ่ ขอบ (Boundaries) jmk.chandra.ac.th ภาพที่ 3-14 ตวั อย่ำงกำรจดั กำรข้อมลู รบกวนด้วยกำรปรับข้อมลู ให้เรยี บ (Binning Methods) (2) กำรปรับข้อมูลด้วยกำรวิเครำะห์ควำมถดถอย (Regression Methods)เป็นวิธีกำรปรับข้อมูล ด้วยกำรทำนำยค่ำของตัวแปร จำกสมกำรควำมถดถอยที่หำได้ ด้วยวิธีควำมผดิ พลำดน้อยท่ีสดุ (Least-square error) จำกชุดขอ้ มูลตัวอยำ่ งทีม่ ีเหมอื งขอ้ มลู เบอื้ งตน้

ข้อมลู และกำรจดั เตรียมข้อมูล 57 ภาพที่ 3-15 ตวั อย่ำงกำรวิเครำะห์ควำมถดถอย (Regression Methods) ra.ac.th(3) กำรปรับข้อมูลด้วยกำรวิเครำะห์กำรจัดกลุ่ม (Clustering) เป็นวิธีกำรช่วยตรวจหำควำมผิดปกติของชุดข้อมูล โดยอำศัยวิธีกำรวิเครำะห์พิจำรณำควำมใกล้เคียง และควำมแตกต่ำงของชุดข้อมูลเพื่อ จัดกลุ่ม และ กำจัดค่ำที่ผิดปกติ (Outlier) เช่น ค่ำที่สูงกว่ำ หรือjmk.chandต่ำกวำ่ ปกติ จะไมส่ ำมำรถจดั อยูใ่ นกลุ่มใดๆ และตกอยูน่ อกกลุ่ม ภาพท่ี 3-16 ตวั อย่ำงปรับข้อมลู ด้วยกำรวเิ ครำะห์กำรจัดกลมุ่ (Clustering) เหมืองข้อมลู เบอื้ งต้น

58 ข้อมลู และกำรจดั เตรียมข้อมลู 3) ข้อมูลไม่สอดคล้องกัน (Inconsistent Data) เช่น ข้อมูลเดียวกัน แต่ตั้งช่ือต่ำงกันหรือใช้คำ่ แทนขอ้ มูลทตี่ ่ำงกนั หรอื ข้อมลู ทมี่ ีควำมขดั แย้งกนั เอง วิธกี ำรแก้ไขข้อมูลท่ีสอดคล้องกนั ทำได้โดย (1) พิจำรณำและผสำนโครงสร้ำงกำรจัดเก็บข้อมูล (Schema Integration)โดยใช้ Metadata ช่วยในกำรบ่งช้ีแหล่งจัดเก็บข้อมูลต่ำงๆ รวมไปถึงควำมสัมพันธ์ระหว่ำงตำรำงเพ่อื ตรวจสอบว่ำเป็นขอ้ มลู ทสี่ มั พนั ธ์กันอยำ่ งไร เช่น คุณลกั ษณะ Id ในแหล่งขอ้ มลู A เป็นคณุ ลกั ษณะเดยี วกบั CustID ในแหลง่ ขอ้ มลู B หรอื ไม่ (2) ตรวจหำและแก้ไข ค่ำข้อมูลที่มีควำมขัดแย้งกัน เช่น คำ่ คุณลักษณะเดียวกันแต่ใช้หน่วยวัดต่ำงๆกัน ในแต่ละแหล่งข้อมูล ดังเช่นในภำพที่ 3-7 ปรำกฏข้อมูล Birthdateท่ีมีค่ำควำมขัดแย้ง เนื่องจำกรูปแบบควรเป็น ค.ศ. แต่มีชุดข้อมูลบำงรำยกำรท่ีผิดปกติ ทำให้เกิดควำมขัดแย้ง โดยดำเนินกำรแกไ้ ขปีเกดิ ของขอ้ มลู ชุด Id 2002 เป็นปี ค.ศ. 2002 ra.ac.th2002 Ms.Nida Phonpin Female 2545/04/03 16000 Pilates k.chand2002 Ms.Nida Phonpin Female 2002 /04/03 16000 Pilates jmภาพที่ 3-17 ตัวอย่ำงกำรปรับแก้ไขข้อมูลท่ีมรี ูปแบบขัดแย้งกัน หรือในชดุ ข้อมลู Id 2003 ท่ปี รำกฏช่ือ Mr.Somsri แต่ปรำกฏเพศเป็น Female แสดงให้เห็นวำ่ มีควำมขัดแย้งกนั ในชดุ ขอ้ มูล ซึง่ อำจปรับแกไ้ ขเปน็ Male ดงั ภำพ 2003 Mr.Somsri Rakdee Female 1989/12/11 22000 Pilates 2003 Mr.Somsri Rakdee Male 1989/12/11 22000 Pilates ภาพที่ 3-18 ตัวอยำ่ งกำรปรับแก้ไขข้อมลู ที่มคี วำมขัดแยง้ กนัเหมอื งข้อมลู เบอ้ื งตน้

ข้อมลู และกำรจดั เตรียมข้อมูล 592. กำรผสำนข้อมลูกำรผสำนขอ้ มูล (Data Integration) เป็นข้ันตอนกำรวมข้อมูล โดยตอ้ งมกี ำรตรวจสอบก่อนท่ีมำของข้อมูลก่อนเป็นอันดับแรก ว่ำ แหล่งที่มำของข้อมูลต่ำง ๆ นั้น มีกำรกำหนดรูปแบบกำรจัดเก็บข้อมูล เหมือนกัน หรือมีควำมแตกต่ำงกันอย่ำงไร และกำรกำหนดรูปแบบของกำรจัดเก็บข้อมูลเป็นอย่ำงไร ทั้งน้ี เพื่อ เป็นกำรรวบรวมข้อมูลจำกแหล่งท่ีเก็บต่ำงๆมำไว้ท่ีเดียวกัน กำรผสำนข้อมูลจำกแหล่งต่ำงๆ เพื่อช่วยลดหรือหลีกเล่ียงควำมซ้ำซ้อนของข้อมูล (Data Redundancies)ซง่ึ จะนำไปสู่ปญั หำควำมไม่สอดคล้องกันของข้อมูล (Data inconsistencies) อีกทั้งเพ่ือเพ่ิมควำมเร็วและคณุ ภำพในกำรทำเหมอื งข้อมลู ซ่งึ สำมำรถทำได้โดยกำรกำจัดค่ำข้อมูลซ้ำซ้อน เช่น ค่ำคุณลักษณะในแหล่งข้อมูลหน่ึง อำจเป็นค่ำที่ได้จำกกำรคำนวณในอีกแหล่งข้อมูลหนึ่ง เช่น อำยุ คำนวณได้มำจำก วันเดือนปีเกิด หรือ ตัวอย่ำงเช่นจำกตัวอย่ำงภำพที่ 3-7 คำนำหน้ำช่ือ Ms. หรือ Mr. น้ันเป็นกำรระบุเพศ เช่นเดียวกับ Genderดังนั้นในกรณที ีข่ อ้ มูลมีปริมำณมำก หำกปรับข้อมูลโดยตดั คำนำหนำ้ ชือ่ ออก จะชว่ ยให้กำรประมวลผลra.ac.thวิเครำะหข์ อ้ มลู เรว็ ขึน้ IdName Gender Id Name GenderMr.Somchai Pensuk Male 1001 Somchai Pensuk Malek.chand1001Ms.Somying JaiyenFemale 1002 Somying Jaiyen FemaleMr.Somsri Rakdee Male 2003 Somsri Rakdee Male1002Ms.Dawan SomrakFemale 2001 Dawan Somrak Female2003Ms.Nida PhonpinFemale 2002 Nida Phonpin Female2001jm20023001 Mr.Chaiya Deejing Male 3001 Chaiya Deejing Male4005 Ms.Wanna Kandee Female 4005 Wanna Kandee Female ภาพที่ 3-18 ตัวอย่ำงกำรปรับแก้ไขกำจัดค่ำข้อมูลท่ีซ้ำซ้อน 3. กำรปรบั สภำพข้อมลู กำรปรับสภำพข้อมูล (Data Transformation) หรือ กำรแปลงข้อมูล น้ัน เป็นกำรปรับค่ำของชุดข้อมูลที่จะนำมำใช้ในกำรวิเครำะห์ทำเหมืองข้อมูลให้มีควำมเหมำะสม จัดได้ว่ำเป็นกำรลดระยะห่ำงของชุดช้อมูล เน่ืองจำกหำกข้อมูลมีระยะห่ำงมำกเกินไป จะส่งผลต่อกำรวิเครำะห์ข้อมูลในบำงเทคนิควิธี ดังน้ันกำรปรับสภำพข้อมูลให้เหมำะสม ก็เพ่ือเพ่ิมคุณภำพของข้อมูลใหไ้ ดผ้ ลลพั ธก์ ำรวิเครำะหต์ วั แบบทม่ี ีประสิทธิภำพ เหมืองขอ้ มลู เบอ้ื งต้น

60 ข้อมูลและกำรจัดเตรยี มข้อมูลวิธีกำรแปลงข้อมูลที่พบบ่อยในกำรทำเหมืองข้อมูลคือ กำรทำวี-นอร์มอลไลซ์เซชัน(V-Normalization) กำรปรับลดกำรกระจำยข้อมูล (Discretization) กำรกำหนดรหัสข้อมูล(1 of N Coding) และ กำรปรบั ลดรำยละเอยี ดขอ้ มูล (Generalization)1) กำรทำวี-นอรม์ อลไลซ์เซชนั กำรทำวี-นอร์มอลไลซ์เซชัน (V-Normalization) เป็นกำรเป็นกำรปรับคำ่ ชุดข้อมูลเชิงปริมำณ (Quantitative Variable) และข้อมูลตัวเลข (Numerical Variable) แปลงค่ำข้อมูลให้อยู่ในช่วงที่กำหนด ซึ่งกำรทำนอร์มอลไลซ์ข้อมูล ที่ได้รับควำมนิยมได้แก่ วิธีแปลงข้อมูลให้อยู่ในช่วงที่กำหนดด้วยกำรกำหนดค่ำต่ำสุด-สูงสุด (Min-Max Normalization) วิธีปรับค่ำฐำนสิบ (Decimal Scaling Normalization) และ วิธีปรบั ค่ำกำรกระจำยของข้อมลู (Z-Score) (1) วิธีแปลงข้อมลู ให้อยู่ในช่วงที่กำหนดดว้ ยกำรกำหนดคำ่ ตำ่ สุด-สูงสุด กำ ร แ ป ล ง ข้ อมู ล ให้ อยู่ ใ น ช่ ว ง ที่ กำ หน ด ด้ ว ย กำ ร กำ ห นด ค่ ำ ต่ ำ สุ ด - สู ง สุ ด(Min-Max Normalization) ดงั สมกำรra.ac.thv' v minA (new _ maxA  new _ minA)  new _ minA maxA  minA k.chandยกตัวอย่ำง เช่น ขอ้ มูลคอลัมน์รำยได้ (income) มีค่ำต่ำสุด 12,000 (min) และมีค่ำมำกที่สุด98,000 (max) หำกต้องกำรแปลงชุดข้อมูลรำยได้ ให้อยู่ระหว่ำงค่ำต่ำสุดคือ 0 และ สูงสุด คือ 100jmดังนั้นข้อมูลข้อมูลรำยได้ต่ำสุด ( new_ minA ) 12,000 จะมีค่ำเท่ำกับ 0 และข้อมูลรำยได้สูงสุด( new _ maxA ) 98,000 จะมรี ำยได้เท่ำกับ 100 และหำกตอ้ งกำรแปลงชุดข้อมลู ที่มรี ำยได้คอื 73,600ให้อยใู่ นช่วงที่กำหนด จะมีค่ำใหม่ ( v') เป็น 71.63 ดงั ปรำกฎกำรแทนค่ำในสมกำร v' 73600  12000 (100  0)  0  61600 (100)  71.63 98000  12000 86000 (2) วิธปี รบั ค่ำฐำนสิบ กำรปรบั ค่ำฐำนสิบ (Decimal Scaling Normalization) เป็นกำรแปลงขอ้ มูลเชิงตัวเลขให้อยู่ในรูปแบบทศนิยม ภำยใต้ค่ำสัมบูรณ์ของค่ำในชุดข้อมูลที่มีค่ำมำกที่สุดเป็นชว่ งกำหนด ดงั สมกำร v'  v j 10เหมอื งข้อมูลเบอื้ งตน้

ข้อมูลและกำรจัดเตรยี มข้อมูล 61 ตัวอย่ำงเช่น ข้อมูลค่ำดัชนีมูลค่ำซื้อขำยหลักทรัพย์ มีค่ำท่ีเป็นไปได้ คือ ค่ำต่ำที่สุดและ ค่ำสูงที่สุด อยู่ในช่วงระหว่ำง -944 ถึง 825 ดังน้ัน จะได้ว่ำค่ำสัมบูรณ์ท่ีมำกที่สุด ( v )คือ - 944 = 944 ดัง น้ั น ห ำก กำ ห น ด จ ำ น ว น ตำ แห น่ งท ศนิ ย ม ( j ) เ ป็น 3 ตำ แห น่ ง(หำรค่ำด้วย 1000) ผลลพั ธค์ อื คำ่ -944 จะถูกแปลงเป็นเป็นค่ำใหม่ ( v') คือ 0.944 - 944 v' 103  0.944 (3) วิธปี รับค่ำกำรกระจำยของข้อมลู กำรปรับค่ำกำรกระจำยของข้อมูล (Z-Score) เป็นกำรปรับค่ำกำรกระจำยของข้อมูล ให้มีค่ำเท่ำกับ 0 และค่ำส่วนเบี่ยงเบนมำตรฐำนเท่ำกับ 1 โดยวิธีกำรนี้จะต้องทรำบคำ่ เฉลี่ย และคำ่ สว่ นเบีย่ งเบนมำตรฐำนของชุดข้อมลู ดงั สมกำร v'  v  meanA ra.ac.thstand_devA ตัว อย่ ำงเช่น ข้อมูล คอลัม น์ รำยได้ (income) มีค่ำเฉลี่ ย ( meanA) 56,000 แล ะk.chandมีค่ำเบี่ยงเบนมำตรฐำน ( stand_devA ) 12,000 หำกต้องกำรแปลงค่ำชุดข้อมูลรำยกำรหนึ่งทม่ี คี ่ำรำยไดเ้ ป็ฯ 62,400 ไปเป็นค่ำใหม่ ( v') ตำมวธิ ี Z-Score จะได้ 0.533 jm v' 62400  56000  0.533 12000 2) กำรปรบั ลดกำรกระจำยข้อมลู กำรปรับลดกำรกระจำยข้อมูล (Discretization) คือขั้นตอนกำรแปลงข้อมูลท่ีเป็นจำนวนจริงต่อเนื่องให้เป็นช่วงข้อมูล จัดเป็นกำรลดกำรกระจำยของข้อมูล โดยกำหนดให้เป็นช่วงข้อมูลแทน ตัวอย่ำง เช่น กำหนดอำยุของลูกค้ำ ให้เป็นช่วงข้อมูล เช่น ช่วงอำยุไม่เกิน 20 ปีช่วงอำยุ 21-25 ปี ชว่ งอำยุ 26-30 ปี ช่วงอำยุ 31- 35 ปี และ ชว่ งอำยตุ ้ังแต่ 36 ปขี ้ึนไป ตำมลำดบั 3) กำรปรับค่ำเปน็ รหสั ตวั เลข กำรปรับค่ำเป็นรหัสตัวเลข (1 of N Coding) คือ ข้ันตอนกำหนดรหัสข้อมูล โดยกำรแปลงข้อมูลจำกตัวอักษรให้เป็นตัวเลข โดยตัวเลขทถ่ี ูกกำหนดไมใ่ ช่ข้อมูลเชิงปรมิ ำณ ไม่สำมำรถนำไปคำนวณได้ เน่ืองจำกไม่ได้ส่ือควำมหมำยถึงลำดับควำมมำกน้อย ตัวอย่ำงเช่น กำรกำหนดรหัสใหก้ ับข้อมูลชื่อจังหวัด เปน็ ตน้ เหมอื งข้อมูลเบอ้ื งตน้

62 ข้อมูลและกำรจดั เตรียมข้อมูล 4) กำรปรับลดรำยละเอียดขอ้ มลู กำรปรับลดรำยละเอียดข้อมูล (Generalization) เป็นกำรแปลงข้อมูลทีมีรำยละเอียดมำกเกินไปให้มี ควำมกระชับมำกยิ่งขึ้น เช่น ข้อมูลภูมิลำเนำของลูกค้ำ ที่อำจมีรำยละเอียด ถนนตำบล อำเภอ จังหวดั อำจจะทำกำรแปลงขอ้ มลู ให้มีควำมกระชับขึ้น เป็นอยู่ในจงั หวดั ใด หรือ กำหนดเป็นภมู ภิ ำค เช่น ภำคเหนือตอนบน ภำคกลำง ภำคใต้ เป็นตน้ 4. กำรลดรูปข้อมลู กำรลดรูปข้อมูล (Data Reduction) เป็นขั้นตอนในกำรลดขนำดของข้อมูล เพ่ือให้ข้อมูลมีปริมำณเหมำะสม โดยเฉพำะอย่ำงย่ิง บ่อยคร้ังท่ีมีกำรคัดเลือกข้อมูลเข้ำสู่กำรทำเหมืองข้อมูลเป็นปริมำณมำกจำกคลังข้อมูลท่ีมีขนำดเป็นเทรำไบต์ ดังนั้นกำรวิเครำะห์ หรือกำรทำเหมืองข้อมูลที่ซับซ้อน ต้องใช้เวลำนำนในกำรประมวลผลข้อมูลปริมำณมำก ๆ เหล่ำน้ี กำรลดขนำดข้อมูลจึงมีควำมจำเป็นอย่ำงย่ิง โดยวัตถุประสงค์เพ่ือเป็นกำรเตรียมข้อมูลให้มีปริมำณท่ีเหมำะสมra.ac.thต่อกำรวิเครำะห์ข้อมูล และจะต้องอยู่บนพื้นฐำนของลักษณะข้อมูล กำรกระจำยของชุดข้อมูล ทั้งนี้ก็เพ่ือควำมเที่ยงตรง และควำมถูกต้องของผลลัพธ์ท่ีได้จำกกระบวนกำรเหมืองข้อมูล และ ลดภำระกำรประมวลผลขอ้ มูล และเพิม่ ควำมเร็วในกำรทำเหมอื งขอ้ มลู k.chandอำจกล่ำวได้ว่ำ กำรลดรูป เป็นกำรกระทำเพื่อแทนข้อมูล ด้วยรูปแบบกะทัดรัดเพอ่ื ให้ใช้พ้ืนทใ่ี นกำรจัดกำรข้อมูลน้อยกว่ำ แต่สำมำรถนำไปใช้วิเครำะห์ แลว้ เกดิ ผลลพั ธท์ เ่ี ท่ำกนั หรือเทยี บเท่ำกนั กบั กำรวเิ ครำะหจ์ ำกขอ้ มลู ทง้ั หมด jmกำ ร ล ด รู ป ข้ อมู ล ส ำ ม ำ ร ถท ำ ได้ 2 แน ว ท ำง คื อ กำ ร ล ดป ริ ม ำณ ข้ อ มู ล(Data Size Reduction) และ กำรลดมิตขิ อ้ มูล (Dimensionality Reduction) 1) กำรลดปริมำณขอ้ มูล กำรลดปริมำณข้อมูล (Data Size Reduction) เป็นกำรลดจำนวนชุดข้อมูลใช้แถวเป็นหลกั ในกำรลดขอ้ มูล หมำยถึง กำรลดจำนวนชดุ ข้อมลู หรือ เรคคอร์ด (Records) 2) กำรลดมิตขิ อ้ มูล กำรลดมิติข้อมูล (Dimensionality Reduction) โดยกำรลดจำนวนแอตตริบิวต์ข้อมูลของแตล่ ะเรคคอรด์ ขอ้ มูล สำหรับข้อมูลท่ีผ่ำนกำรลดขนำดแล้วจะถูกแบ่งออกเป็นสองส่วน ส่วนแรกใช้ในกระบวนกำรค้นหำรูปแบบ แพทเทิรน์ หรือควำมสัมพนั ธ์จำกขอ้ มูล เรยี กขอ้ มูลสว่ นนว้ี ่ำ ชดุ ข้อมลู เรียนรู้ (TrainingData Set) ส่วนที่สองใช้ตรวจสอบควำมถูกต้องของรูปแบบ แพทเทิร์น เรียกข้อมูลส่วนนี้ว่ำชุดขอ้ มลู ทดสอบ (Testing Data Set)เหมอื งข้อมลู เบอื้ งตน้

ข้อมูลและกำรจัดเตรยี มข้อมูล 63บทสรปุ ขอ้ มูล (Data) ปัจจัยเร่ิมต้น ท่ีนำมำสู่ กำรจัดเก็บ จัดกำร และกำรใช้ประโยชน์ ซึ่งหมำยรวมไปถึงกำรทำเหมืองข้อมูล อันเป็นส่วนหน่ึงของกำรต่อยอดใช้ประโยชน์ข้อมูลที่ถูกจัดเก็บอยู่ให้เกิดประโยชน์สูงสุด ข้อมูล สำมำรถแบ่งออกเป็นจำแนกได้เป็น 3 ส่วนคือ ข้อมูล (Data) ข้อเท็จจริงเก่ียวกับส่ิงต่ำง ๆ เช่น คน สัตว์ สิ่งของหรือเหตุกำรณ์ กจิ กรรม หรือ รำยกำรธุรกรรมทเ่ี ก็บบันทึกไว้ซ่ึงอำจอยู่ในรูปของตัวเลขตัวอักษร หรือข้อควำม รวมถึงภำพและเสียง ที่ยังไม่ผ่ำนกำรประมวลผล2) สำรสนเทศ (Information) ผลลัพธ์ที่ได้จำกกำรนำข้อมูลไปผ่ำนกำรประมวลผล หรือกำรจัดกำรให้มีควำมถูกต้องทันสมัย และ 3) องค์ควำมรู้ (Knowledge) สำรสนเทศท่ีถูกคัดเลือกเพื่อนำมำใช้ในกำรแก้ไขปญั หำต่ำง ๆ ซง่ึ มคี วำมเกยี่ วขอ้ ง สัมพนั ธก์ นั ขอ้ มูลสำมำรถรวบรวมได้จำกแหล่งที่มำท้ังแหล่งข้อมูลภำยในองค์กร และแหล่งข้อมูลท่ีอยู่ภำยนอกองค์กร โดยวิธีกำรศึกษำรวบรวม สำรวจสังเกตกำรณ์ และต้องพิจำรณำคุณภำพของข้อมูล ท่ีสำมำรถทำมำใช้ประโยชน์ อีกทั้งพิจำรณำทำควำมเข้ำใจกับปัญหำของข้อมูล อันได้แก่ ข้อมูลไม่ถูกต้อง ไม่เป็นปัจจุบัน และ ไม่เหมำะสมra.ac.thกับกำรใชง้ ำน ชนดิ ของขอ้ มูลมีทั้งแบบมีโครงสร้ำง ในรูปแบบตำรำง ในฐำนขอ้ มลู และไม่มโี ครงสร้ำงในรปู แบบ ขอ้ ควำม รปู ภำพ มัลติมเี ดีย เป็นตน้ k.chandประเภทของข้อมูลท่ีใช้ในกำรทำเหมืองข้อมูล ได้แก่ ฐำนข้อมูลเชิงสัมพันธ์ (RelationalDatabase) คลังข้อมูล (Data Warehouse) ฐำนข้อมูลเชิงธุรกรรม (Transactional Database)และ ฐำนข้อมูลขน้ั สูง (Advance Database) โดยควรมีลักษณะที่เหมำะสม คือ เป็นขอ้ มูลขนำดใหญ่jmเกินกว่ำจะพิจำรณำด้วยฐำนข้อมูล เป็นข้อมูลที่มำจำกหลำยแหล่ง เป็นข้อมูลท่ีมีควำมคงท่ี และเป็นขอ้ มูลท่มี ีโครงสร้ำงซับซ้อน ข้ันตอนและวิธีกำรเตรียมข้อมูลประกอบด้วย 4 ข้ันตอน ได้แก่ 1) กำรสำรวจและตรวจสอบข้อมูล (Data Exploration and Cleaning) เป็นขั้นตอนกำรตรวจสอบควำมสมบูรณ์ของข้อมูลทำกำรคัดกรองข้อมูล โดยเฉพำะอย่ำงย่ิงกำรคัดกรอง และจัดกำรกับข้อมูลท่ีขำดหำยไป โดยกำรเติมเต็มข้อมูล และ จัดกำรกับข้อมูลท่ีมีควำมผิดพลำด หรือ ผิดปกติ หรือ ข้อมูลไม่สอดคล้องกันให้มีควำมถูกต้อง พร้อมสำหรับกำรวิเครำะห์ข้อมูล 2) กำรผสำนข้อมูล (Data Integration)เป็นขั้นตอนกำรวมข้อมูล เพ่ือช่วยลดหรือหลีกเลี่ยงควำมซ้ำซ้อนของข้อมูล (Data Redundancies)ซ่ึ ง จ ะ น ำ ไ ป สู่ ปั ญ ห ำ ค ว ำ ม ไ ม่ ส อ ด ค ล้ อ ง กั น ข อ ง ข้ อ มู ล 3) ก ำ ร ป รั บ ส ภ ำ พ ข้ อ มู ล(Data Transformation) หรือ กำรแปลงข้อมูล น้ัน เป็นกำรปรับค่ำของชุดข้อมูลที่จะนำมำใช้ในกำรวิเครำะห์ทำเหมืองข้อมูลให้มีควำมเหมำะสม และ 4) กำรลดรูปข้อมูล (Data Reduction)เป็นขั้นตอนในกำรลดขนำดของข้อมลู เพื่อใหข้ ้อมลู มีปรมิ ำณเหมำะสม เหมืองข้อมูลเบือ้ งตน้

64 ข้อมลู และกำรจัดเตรยี มข้อมลูเอกสารอ้างองิกฤษณะ ไวยมัย และ ธีระวัฒน์ พงษ์ศิริปรีดำ. “กำรใช้เทคนิค Association Rule Discovery เพื่อ กำรจัดสรรกฎหมำยในกำรพิจำรณำคดีควำม.” NECTEC Technical Journal. ปีที่ 3 ฉบบั ท่ี 11, (2544) : 143 - 52.ชนวัฒน์ ศรีสอ้ำน. ฐานข้อมูล คลังข้อมูล และเหมืองข้อมูล. ปทุมธำนี: สำนักพิมพ์ มหำวิทยำลัย รงั สติ , 2550.ชิดชนก ส่งศริ ิ, ธนำวนิ ท์ รกั ธรรมำนนท์ และ กฤษณะ ไวยมยั . “กำรใชเ้ ทคนคิ ดำต้ำไมนน์ ิงเพื่อพฒั นำ คุณภำพกำรศึกษำคณะวิศวกรรมศำสตร์.” NECTEC Technical Journal. ปีท่ี 11 ฉบบั ท่ี 3, 2545 : 134-42.อ ดุ ล ย์ ยิ้ ม ง ำ ม . ก า ร ท า เ ห มื อ ง ข้ อ มู ล Data Mining [อ อ น ไ ล น์ ]. เ ข้ ำ ถึ ง ไ ด้ จ ำ ก : http://compcenter.bu.ac.th/index.php?option=com_content&task=view&id=7 ra.ac.th5&Itemid=172. (วันที่ค้นขอ้ มูล : 17 มถิ นุ ำยน 2554)Bing, L., Wynne, H. and Yiming, M. “Mining Association Rules with Multiple Minimum k.chandSupports.” Proceeding of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Diego, 1999.D. J. Hand, H. Mannila, and P. Smyth, Principles of Data Mining. MIT Press, 2001.jmDavid, L. Handbook of Genetic Algorithms. New York: Van Nostrand Reinhold., 1991.Linoff, G. and Berry, M. Data Mining Techniques. John Wiley & Sons. , 1997.M. Bramer, Principles of Data Mining. Springer, 2013.Mahapatra, I. and Bose, R. K. Business Data Mining - a Machine Learning Perspective. Information and Management. 39, 2001 : 211-25.เหมอื งข้อมูลเบื้องต้น

ข้อมูลและกำรจดั เตรยี มข้อมูล 65คาถามทบทวน1. ขอ้ มลู หมำยถงึ2. ลักษณะของข้อมูลทเ่ี หมำะสมกับกำรทำเหมืองขอ้ มูล คือ3. วิธีกำรเตรียมข้อมลู สำหรับเหมอื งขอ้ มลู ไดแ้ ก่ อะไรบำ้ ง4. กำรลดรูปข้อมลู คืออะไร jmk.chandra.ac.th เหมืองขอ้ มลู เบอ้ื งตน้

66 ข้อมูลและกำรจัดเตรียมข้อมูล jmk.chandra.ac.thเหมอื งข้อมูลเบื้องต้น

4 เครอื่ งมอื สำหรบั กำรทำเหมอื งขอ้ มูล ra.ac.thในการทาเหมืองข้อมูลน้ัน นอกจากจะต้องมีข้อมูลเป็นปัจจัยสาคัญแล้ว เคร่ืองมือในการทาk.chandเหมืองข้อมูลถือเป็นอีกส่วนสาคัญ โดยเฉพาะอย่างยิ่งสาหรับขั้นตอนการทาเหมืองข้อมูล เครื่องมือสาหรับการทาเหมืองข้อมลู ถือได้ว่าเป็นซอฟต์แวรท์ ี่ใช้สาหรับการค้นหา กาหนดรปู แบบ โมเดล หรือแบบจาลอง ที่ได้มาจากการใช้เทคนิควิธีการต่าง ๆ ในการทาเหมืองข้อมูลนั่นเอง ซึ่งเครื่องมือในการjmทาเหมืองข้อมลู น้ัน กค็ ือซอฟต์แวร์สาหรับการวิเคราะห์ข้อมูล ซึง่ มีท้ังซอฟต์แวร์ที่ถูกพัฒนาขึ้นเฉพาะด้าน หรือเป็นเคร่ืองมือสาหรับรูปในการวิเคราะห์ข้อมูล การประยุกต์ใช้ซอฟต์แวร์เพ่ือการทาเหมืองข้อมลู นน้ั ถือเป็นอีกเร่ืองท่ีสาคัญท่ีควรทาความเขา้ ใจ ดงั น้ันเน้ือหาในบทนี้จะเป็นการอธิบายเพ่ือใหผ้ ู้อ่านไดท้ าความเข้าใจถึง เคร่ืองมือสาหรบั การทาเหมืองขอ้ มูล พร้อมทั้งยกตัวอยา่ งซอฟต์แวร์สาหรับการทาเหมืองข้อมูลท่ีได้รับความนิยม โดยแบ่งเนอ้ื หาภายในบทเป็นหัวขอ้ ดงั น้ี 1. เครื่องมือในการทาเหมอื งข้อมลู 2. ตวั อย่างซอฟต์แวรเ์ หมอื งขอ้ มูลทีไ่ ดร้ บั ความนยิ ม เหมอื งขอ้ มลู เบื้องต้น

68 เคร่อื งมอื สาหรับการทาเหมืองข้อมูลเครอ่ื งมอื สำหรับกำรทำเหมอื งขอ้ มูล เคร่ืองมือสาหรับการทาเหมืองข้อมูล (Data Mining Tool) หมายถึง ชุดคาสั่ง โปรแกรมสาเร็จรูป หรือ ซอฟต์แวร์ สาหรับการวิเคราะห์ข้อมูล ที่ผ่านการคัดเลือก และจัดเตรียมข้อมูลตามวัตถุประสงค์ของการใช้งานแล้ว โดยซอฟต์แวร์เหล่านั้นอาจถูกพัฒนาข้ึนเพื่อวัตถุประสงค์ในการจัดการข้อมูล หรอื วัตถุประสงค์อืน่ ๆ และเพ่ิมความสามารถในการวเิ คราะห์ทาเหมืองข้อมูลเขา้ ไป 1. คณุ สมบัติของเครอื่ งมอื สำหรบั กำรทำเหมืองข้อมูล จากแนวคิด หลักการทาเหมืองข้อมูลที่กล่าวถึงในบทก่อน ๆ น้ัน จะเห็นได้ว่า ขั้นตอนสาคัญของการทาเหมืองข้อมูล คือ การวิเคราะห์ข้อมูล ด้วยเทคนิค วิธีการ อัลกอริทึมต่าง ๆ เพื่อให้ได้มาซ่ึงตัวแบบ หรือ โมเดล เพื่อนาไปใช้ประโยชน์ ดังน้ันเครื่องมือสาหรับการทาเหมืองข้อมูลนั้นควรต้องมีคุณลกั ษณะที่สาคัญ คือ 1) รองรับการเข้าถึงข้อมูลจากแหล่งข้อมูลท่ีหลากหลาย เน่ืองจากความต้องการให้ra.ac.thการทาเหมืองข้อมูลส่วนใหญ่น้ัน มักเป็นการค้นหาคาตอบจากฐานข้อมูลขนาดใหญ่ หรือ จากการรวบรวมข้อมลู จากหลายแหล่งขอ้ มูล 2) สามารถคดั กรอง จัดเตรียมข้อมูล เบ้อื งต้น เพ่ือนาสกู่ ระบวนการทาเหมอื งข้อมลู k.chand3) มสี ว่ นการทางานวิเคราะห์ข้อมลู สอดคล้องกบั ความต้องการในการทาเหมืองข้อมูลเช่น เพือ่ การค้นหาความสมั พนั ธ์ หรอื เพ่ือการคาดการณ์ การทานาย การจดั กลุม่ การจาแนกประเภทดว้ ยเทคนคิ หรือ อลั กอริทึมทีห่ ลากหลาย jm4) สามารถแสดงผลการวิเคราะห์ข้อมูล ท่ีเข้าใจได้ง่าย โดยเฉพาะอย่างย่ิงในรูปแบบกราฟิก 2. ประเภทของซอฟตแ์ วร์สำหรับกำรทำเหมืองข้อมูล ซอฟต์แวร์สาหรับการทาเหมืองข้อมูลในปัจจุบัน มีค่อนข้างหลากหลาย ทั้งในรูปแบบของซอฟต์แวร์เชิงการค้า และ ซอฟต์แวร์ท่ีพัฒนาเพื่อการศึกษา วิจัย โดยสามารถแบ่งประเภทของซอฟต์แว ร์สาหรับทาเหมืองข้อมูล ออกได้ตามลักษณะจุดประสงค์การใช้ งาน ดังนี้(kdnuggets, 2557) 1) ซอฟต์แวร์จาแนกประเภท (Classification Software) คือ ซอฟต์แวร์ท่ีมีลักษณะการทางานในการสร้างตัวแบบ ที่เรียกว่า โมเดล ที่ใช้สาหรับการจาแนกประเภทข้อมูลต้ังแต่2 ประเภทขึ้นไป ด้วยเทคนิควิธี หรือ อัลกอริทึม (Algorithm) ต่าง ๆ เช่น Decision Tree หรือRules-based ห รื อ Bayesian Support Vector Machine (SVM) ห รื อ Fuzzy Logic แ ล ะแนวทางอื่น ๆ เช่น การวิเคราะห์ข้อมูล ROC เป็นต้น โดยซอฟต์แวร์จาแนกประเภท ยังแบ่งออกเหมอื งขอ้ มลู เบื้องตน้

เครือ่ งมือสาหรบั การทาเหมืองขอ้ มลู 69ตามเทคนิคต่าง ๆ เชน่ ซอฟตแ์ วรจ์ าแนกประเภทแบบผสมผสาน (Multi-Approach ClassificationSoftware) ได้แก่ Oracle Data Miner หรือ STATISTICA XLMiner ซ่ึงเป็น Add-on ของ Excelเป็นต้น ซึ่งเป็นตัวอย่างของซอฟต์แวร์เชิงการค้า และ ตัวอย่างซอฟต์แวร์เพ่ือการจาแนกประเภทแบบอืน่ ๆ เช่น WEKA RapidMiner เปน็ ต้น 2) ซอฟต์แวร์แบ่งส่วนและจัดกลุ่ม (Clustering and Segmentation Software)เป็น ซอฟตแ์ วร์ทีม่ ีรปู แบบการทางานมุง่ เน้นการวิเคราะห์ข้อมูล เพ่อื วตั ถุประสงค์ในการจัดกลุ่มข้อมูลหรือ แบ่งข้อมูลเป็นส่วน ๆ โดยอาศัยเทคนิคเช่น K-Mean Clustering เป็นต้น ตัวอย่างของซอฟต์แวร์เหมืองข้อมูลแบ่งส่วนและจัดกลุ่ม เช่น CLUTO หรือ Autoclass C ซ่ึงเป็นซอฟต์แวร์แบบไม่มีคา่ ใช้จา่ ย และ PolyAnalysis หรอื BayesiaLab ซึง่ เปน็ ซอฟต์แวร์เชิงการค้าเป็นตน้ 3) ซอฟต์แวร์เชิงวิเคราะห์และสร้างจินตทัศน์ (Link Analysis and VisualizationSoftware) เป็นซอฟต์แวร์ที่เน้นการวิเคราะห์ความสัมพันธ์ และการนาเสนอข้อมูลแบบจินตทัศน์(Visualization) ซ่ึงมักจะใช้กับการวิเคราะห์ข้อมูลเครือข่ายสังคม (Social Network) เพื่อให้เห็นra.ac.thความเช่ือมโยงของบุคคล นาไปต่อยอดใช้ประโยชน์ ทาให้บ่อยครั้งเรียกว่าเป็นซอฟต์แวร์วิเคราะห์เครือข่ายสังคม (Social Network Analysis) นั่นเอง ตัวอย่างของซอฟต์แวร์เช่น IBM SPSSClementine หรือ OmniAnalyser เปน็ ต้น k.chand4) ซอฟต์แวร์วิเคราะห์ข้อมูลเชิงสถิติ (Statistical Analysis Software) บ่อยครั้งการทาเหมืองข้อมลู เป็นการวเิ คราะห์ข้อมลู ดว้ ยวิธกี ารทางสถิติ เช่น การวิเคราะหห์ าค่าความถดถอย(Regression Analysis) ดังน้ันจึงมีการประยุกต์ใช้ซอฟต์แวร์สาหรบั การวิเคราะห์ข้อมูลเชิงสถติ ใิ นการjmทาเหมืองข้อมูลด้วย ตัวอย่างซอฟต์แวร์วิเคราะห์ข้อมูลเชิงสถิติ เชิงการค้า เช่น MATLAB SPSSหรือแมก้ ระท่งั XLSTAT ซึ่งเป็น Add-on ของ Microsoft Excel ส่วนตัวอย่างของซอฟต์แวร์ แบบไม่มคี ่าใชจ้ า่ ย เช่น Blaze Statistic R XLISP-STAT เป็นตน้ 5) ซอฟต์แวร์วิเคราะห์ข้อความหรือสารสนเทศ (Text Analysis/ Text Mining/ andInformation Retrieval: IR) จัดเป็นซอฟต์แวร์สาหรับการทาเหมืองข้อมูลอีกประเภทหนึง่ ในรูปแบบท่รี องรับการวเิ คราะห์ขอ้ มูลประเภทข้อความ ตัวอยา่ งของซอฟต์แวร์ เช่น RapidMiner Text Miningหรือ OntoText หรือ OpenText™ Big Data Analytics เปน็ ตน้ 6) ซอฟต์แวร์จินตทัศน์ (Visualization Software) เป็นซอฟต์แวร์ท่ีมุ่งเน้นการวิเคราะห์ข้อมูลเพ่ือสร้างมุมมองแบบจินตทัศน์ ในการนาเสนอข้อมูล ตัวอย่างของซอฟต์แวร์จินตทัศน์เช่น Data360 FlowingData หรอื Ploty เปน็ ต้น เหมอื งข้อมูลเบ้อื งตน้

70 เครอื่ งมอื สาหรับการทาเหมืองข้อมลู 7) ซอฟต์แวร์วิเคราะห์เว็บและสื่อออนไลน์ (Web Analytics and Social MediaAnalytics Software) เป็นซอฟต์แวร์ที่มุ่งเน้นการวิเคราะห์ข้อมูลบนเว็บ และส่ือออนไลน์ มักพบในลักษณะของ API เช่น Google Analytic, หรอื Facebook API เป็นต้น นอกจากน้ียังมี ซอฟต์แวร์ในลักษณะของการวเิ คราะห์การเขา้ ถึงและใชง้ านเว็บ จาพวก Web Usage Mining อีกดว้ ย นอกจากการแบ่งประเภทซอฟต์แวร์สาหรบั การทาเหมืองข้อมูลข้างต้นแล้ว อาจสรุปตัวอย่างรายชื่อซอฟต์แวร์ในเชิงการค้า และ ซอฟต์แวร์เปดิ เผยตน้ ฉบบั หรอื ซอฟต์แวร์ไม่มีคา่ ใช้จ่าย ได้ดงั นี้ตำรำงที่ 4-1 ตวั อย่างรายชือ่ ซอฟตแ์ วรส์ าหรบั เหมอื งขอ้ มูล ซอฟต์แวร์เชิงกำรคำ้ ซอฟต์แวร์ไมม่ คี ่ำใชจ้ ำ่ ย (Commercial Software) (Free Open-Sources Software)- Angoss KnowledgeSTUDIO - Autoclass C- BayesiaLAB - Carrot2- Data360 - Chemicalizera.ac.th- Clarabridge - Cluto - ELKI- FlowData - GATE- HP Vertica Analytics Platform - KNIME - Massive Online Analysis (MOA)k.chand- IBM SPSS Modeler - ML-Flex - MLPACK library- KXEN Modeler- LIONsolverjm- Megaputer Intelligence- Microsoft Analysis Services - NLTK (Natural Language Toolkit)- NetOwl - OntoTEXT- OmniAnalyser - OpenNN- OpenText™ Big Data Analytics - Orange- Oracle Data Miner -R- Plotly - RapidMiner- PolyAnalysis - SCaViS- PSeven - scikit-learn- Qlucore Omics Explorer - SenticNet API- RapidMiner - Tanagra- SAS Enterprise Miner - Torch- STATISTICA Data Miner - UIMA- XLMiner - WEKAเหมืองข้อมูลเบอ้ื งตน้

เคร่อื งมอื สาหรับการทาเหมืองข้อมูล 71ตัวอยำ่ งซอฟต์แวรเ์ หมืองขอ้ มลู ทไ่ี ดร้ บั ควำมนยิ ม จากซอฟต์แวร์สาหรับทาเหมืองข้อมูลท่ีกล่าวข้างต้นนั้น มีซอฟต์แวร์ท่ีได้รับความนิยมในการใชง้ านสาหรับการทาเหมืองขอ้ มูล ซงึ่ ขอกลา่ วยกตัวอยา่ ง ดังตอ่ ไปนี้ 1. WEKA ซอฟตแ์ วร์ WEKA อ่านวา่ “เวก้า” ย่อมาจาก Waikato Environment for KnowledgeAnalysis โดยกลุ่มวิจัยด้านการเรียนรู้ของเครื่อง (Machine Learning) ของมหาวิทยาลัย Waikatoประเทศนิวซีแลนด์ เร่ิมพัฒนามาตั้งแต่ปี 1997 ในรูปแบบของซอฟต์แวร์สาเร็จรูป ด้วยภาษาจาวา(Java) ภายใต้การควบคุมของ GPL License WEKA ถูกพัฒนาขึ้นโดยมุ่งเน้นกับงานทางด้านการเรียนรู้ด้วยเครื่อง (Machine Learning)และ การทาเหมืองข้อมูล (Data Mining) ท่ีสามารถทางานได้บนระบบปฏิบัติการท่ีหลากหลาย(Multi-Platform) โดยมีหนา้ ท่ีการทางานหลักของซอฟต์แวร์ ประกอบไปด้วยโมดลู การทางานย่อย ๆra.ac.thสาหรับใช้ในการจัดการข้อมูล มีส่วนประสานกับผู้ใช้งานแบบกราฟิก (Graphic User Interface:GUI) ท่ีรองรับการใช้งานของผู้ใช้งาน เพื่อควบคุม สั่งการ ให้ซอฟต์แวร์ประมวลผล นอกจากน้ียังสามารถพัฒนาต่อยอดได้ ถือเป็นเคร่ืองมือที่ใช้ทางานด้านเหมืองข้อมูล ที่ได้รวบรวมเทคนิคk.chandอลั กอริทมึ มากมายใหไ้ ดเ้ ลอื กใช้ รวมทั้งยงั สามารถพัฒนาเทคนิค อลั กอรทิ มึ เพ่มิ เตมิ ไดอ้ กี ดว้ ย WEKA ประกอบด้วย Applications ได้แก่ Explorer Experimenter KnowledgeFlowjmและ Simple CLI โดยสว่ นการทางานหลกั อนั เป็นหัวใจสาคญั คือ Explorer ภำพท่ี 4-1 หนา้ จอแสดงส่วนการทางานของ WEKA เหมอื งข้อมลู เบ้อื งตน้

72 เคร่อื งมือสาหรบั การทาเหมืองข้อมลู ส่วนการทางานหลักของ WEKA คือ ส่วนท่ีเรียกว่า WEKA Explorer ประกอบด้วยส่วนการทางานท่ีปรากฏเป็น Tab ได้แก่ PreProcess Classify Cluster Associate Selectattributes และ Visualize ดงั ภาพ jmk.chandra.ac.thภำพท่ี 4-2 หนา้ จอการทางานของ WEKA Explorer 1) จุดเดน่ ของ WEKA WEKA เป็นซอฟต์แวร์ที่ได้รับความนิยม เน่ืองจากมี ข้อดี อันเป็นจุดเด่นของซอฟต์แวร์WEKA ได้แก่ (1) WEKA เ ป็ น ซ อ ฟ ต์ แ ว ร์ ที่ เ ป็ น ไ ม่ มี ค่ า ใ ช้ จ่ า ย ( Freeware) เ น่ื อ ง จ า กเป็นซอฟต์แวร์ที่พัฒนาขึ้นจากงานวิจัย เพื่อการวิจัยด้านการเรียนรู้ของเครื่อง จึงเป็นซอฟต์แวร์แบบเปดิ เผยต้นฉบับ ทาใหส้ ามารถนามาใชง้ านไดโ้ ดยไม่มคี ่าใชจ้ ่าย (2) รองรับการทางานบนระบบปฏิบัติการท่ีหลากหลาย (Multi-Platform)สามารถติดตั้ง WEKA เพ่ือใช้งานได้บนระบบปฏิบัติการทุกชนิดเช่น Windows MacOS UnixLinux (3) สามารถเชื่อมต่อระบบจัดการฐานข้อมูลได้โดยตรง โดยใช้ Java DatabaseConnectivity: JDBC สะดวกต่อการนาเข้าขอ้ มลู ไดโ้ ดยตรงจากฐานขอ้ มลู (4) มลี ักษณะที่งา่ ยต่อการใช้งาน เนอ่ื งจากมีส่วนประสานกับผู้ใช้งานแบบกราฟิกที่รองรับควบคมุ การใช้งานได้อยา่ งสะดวกเหมอื งข้อมลู เบ้อื งต้น

เครื่องมือสาหรับการทาเหมืองขอ้ มลู 73 (5) สนับสนุนการทาเหมืองข้อมูลด้วยฟังก์ชันการทางานท่ีรองรับการทาเหมืองข้อมูลทั้งการจาแนกประเภท การจัดกลุ่ม และ การวิเคราะห์ความสัมพันธ์ ด้วยเทคนิคการวิเคราะห์ข้อมลู หรือ อัลกอรทิ มึ ที่หลากหลายให้เลอื กใช้ 2) ขอ้ จากดั ของ WEKA แม้ว่า WEKA จะมจี ุดเดน่ ท่นี ่าสนใจ หากแตย่ งั คงมีขอ้ จากดั กลา่ วคือ การใช้งาน (1) การนาผลลัพธ์ไปใช้งานอาจยุ่งยาก ซับซ้อนกว่า ซอฟต์แวร์เชิงการค้าอ่ืน ๆเนื่องจากแม้ว่าจะมีส่วนประสานกับผู้ใช้งานที่สะดวก แต่ยังไม่รองรับกับการนาเอาผลลัพธ์ท่ีได้ไปประยกุ ต์ใชโ้ ดยเฉพาะอยา่ งยงิ่ กับการพฒั นาโปรแกรมประยุกต์เพื่อต่อยอดไดโ้ ดยตรง (2) ฟงั กช์ ันการทางานไมท่ ันสมัย และไมส่ นองตอบในลักษณะเป็นมิตรกบั ผู้ใชง้ าน(User Friendly) แม้ว่าจะมีส่วนประสานกับผู้ใช้งาน แต่อาจไม่สะดวกหรือเป็นมิตรได้เทียบเท่ากับซอฟต์แวรใ์ นเชิงการคา้ สาหรับหนังสือเล่มน้ีจะอธิบายหลักการทาเหมืองข้อมูล 3 ประเภท คือ เหมืองข้อมูลra.ac.thความสัมพนั ธ์ เหมืองขอ้ มลู จาแนกประเภท และเหมืองข้อมลู จดั กลมุ่ โดยใชซ้ อฟตแ์ วร์ WEKA นี้ k.chand2. Orange Orange หรือ Orange Canvas เป็นซอฟต์แวร์ทใ่ี ช้ในการวิเคราะหข์ ้อมูล โดยมีรูปแบบการทางานของส่วนประสานกับผู้ใช้งานแบบกราฟิก ในลักษณะรูปภาพ ไอคอน ในการสั่งการ การใส่jmข้อมลู ในการวเิ คราะห์ มีลกั ษณะการทางานเนน้ ความง่ายในการตรวจสอบข้อมลู ภำพที่ 4-3 Software Orange (ท่ีมา: http://orange.biolab.si/screenshots/) เหมอื งข้อมลู เบอ้ื งต้น

74 เครื่องมอื สาหรับการทาเหมืองข้อมูล jmk.chandra.ac.thภำพท่ี 4-4 ตวั อยา่ งการทางานของ Orange (ทีม่ า: http://orange.biolab.si/screenshots/) Orange มีจุดเด่น และ ข้อจากัด ของซอฟต์แวร์ เป็นซอฟต์แวร์ท่ีเป็นไม่มีค่าใช้จ่าย(Freeware) เช่นเดียวกันกับ WEKA รองรับการทางานบนระบบปฏิบัติการท่ีหลากหลาย(Multi-Platform) สามารถติดต้ังใช้งานไดบ้ นระบบปฏบิ ัติการทุกชนดิ เช่น Windows MacOS UnixLinux สามารถเช่ือมต่อระบบจัดการฐานข้อมูลได้โดยตรง โดยใช้ Java Database Connectivity:JDBC สะดวกต่อการนาเข้าข้อมูลได้โดยตรงจากฐานข้อมูล รองรับการทาเหมืองข้อมูล และการวิเคราะห์ขอ้ มูลเชิงสถติ ิ เม่ือกล่าวถึงข้อจากัด คือ มีฟงั ก์ชันการทางานเยอะมาก ในการใช้งานอาจตอ้ งใช้เวลาในการเรียนรู้พอสมควรเหมืองขอ้ มลู เบอื้ งต้น

เครือ่ งมือสาหรับการทาเหมืองข้อมลู 75 3. RapidMiner RapidMiner เป็นซอฟต์แวร์สาหรับการวิเคราะห์ทาเหมืองข้อมูลที่ได้รับความนิยมมากซอฟต์แวร์หน่ึง โดยมีช่ือเรียกของซอฟต์แวร์เต็ม ๆ ว่า RapidMiner Studio จัดเป็นซอฟต์แวร์กลุ่มเปิดเผยต้นฉบับ (Open Source Software) ทาให้เป็นตัวเลือกซอฟต์แวร์หน่ึงท่ีถูกเลือกใช้เน่ืองจากไม่ต้องเสียค่าใช้จ่าย มีส่วนประสานกับผู้ใช้งานท่ีรองรับการใช้งานแบบกราฟิก มีส่วนแนะนาการใช้งานเบื้องต้นแบบปฏิสัมพันธ์ (Interaction Tutorial) ที่เข้าใจง่าย รองรับการวิเคราะห์ข้อมูลด้วยเทคนิคหลากหลาย และนยิ มใชใ้ นการทาเหมืองขอ้ มูลจาแนกประเภท jmk.chandra.ac.thภำพท่ี 4-5 ตัวอยา่ งซอฟตแ์ วร์ RapidMiner Studio ภำพท่ี 4-6 ตวั อย่างหน้าจอหลักของซอฟต์แวร์ RapidMiner Studio เหมืองข้อมลู เบื้องตน้

76 เครื่องมือสาหรบั การทาเหมอื งข้อมูล หน้าที่การทางานหลักของ RapidMiner จะมีความสามารถในการทดสอบการวิเคราะห์ข้อมูล การทาความสะอาดข้อมูล (Data cleansing) และการรายงานข้อมูลในรูปแบบต่างๆ เช่นตาราง กราฟ โดยมีจุดเด่นของซอฟต์แวร์ คือ สามารถรองรับนาเข้าข้อมูลได้อย่างหลากหลายท้ังจากไฟล์ csv หรือ xls และจากการเช่ือมโยงกับระบบจัดการฐานข้อมูลโดยตรง นอกจากน้ียังรองรับการสร้างไฟล์สกุล csv หรือ xls นอกจากนี้ยังมีส่วนการแสดงผลลัพธ์จากการทาเหมืองข้อมูลได้ในรูปแบบของกราฟต่าง ๆ อาทิ เชน่ Scatter plot, Time series เป็นตน้ jmk.chandra.ac.th ภำพที่ 4-7 ตวั อย่างการแสดงผลขอ้ มูลในรปู แบบกราฟ ของ RapidMiner Studio ในส่วนการวิเคราะห์ข้อมูลนั้น RepidMiner รองรับการทาเหมืองข้อมูลด้วยเทคนิคอันเป็นที่นิยมหลากหลาย ไม่ว่าจะเป็น การวิเคราห์ความสัมพันธ์ด้วยเทคนิค FP-Growthการจาแนกประเภทข้อมูลด้วย Naïve Bayes หรือ การจาแนกประเภทด้วย Decision Tree เป็นต้นเหมอื งขอ้ มลู เบ้ืองต้น

เครอื่ งมือสาหรบั การทาเหมืองข้อมูล 77 ภำพท่ี 4-7 ตัวอยา่ งการวเิ คราะห์ Decision Tree ด้วย RapidMiner Studio ra.ac.th4. MATLAB k.chandแมตแล็บ (MATLAB: Matrix Laboratory) เป็นซอฟต์แวร์สาหรับการคานวณและการเขียนชุดคาส่ังโปรแกรม พัฒนาขึ้นโดย บริษัท แมตเวิรกส์ จากัด มีความสามารถครอบคลุมต้ังแต่การพัฒนาอัลกอริทึม (Algorithm) การสร้างแบบจาลองทางคณิตศาสตร์ (Mathematic Model)jmและการจาลองสถานการณ์ของระบบ (System Simulation) การสร้างระบบควบคุม (SystemController) และได้รับความนิยมในการใช้งานด้านการประมวลผลภาพ (Image Processing) และเวฟเลต (wavelet) ภำพที่ 4-8 ตัวอยา่ งการตดิ ตั้ง MATLAB (ท่ีมา: http://ist.njit.edu/software/documentation/matlab/2010a/) เหมอื งขอ้ มูลเบ้ืองตน้

78 เคร่ืองมือสาหรบั การทาเหมืองข้อมลู MATLAB สามารถทางานได้ท้งั ในลักษณะของการควบคุมสั่งการโดยตรง คอื การเขียนคาส่ังเข้าไปทีละคาส่ัง เพื่อให้ MATLAB ประมวลผลไปทีละคาส่ัง หรือสามารถที่จะรวบรวม ชุดคาส่ังเหล่าน้ันเป็นชุดโปรแกรมคาสั่ง เพื่อประมวผล ลักษณะสาคัญประการหน่ึงของ MATLAB คือข้อมูลทกุ ตัวจะถูกจดั เกบ็ ในลกั ษณะของแถวลาดบั คือในแตล่ ะตวั แปรจะได้รับการแบง่ เปน็ ส่วนย่อยเล็กๆข้ึนซ่ึงการใช้ตัวแปรเป็นแถวลาดับ โดยไม่จาเป็นต้องจองพ้ืนที่เป็นมิติ ซึ่งทาให้สามารถท่ีจะแก้ปัญหาของตัวแปรในลักษณะเมทริกซ์และเวกเตอร์ได้โดยง่าย ซ่ึงทาให้สามารถลดเวลาการทางานลงได้อย่างมากเมื่อเทยี บกบั การเขยี น โปรแกรมโดยภาษา C และ Fortran jmk.chandra.ac.thภำพที่ 4-9 ตวั อย่างการใชง้ าน MATLAB (ที่มา: https://en.wikipedia.org/wiki/File:MATLAB_R2013a_Win8_screenshot.png) MATLAB มี จุ ด เ ด่ น ข อ ง ซ อ ฟ ต์ แ ว ร์ คื อ MATLAB เ ป็ น โ ป ร แ ก ร ม ภ า ษ า ช้ั น สู งที่ใช้ควบคุม ฟังก์ชัน โครงสร้างข้อมูลอินพุท / เอาท์พุท และรองรับลักษณะโปรแกรมเชิงวัตถุ(Object-Oriented Programming) ทาให้การเขียนโปรแกรมไม่ยุ่งยากเม่ือเทียบกับการเขียนโปรแกรมด้วยภาษาอื่นๆ เช่น C, Fortran, Basic เป็นต้น อีกทั้งในการทางานของ MATLABมีกลุ่มของเคร่ืองมือท่ีเป็นประโยชน์ในการจัดการตัวแปรใน workspace การนาข้อมูลหรือการผ่านค่าตัวแปรเข้า/ออก และ รวมถึงใช้สาหรับพัฒนา จัดการ ตรวจสอบความผิดพลาดของโปรแกรม (debugging) ท่ีได้เขียนขึ้น ซ่ึงเหมาะสาหรับการทางานของผู้ใช้โปรแกรม หรือโปรแกรมเมอร์เหมอื งขอ้ มลู เบ้อื งตน้

เครอ่ื งมือสาหรบั การทาเหมืองขอ้ มลู 79 MATLAB จุดเด่นที่สาคัญคือ ฟังก์ชันในการคานวณทางคณิตศาสตร์ ท่ีเรียกว่า MATLABmathematical function library ที่มีสาหรับใช้งานค่อนข้างมากและครอบคลุมในรายละเอียดของการคานวณสาขาต่าง ๆ อีกท้ังมีระบบแสดงผลกราฟิกขั้นสูง ในการแสดงผลกราฟรองรับการแสดงผลภาพสองมิติ และภาพสามมิติ รวมท้ังภาพเคลื่อนไหว นอกจากน้ัน MATLABยังมี Application Program Interface (API) ท่ีรองรับสนับสนุนการติดต่อกับโปรแกรมภายนอกอกี ด้วย 5. R-Base Language R-Base Language หรือที่รู้จักกันในนาม โปรแกรม R จัดเป็นซอฟต์แวร์สาหรับการวิเคราะห์ข้อมูลเชิงสถิติ ท่ีมีความสามารถในการวิเคราะห์ข้อมูล รวมไปถึงสามารถนามาประยกุ ตใ์ ช้ในการทาเหมอื งข้อมลู ได้ R เป็นซอฟต์แวร์ท่ีจัดอยู่ในกลุ่มไม่มีค่าใช้จ่าย ภายใต้การควบคุมของ GNU มีจุดเด่นคือ R เป็นภาษาโปรแกรมท่ีพัฒนาต่อยอดจากภาษา S โดยมีส่วนประสานกับผู้ใช้งานในลักษณะra.ac.thการรับคาสั่ง ในรูปแบบคาส่ังแบบ Case Sensitive มีฟังก์ชันการทางานมุ่งเน้นรองรับการคานวณทางสถิติ สามารถแสดงผลข้อมูลในรูปแบบกราฟได้หลายรูปแบบ รองรับการเขียนชุดคาสั่งควบคุมk.chandใช้งาน โดยสามารถติดตั้งใช้งานได้บนระบบปฏิบัติการ Windows Unix และ MacOSjmจงึ เปน็ อกี ซอฟต์แวรท์ ไ่ี ด้รบั ความนยิ มในกลุ่มผู้ใชง้ านด้านสถิติและวิจยั ภำพที่ 4-10 ตวั อยา่ งการใชง้ านซอฟตแ์ วร์ R เหมืองขอ้ มูลเบ้ืองต้น

80 เครื่องมือสาหรบั การทาเหมืองข้อมูล ra.ac.thภำพที่ 4-9 ตวั อย่างการใช้งานส่วนแสดงผลกราฟของ R k.chandในด้านการวิเคราะห์ทาเหมืองข้อมูลนั้น R มีฟังก์ชันรองรับการทาเหมืองข้อมูลความสัมพันธ์ การทาเหมืองขอ้ มูลจาแนกประเภท หรอื การทาเหมอื งขอ้ มูลจัดกลุ่ม โดยอาศัยเทคนิควิธี อัลกอริทึมต่าง ๆ ที่ได้รับความนิยม เฉกเช่นเดียวกับซอฟต์แวร์อื่น ๆ ท่ีได้กล่าวไป เช่นการวิเคราะห์จาแนกประเภทข้อมูลด้วย Decision Tree หรือ การจัดกลุ่มข้อมูลด้วย k-Meanjmเป็นตน้ ข้อจากัดของ R คือ การควบคุมใช้งานซอฟต์แวร์ ยังขาดส่วนประสานกับผู้ใช้งานท่ีเปน็ มิตร ทาใหผ้ ใู้ ชง้ าน จาเป็นตอ้ งเขา้ ใจคาสัง่ โครงสรา้ งภาษา R เปน็ อยา่ งดี จงึ จะใชง้ านได้เหมืองขอ้ มูลเบอื้ งต้น

เคร่ืองมือสาหรับการทาเหมืองข้อมูล 81บทสรุป เคร่ืองมือสาหรับการทาเหมืองข้อมูล (Data Mining Tool) หมายถึง ชุดคาส่ัง โปรแกรมสาเร็จรูป หรือ ซอฟต์แวร์ สาหรับการวิเคราะห์ข้อมูล ท่ีผ่านการคัดเลือก และจัดเตรียมข้อมูลตามวัตถุประสงค์ของการใช้งานแล้ว โดยซอฟต์แวร์เหล่าน้ันอาจถูกพัฒนาข้ึนเพ่ือวัตถุประสงค์ในการจัดการข้อมลู หรือ วัตถุประสงค์อื่น ๆ และเพิ่มความสามารถในการวิเคราะห์ทาเหมืองข้อมูลเขา้ ไป คุณสมบัติของเคร่ืองมอื สาหรับการทาเหมืองขอ้ มลู น้ันจะต้อง 1) รองรับการเข้าถึงข้อมูลจากแหล่งข้อมูลที่หลากหลาย 2) สามารถคัดกรอง จัดเตรียมข้อมูล เบ้ืองต้น เพ่ือนาสู่กระบวนการทาเหมืองข้อมูล 3) มีส่วนการทางานวิเคราะห์ข้อมูล สอดคล้องกับความต้องการในการทาเหมืองข้อมูลเชน่ เพือ่ การคน้ หาความสมั พันธ์ หรือ เพ่อื การคาดการณ์ การทานาย การจัดกล่มุ การจาแนกประเภทด้วยเทคนคิ หรอื อลั กอรทิ ึมทห่ี ลากหลาย และ 4) สามารถแสดงผลการวเิ คราะห์ข้อมลู ท่ีเข้าใจได้ง่ายra.ac.thโดยเฉพาะอย่างย่งิ ในรปู แบบกราฟิก ซอฟต์แวร์สาหรับทาเหมืองข้อมูลน้ัน มีการพัฒนาข้ึน เพ่ือใช้งาน อย่างหลากหลายk.chandทั้งในรูปแบบของซอฟต์แวร์ไม่มีค่าใช้จ่าย และซอฟต์แวร์เชิงการค้า โดยสามารถจาแนกออกได้ตามลักษณะจุดประสงค์การใช้งาน ได้แก่ 1) ซอฟต์แวร์จาแนกประเภท (Classification Software)2) ซ อ ฟ ต์ แ ว ร์ แ บ่ ง ส่ ว น แ ล ะ จั ด ก ลุ่ ม (Clustering and Segmentation Software)jm3) ซอฟต์แวร์เชิงวิเคราะห์และสร้างจินตทัศน์ (Link Analysis and Visualization Software)4) ซอฟต์แวร์วิเคราะห์ข้อมูลเชิงสถิติ (Statistical Analysis software) 5) ซอฟต์แวร์วิเคราะห์ข้ อ ค ว า ม ห รื อ ส า ร ส น เ ท ศ ( Text Analysis/ Text Mining/ and Information Retrieval: IR)6) ซอฟต์แวร์จินตทัศน์ (Visualization Software) 7) ซอฟต์แวร์วิเคราะห์เว็บและสื่อออนไลน์(Web Analytics and Social Media Analytics Software) สาหรับ ซอฟต์แวร์เหมืองข้อมูลที่ได้รับความนิยมในการใช้งาน ได้แก่ WEKA ย่อมาจากWaikato Environment for Knowledge Analysis ท่ีมีจุดเด่นคือ เป็นซอฟต์แวร์แบบเปิดเผยต้นฉบับท่ีไม่มีค่าใช้จ่าย (Open Source Freeware) นอกจากนี้ยังมี Orange ท่ีมีจุดเด่นคือการออกแบบส่วนประสานกับผู้ใช้งานท่ีเป็นมิตรกับผู้ใช้ หรือ RapidMiner ที่แพร่หลายและนิยมใช้ในการวิเคราะห์ข้อมูลเชิงการตลาดขององค์กรธุรกิจ หรือซอฟต์แวร์สาหรับวิเคราะห์ข้อมูลเชิงคณิตศาสตร์ และ สถิติ เช่น MATLAB และ R ก็เป็นตัวอย่างของซอฟต์แวร์ที่ได้รับความนิยมใชง้ านสาหรับทาเหมอื งขอ้ มลู เช่นกนั เหมอื งข้อมลู เบื้องตน้

82 เครื่องมอื สาหรับการทาเหมอื งข้อมูลเอกสำรอำ้ งอิงชนวัฒน์ ศรีสอ้าน. ฐำนข้อมูล คลังข้อมูล และเหมืองข้อมูล. ปทุมธานี: สานักพิมพ์ มหาวิทยาลัย รังสิต, 2550.ชิดชนก สง่ ศริ ิ, ธนาวนิ ท์ รกั ธรรมานนท์ และ กฤษณะ ไวยมัย. “การใช้เทคนคิ ดาต้าไมนน์ งิ เพอ่ื พฒั นา คุณภาพการศึกษาคณะวิศวกรรมศาสตร์.” NECTEC Technical Journal. ปีท่ี 11 ฉบบั ที่ 3, 2545 : 134-42.อ ดุ ล ย์ ย้ิ ม ง า ม . ก ำ ร ท ำ เ ห มื อ ง ข้ อ มู ล Data Mining [อ อ น ไ ล น์ ]. เ ข้ า ถึ ง ไ ด้ จ า ก : http://compcenter.bu.ac.th/index.php?option=com_content&task=view&id=7 5&Itemid=172. (วนั ทคี่ ้นขอ้ มูล : 17 มิถุนายน 2554)Amizung, ก ำ ร ใ ช้ ง ำ น โ ป ร แ ก ร ม R, [อ อ น ไ ล น์ ]. เ ข้ า ถึ ง ไ ด้ จ า ก : http://it.scribd.com/doc/34869064/การใช้โปรแกรมR#scribd (วันท่ีค้นข้อมูล : ra.ac.th22 เมษายน 2557)Bing, L., Wynne, H. and Yiming, M. “Mining Association Rules with Multiple Minimum k.chandSupports.” Proceeding of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Diego, 1999.D. J. Hand, H. Mannila, and P. Smyth, Principles of Data Mining. MIT Press, 2001.jmKdnudgets, Data Mining, Analytics, Big Data, and Data Science [ออนไลน์]. เข้าถึงได้จาก : http://www.kdnuggets.com/solutions/index.html. (วันท่ีค้นข้อมูล : 17 มิถุนายน 2554)Linoff, G. and Berry, M. Data Mining Techniques. John Wiley & Sons. , 1997.M. Bramer, Principles of Data Mining. Springer, 2013.Mahapatra, I. and Bose, R. K. Business Data Mining - a Machine Learning Perspective. Information and Management. 39, 2001 : 211-25.MATLAB, Matlab 2010a Installation Instructions. [อ อ น ไ ล น์ ]. เ ข้ า ถึ ง ไ ด้ จ า ก : http://ist.njit.edu/software/documentation/matlab/2010a ( วั น ที่ ค้ น ข้ อ มู ล : 22 เมษายน 2557)เหมืองข้อมูลเบ้ืองต้น

เคร่ืองมือสาหรบั การทาเหมืองขอ้ มลู 83Orange Biolab, Orange. [ออนไลน์]. เข้าถึงได้จาก : http://orange.biolab.si. (วันที่ค้นข้อมูล : 17 มถิ ุนายน 2554)RapidMiner, RapidMiner Documentation. [อ อ น ไ ล น์ ]. เ ข้ า ถึ ง ไ ด้ จ า ก : http://docs.rapidminer.com/studio/getting-started/. (วันท่ีค้นข้อมูล : 22 เมษายน 2557)RapidMiner, RapidMiner Studio Manual. RapidMiner, 2014. [ออนไลน์]. เข้าถึงได้จาก : http://docs.rapidminer.com. (วันทค่ี ้นขอ้ มูล : 22 เมษายน 2557)WEKA Wiki, Frequently Asked Questions. [อ อ น ไ ล น์ ]. เ ข้ า ถึ ง ไ ด้ จ า ก : http://weka.wikispaces.com. (วนั ทค่ี ้นข้อมูล : 17 มิถุนายน 2554)Wikipedia, Data Mining. [ออนไลน์]. เข้าถงึ ได้จาก : https://en.wikipedia.org/wiki/Data_mining. (วันทคี่ น้ ขอ้ มลู : 17 มถิ ุนายน 2554)ra.ac.thคำถำมทบทวนk.chand1. ซอฟตแ์ วรท์ าเหมอื งข้อมลู ควรมีคุณลักษณะอยา่ งไรjm2. ซอฟต์แวร์ท่ีได้รบั ความนิยมในการทาเหมอื งข้อมลู ไดแ้ ก่ เหมอื งข้อมูลเบื้องตน้

84 เคร่ืองมอื สาหรับการทาเหมืองข้อมูล jmk.chandra.ac.thเหมอื งข้อมลู เบอื้ งต้น

สว่ นท:ี่ 2เทคนิควjธิmกี kา.รcทhาaเnหdมrอืaง.aขcอ้ .tมhูลเบอื้ งตน้ เหมอื งขอ้ มูลเบอ้ื งตน้

jmk.chandra.ac.thเหมอื งขอ้ มลู เบอื้ งตน้

การทาเหมืองขอ้ มูลดว้ ย WEKA 87 5 การจดั เตรยี มขอ้ มูล ra.ac.thสาหรบั ทาเหมอื งขอ้ มูลดว้ ย WEKA k.chandสาหรับเครื่องมือ หรือ ซอฟต์แวร์สาหรับการทาเหมืองข้อมูลนั้น มีหลากหลายโปรแกรมด้วยกัน ซ่ึงในหนังสือฉบับนี้ จะยกตัวอย่างการทาเหมืองข้อมูล ด้วยซอฟต์แวร์ท่ีได้รับความนิยม คือWEKA ซึ่งเปน็ ซอฟต์แวร์ประเภท Open Source ที่ถกู พฒั นาขนึ้ โดย Waikato University jmเน้ือหาในบทน้ี จึงเป็นการอธิบายให้ผู้อ่านได้ทาความเข้าใจถึง การใช้งานโปรแกรม WEKAลกั ษณะของโปรแกรม การจัดเตรียมข้อมูลสาหรับการทาเหมืองข้อมลู ด้วย การวิเคราะห์สถิติเบอ้ื งต้นและ การใช้งานเครอื่ งมือคดั กรองข้อมูลใน WEKA โดยแบง่ เนอ้ื หาภายในบทเปน็ หัวขอ้ ดังน้ี 1. แนะนาการใช้งาน WEKA 2. การจัดเตรยี มข้อมูลสาหรับ WEKA 3. การวิเคราะหส์ ถิตเิ บอื้ งตน้ ดว้ ย WEKA 4. การคดั กรองขอ้ มลู ใน WEKA เหมอื งขอ้ มูลเบ้อื งตน้

88 การทาเหมืองข้อมลู ด้วย WEKAแนะนำกำรใชง้ ำน WEKA WEKA (เวก-ก้า) คือ ซอฟต์แวร์สาหรับการทาเหมืองข้อมูล หรือ การค้นพบองค์ความรู้จากข้อมูล (Knowledge discovery) ซ่ึงย่อมาจาก Waikato Environment for Knowledge Analysisถูกพัฒนาข้ึนโดยกลุ่มวิจัย Machine Learning ของ มหาวทิ ยาลัย Waikato ซง่ึ พัฒนาโดยภาษา Javaถูกออกแบบให้มีความสามารถในการทางานรองรับท้ังในส่วนของคาสั่ง (Command line) และรองรับการทางานในลกั ษณะทสี่ ะดวกต่อผู้ใช้งาน (Graphic User Interface) โดยมีโมดลู ยอ่ ยที่รองรับการจัดการข้อมูลเพ่ือการเรียนรู้ของเคร่ือง (Machine Learning) และการทาเหมืองข้อมูล(Data Mining) และแจกจา่ ยเปน็ ซอฟต์แวรฟ์ รภี ายใตข้ ้อกาหนด GPL License ปัจจุบัน WEKA ถูกพัฒนามาจนถึงเวอร์ชันล่าสุด 3.6.11 ซึ่งผู้ท่ีสนใจใช้งานสามารถเข้าไปDownload เพือ่ นาไปใชง้ านไดท้ ่ี http://www.cs.waikato.ac.nz/~ml/weka/ jmk.chandra.ac.th ภาพท่ี 5-1 ตวั อย่างโปรแกรม WEKAเหมอื งขอ้ มูลเบื้องต้น

การทาเหมืองข้อมูลดว้ ย WEKA 89 1. Application กำรทำงำนหลักของ Weka เมื่อเข้าสู่การทางาน Weka จะมีความสามารถหลักๆ ในการทางานแบ่งออกได้เป็นส่วนApplication ตา่ งๆ ดังน้ี 1) Explorer ส่วนการทางานท่ีออกแบบมารองรับให้สะดวกกับผู้ใช้งาน (GraphicUser Interface) 2) Experimenter ส่วนการทางานสาหรับการออกแบบการทดลองและการทดสอบผลการทดลอง 3) Knowledge Flow สว่ นการทางานสาหรับกาหนดผังกระแสความรู้ 4) Simple CLI (Command Line Interface) สว่ นรับคาสัง่ ผา่ นการพิมพ์ jmk.chandra.ac.thภำพที่ 5-2 แสดงหน้าจอการทางานหลักของ WEKA 2. กำรใช้งำนสว่ น Explorer สว่ นการใช้งานที่สะดวกตอ่ การใชง้ านสาหรบั การฝกึ ปฏบิ ัติการในทีน่ ี้ คือ สว่ น Explorerซงึ่ ในส่วนการทางานของ Explorer นนั้ สามารถแบ่งสว่ นการทางานไดด้ งั ต่อไปนี้ 1) Preprocess คือส่วนการจัดเตรียมข้อมูล รวมไปถึงสถิติและการทาเหมืองข้อมูลแบบอธบิ าย 2) Classify คือสว่ นการทาเหมอื งขอ้ มูลแบบจาแนกประเภท 3) Cluster คอื ส่วนการทาเหมืองข้อมูลแบบการวิเคราะหก์ ารเกาะกลุ่ม 4) Associate คือส่วนการทาเหมืองข้อมลู แบบกฎเชื่อมโยงความสัมพนั ธ์ 5) Select Attribute คือส่วนคดั เลือกคุณลักษณะสาหรับทาเหมอื งข้อมูล 6) Visualize คือสว่ นการจาลองและแสดงผลขอ้ มูล เหมืองข้อมลู เบ้อื งตน้

90 การทาเหมอื งขอ้ มูลด้วย WEKA  สว่ นโมดลู หลัก jmk.chandra.ac.thภำพที่ 5-3 แสดงส่วนการทางานของ Explorer 3. ขัน้ ตอนกำรใชง้ ำน Explorer ใน WEKA การใช้งาน Explorer ใน WEKA จะเริ่มจากต้องมีข้อมูลสาหรับการวิเคราะห์ข้อมูลจากน้นั จึงเขา้ สู่ขน้ั ตอน 3 ขน้ั ตอนได้แก่ 1) จัดเตรียมใหอ้ ยใู่ นรูปแบบของไฟล์ ARFF ซึ่งเป็นไฟลข์ ้อมูลของ WEKA จากนัน้ จึงจะนามาผ่านกระบวนการ 2) ประมวลผลโดยการคัดกรองข้อมูลท่ีเหมาะสมต่อการวิเคราะหข์ ้อมลู (Filter) และเม่ือข้อมูลพร้อมเข้าสู่การวิเคราะหแ์ ลว้ จึงเลือก 3) วธิ ีการ ขั้นตอนวิธีและกาหนดพารามิเตอร์ที่เหมาะสมต่อการวิเคราะห์ข้อมูลน้ันๆ ซึ่งในท้ายที่สุดจะได้ผลลัพธ์ คือตัวแบบ สาหรับการนาไปใชป้ ระโยชนต์ ่อไปเหมืองขอ้ มูลเบ้อื งต้น

การทาเหมอื งข้อมลู ดว้ ย WEKA 91 ภำพที่ 5-4 แสดงขน้ั ตอนการใชง้ าน Explorer ใน WEKAกำรจดั เตรียมขอ้ มลู สำหรบั WEKA ra.ac.thส่วนจัดเตรียมข้อมูล (Preprocess) เป็นส่วนการทางานแรกของการทาเหมืองข้อมูล โดยจะต้องมีการจัดเตรียมข้อมูลให้อยูใ่ นรูปแบบที่พร้อมต่อการวิเคราะห์ข้อมูล ก่อนจะเข้าสู่กระบวนการk.chandวเิ คราะหท์ าเหมอื งขอ้ มูลดว้ ยวิธกี ารตา่ งๆ ซ่ึงในสว่ นการทางานนี้ ยังสามารถวเิ คราะห์ข้อมลู ในเชิงสถิติเบือ้ งต้นได้ โดยแสดงให้เห็นถึงการกระจายของข้อมูลในรปู กราฟ jm1. ข้ันตอนกำรจัดเตรียมขอ้ มูลใน WEKA สาหรับขั้นตอนการทางานในส่วนการจัดเตรียมข้อมูลนี้ จะใช้โมดูล Preprocessในโปรแกรม WEKA ซ่ึงจะสามารถอธิบายเป็นขั้นตอนได้ 7 ขั้นตอน ตามลักษณะการทางานของหนา้ จอ Preprocess โดยเรม่ิ จาก 1) นาเขา้ ชุดข้อมลู โดยใช้ปุม่ Open file… หรอื อนื่ ๆ 2) เลอื กวิธีการคัดกรองข้อมูล (Filter) โดยปุม่ Choose ในสว่ นของ Filter 3) สว่ นการทางานของ Current relation จะปรากฏข้อมูลโดยสรุป 4) ส่วนแสดงตัวแปร พารามเิ ตอร์ จะแสดงตัวแปร พารามิเตอร์ ของขอ้ มูลทีน่ าเข้ามาซึง่ สามารถเลือกใชค้ ุณลักษณะ จากตวั แปร หรือนาเอาตัวแปรที่ไม่จาเป็นออกได้ 5) ส่วนแสดงขอ้ มูลคุณลักษณะทถ่ี กู เลือก จะแสดงข้อมลู สรปุ 6) บรเิ วณแสดงตวั อย่างขอ้ มูลและการกระจายของข้อมูลในกราฟ 7) ส่วนแสดงบันทึกประวัติการทางานท้ังหมดจะบันทึกและแสดงประวัติการทางานโดยปมุ่ Log เหมืองขอ้ มูลเบือ้ งตน้

92 การทาเหมืองขอ้ มลู ดว้ ย WEKA สว่ นโมดลู หลัก นำเขำ้ ชดุ ขอ้ มลู  สว่ นแสดง ขอ้ มลู คณุ ลักษณะทถ่ี กู เลอื ก  เลอื กวธิ ีคัดกรองขอ้ มลู  สว่ นแสดง ขอ้ มลู โดยสรปุ  สว่ นแสดง jmk.chandra.ac.th บรเิวณแสดง  ป่ มุ คำสัง่ แสดงตวั แปร พำรำมเิ ตอร์ ตัวอยำ่ งกรำฟขอ้ มลู สว่ นบันทกึ ประวตั ิ กำรทำงำน ภำพที่ 5-5 แสดงส่วนการทางานใน Preprocessระหวา่ งการทางานจะปรากฏ Kiwi Icon โดยหากมกี ารประมวลผลนกกีวจี ะขยับไปมา 2. กำรนำเข้ำขอ้ มลู ในการนาเข้าขอ้ มูลเพื่อการทาเหมืองข้อมูลใน WEKA น้นั สามารถทาได้ 4 วิธคี อื 1) นาเข้าข้อมูลโดยแฟ้มข้อมูล โดยเลือกปุ่ม Open file… สาหรับประเภทของแฟ้มข้อมูลที่ WEKA รองรับในการนาเข้าข้อมูลเพ่ือการทาเหมืองขอ้ มลู นน้ั จะต้องเปน็ แฟ้มข้อมูลท่ีอยู่ในรูปแบบ ASCII ซึง่ ไดแ้ ก่ ไฟลส์ กุล arff csv หรอื C45เหมอื งขอ้ มลู เบื้องต้น


Like this book? You can publish your book online for free in a few minutes!
Create your own flipbook