Home Explore IntroductiontoDataMining (Edition 2015)

IntroductiontoDataMining (Edition 2015)

Published by Jamornkul Laokietkul, 2016-02-25 07:39:05

Description: IntroductiontoDataMining

Keywords: Data mining

Read the Text Version

Pages:

jmk.chandra.ac.th

เหมืองขอ้ มลู เบือ้ งต้น(Introduction to Data Mining) จามรกลุ เหล่าเกยี รตกิ ุล ปร.ด.(เทคโนโลยสี ารสนเทศ) คณะวิทยาศาสตร์ มหาวิทยาลยั ราชภฏั จันทรเกษม 2558

ช่ือผู้แตง่ จามรกุล เหล่าเกียรติกลุชอ่ื หนังสอื เหมืองข้อมูลเบ้ืองต้นจำนวนหน้ำ 219 หน้าพิมพค์ ร้ังท่ี 1 จานวน 200 เลม่เดอื นปที พ่ี ิมพ์ พฤษภาคม 2558จัดพิมพโ์ ดย Protexts.com บริษทั แดเน็กซ์ อนิ เตอรค์ อร์ปอเรชนั่ จากดั โทรศพั ท์ 025751791 โทรสาร 025751793 อเี มล์ [email protected]ขอ้ มูลทำงบรรณำนุกรม จามรกลุ เหล่าเกียรติกุล ra.ac.thเหมอื งข้อมูลเบ้ืองตน้ : Introduction to Data Mining กรงุ เทพฯ : Protexts.com, 2558 k.chand219 หนา้ ช่ือเร่อื งปกหน้า เหมอื งข้อมลู เบ้ืองตน้ : Introduction to Data MiningjmISBN 978-616-406-834-6สงวนลิขสิทธต์ิ าม พ.ร.บ. ลิขสิทธ์ิ พ.ศ. 2537หา้ มลอกเลยี นแบบไม่วา่ ส่วนหน่ึงสว่ นใดของหนงั สือ/เอกสารเล่มน้ีนอกจากจะไดร้ บั อนุญาตเป็นลายลกั ษณอ์ ักษร

(1) คำนำ หนังสือ เหมืองข้อมูลเบื้องต้นนี้ ใช้สาหรับศึกษา ทาความเข้าใจเกี่ยวกับ พ้ืนฐานในการทาเหมืองข้อมูล หรือรายวิชาที่มีเน้ือหาเกี่ยวข้องกับ ความรู้พ้ืนฐานเหมืองข้อมูล นิยามเหมืองข้อมูลการเชื่อมโยงระหว่างคลังข้อมูล และ เหมืองข้อมูล การนาเหมืองข้อมูลมาใช้ในงานธุรกิจกรรมวิธีเหมืองข้อมูล เทคนิค และ เคร่ืองมือของเหมืองข้อมูล การประยุกต์ใช้งานและ อัลกอริทึมระบบเหมอื งขอ้ มลู ทใ่ี ชอ้ ยู่ ในปจั จบุ ัน หนังสือเหมืองข้อมูลเบื้องต้น ฉบับนี้ แบ่งเน้ือหาออก 2 ส่วนสาคัญ โดยส่วนแรกเป็นส่วนสาหรบั ทาความเข้าใจกับเหมืองข้อมูล ซึง่ มีเน้ือหา 4 บทประกอบไปด้วย การทาเหมืองข้อมูลสถาปตั ยกรรมและขัน้ ตอนการทาเหมืองข้อมูล ข้อมูลและการจัดเตรยี มข้อมูล และ เคร่ืองมือสาหรับการทาเหมืองขอ้ มลู ในขณะที่สว่ นที่ 2 เป็นส่วนสาหรับทาความเข้าใจในเทคนิควิธีการทาเหมืองขอ้ มูลเบ้ืองต้น ประกอบด้วยเนื้อหา 5 บทคือ การทาเหมืองข้อมูลด้วย WEKA การทาเหมืองข้อมูลความสัมพันธ์ การทาเหมืองข้อมูลจาแนกประเภท การทาเหมืองข้อมูลจัดกลุ่ม และ บทบาทแนวโน้ม และการประยุกต์ใช้เหมืองข้อมูล รวมถึงตัวอย่างกรณีศึกษา การใช้เหมืองข้อมูลra.ac.thทั้ง 2 ส่วน รวมเนื้อหาท้ังหมด 9 บท โดยมีคาถามทบทวน เพ่ือให้ได้ฝึกหัด และทบทวนความรู้ความเข้าใจในเนือ้ หา ผู้จัดทาหวังเป็นอย่างย่ิงว่าหนังสือฉบับนี้ จะเป็นประโยชน์ต่อนักศึกษา และผู้สนใจk.chandในการทาเหมืองข้อมูล เพื่อให้เข้าใจถึงหลักการพ้ืนฐานในการทาเหมืองข้อมูล ได้เป็นอย่างดีโดยหากพบข้อบกพร่อง หรือผิดพลาดประการใด หรือ มีข้อเสนอแนะ ผู้เขียนขอน้อมรับดว้ ยความยินดี jm จามรกลุ เหล่าเกยี รตกิ ลุ 20 พฤษภาคม 2558

สารบัญ (3)คานา หน้าสารบัญ (1) (3)ส่วนท่ี 1 ทาความเข้าใจกับเหมืองขอ้ มลู 1บทท่ี 1 การทาเหมอื งข้อมูล ความหมายของเหมอื งขอ้ มลู 3 ความเป็นมาและความสาคัญของการทาเหมืองขอ้ มลู 4 หนา้ ทีแ่ ละประเภทของการทาเหมืองข้อมลู 5 8 ra.ac.thกระบวนการทาเหมืองข้อมูล 11 12 เทคนิคการทาเหมอื งข้อมูล 13 ประโยชน์ของเหมืองขอ้ มลู 16 17 k.chandบทสรปุ 18 เอกสารอ้างองิ 19 คาถามทบทวน 20 25jmบทท่ี 2 สถาปตั ยกรรมและขั้นตอนการทาเหมอื งข้อมูล 27 27 องค์ประกอบและสถาปตั ยกรรมของเหมืองข้อมูล 33 ขัน้ ตอนการทาเหมืองขอ้ มูล 36 37 การทาความเข้าใจในองค์กรธุรกจิ 37 การคดั เลือกข้อมลู 38 การจดั เตรียมข้อมูล 38 การวเิ คราะห์ขอ้ มลู และสร้างตัวแบบ 39 การแปรผลและประเมินผล การนาตัวแบบไปประยุกต์ใช้ บทสรปุ เอกสารอา้ งองิ คาถามทบทวน

(4) หน้า สารบญั (ตอ่ ) 41 42บทที่ 3 ขอ้ มูลและการจดั เตรยี มขอ้ มูล 46 ความหมายและแหลง่ ท่ีมาของขอ้ มูล 48 ชนิดของข้อมูลสาหรับเหมืองข้อมูล 51 ประเภทของข้อมลู สาหรับการทาเหมืองข้อมลู 51 ลกั ษณะของข้อมูลท่ีเหมาะสาหรบั การทาเหมืองข้อมูล 63 ข้ันตอนและวิธีการจัดเตรียมข้อมลู 64 บทสรปุ 65 ra.ac.thเอกสารอา้ งอิง 67 68 คาถามทบทวน 70 71k.chandบทที่ 4 เคร่ืองมือสาหรับการทาเหมืองข้อมูล 73 เครือ่ งมือในการทาเหมืองข้อมลู 75 ตัวอย่างซอฟต์แวร์เหมอื งขอ้ มูลท่ีไดร้ ับความนิยม 77 jmWEKA 79 Orange 81 RapidMiner 82 MATLAB 83 R-Base Language บทสรปุ เอกสารอา้ งอิง คาถามทบทวน

สารบัญ (ตอ่ ) (5)สว่ นที่ 2 เทคนคิ วธิ กี ารทาเหมืองข้อมูลเบื้องตน้ หนา้บทที่ 5 การทาเหมืองข้อมลู ด้วย WEKA 85 แนะนาการใชง้ าน WEKA การจดั เตรียมข้อมลู สาหรบั WEKA 87 การวเิ คราะหส์ ถิติเบอ้ื งตน้ ดว้ ย WEKA 88 การคัดกรองข้อมูลใน WEKA 91 บทสรปุ 99 104 ra.ac.thเอกสารอ้างอิง 111 112 คาถามทบทวน 112บทท่ี 6 การทาเหมอื งข้อมูลความสัมพนั ธ์ 113 114 k.chandการทาเหมืองขอ้ มลู ความสมั พันธ์ 115 125 หลกั การพ้นื ฐานของการคน้ หากฎความสมั พันธ์ 130 ขน้ั ตอนวิธกี ารทาเหมืองข้อมูลความสัมพนั ธ์ดว้ ย WEKA 130 131 jmบทสรปุ 133 เอกสารอา้ งอิง 134 คาถามทบทวน 135 158บทที่ 7 การทาเหมอื งข้อมูลจาแนกประเภท 170 เหมืองข้อมูลจาแนกประเภท 171 หลกั การพื้นฐานของการทาเหมอื งข้อมูลจาแนกประเภท 172 ขัน้ ตอนวธิ กี ารทาเหมอื งข้อมูลจาแนกประเภทด้วย WEKA บทสรปุ เอกสารอ้างอิง คาถามทบทวน

(6) สารบัญ (ตอ่ ) หน้าบทที่ 8 การทาเหมอื งข้อมูลจัดกลุ่ม 173 การวิเคราะห์กลุ่มข้อมูล 174 หลักการพ้นื ฐานของการทาเหมืองขอ้ มลู จดั กลุ่ม 178 ข้ันตอนวิธีการทาเหมอื งข้อมูลจัดกล่มุ ด้วย WEKA 187 บทสรุป 191 เอกสารอ้างองิ 192 คาถามทบทวน 193ra.ac.thบทท่ี 9 บทบาท แนวโนม้ และ การประยุกตใ์ ช้เหมืองข้อมลู 195 บทบาท และ แนวโน้มของเหมืองขอ้ มูล 196 k.chandการประยุกต์ใช้เหมืองข้อมลู ในงานดา้ นตา่ ง ๆ 198 ตวั อย่างกรณีศึกษาการประยุกตใ์ ชเ้ หมอื งข้อมูล 201 บทสรุป 207 jmเอกสารอา้ งอิง 208 คาถามทบทวน 209บรรณานกุ รม 211ดชั นี 215

สว่ นท:ี่ 1ทำคjวmำมk.เcขhำ้ aใnจdกrบั aเ.หaมc.อืthงขอ้ มูล

jmk.chandra.ac.thเหมอื งขอ้ มลู เบอื้ งตน้

1 กำรทำเหมอื งขอ้ มูล ra.ac.thเหมืองข้อมูล (Data Mining) คือ การใช้ประโยชน์จากข้อมูลท่ีถูกเก็บไว้ในรูปแบบk.chandอิเล็กทรอนิกส์ โดยผ่านกระบวนการทางคอมพิวเตอร์ ในการค้นหารูปแบบ (Pattern) กฎเกณฑ์(Rule) ของความสัมพันธ์ที่ซ่อนอยู่ ให้ได้มาซ่ึงความรู้ที่ต้องการ (Knowledge Discovery inDatabases: KDD) เพื่อนามาใช้ในการตัดสินใจ ถือเป็นเครื่องมือช้ินใหม่ท่ีสามารถค้นหาข้อมูลในjmฐานข้อมูลขนาดใหญ่หรือข้อมูลที่เป็นประโยชน์ในการบริหาร ซึ่งเป็นการเพ่ิมคุณค่าใหก้ ับฐานข้อมูลที่มอี ยู่ ดังน้ันในการทาความเข้าใจในการทาเหมืองข้อมูล หรือ Data Mining น้ัน จาเป็นต้องทาความเข้าใจต้ังแต่นิยาม ความหมาย ลักษณะไปจนถึงประโยชน์ท่ีได้ เนื้อหาในบทน้ีจึงกล่าวถึงความหมาย และความเป็นมา ของเหมืองข้อมูล ข้ันตอนการทา รวมไปถึงประโยชน์ท่ีได้จากการทาเหมอื งขอ้ มูล ดังน้ี 1. ความหมายของเหมืองข้อมลู 2. ความเป็นมาและความสาคัญของการทาเหมืองขอ้ มูล 3. หนา้ ทีแ่ ละประเภทของเหมืองข้อมูล 4. กระบวนการทาเหมืองข้อมลู 5. เทคนคิ การทาเหมอื งขอ้ มลู 6. ประโยชน์จากการทาเหมืองข้อมูล เหมอื งข้อมลู เบอื้ งต้น

4 การทาเหมืองข้อมูลความหมายของเหมอื งข้อมูล เมือ่ กล่าวถึง นยิ าม และ ความหมายของเหมืองข้อมูลนนั้ พบว่า มีผนู้ ิยาม และให้ความหมายคาว่า เหมืองขอ้ มลู หรอื Data Mining ไว้หลายความหมายดว้ ยกัน กฤษณะ และ ธีรวัฒน์ (2544) ได้ให้ความหมายของเหมืองข้อมูลไว้ว่า คือเทคนิคท่ีใช้จัดการกับข้อมูลขนาดใหญ่ โดยจะนาข้อมูลที่มีอยู่มาวิเคราะห์แล้วดึงความรู้ หรือส่ิงท่ีสาคัญออกมาเพ่ือใชใ้ นการวิเคราะห์ หรือทานายสง่ิ ตา่ ง ๆ ที่จะเกิดขึน้ ขณะท่ี ชนวัฒน์ (2550) กล่าวว่า ความหมายของเหมืองข้อมูล ว่าคือกระบวนการสกัดความรู้น่าสนใจจากข้อมูลปริมาณมาก ซ่ึงความรู้ที่ได้จากกระบวนการน้ี เป็นความรู้ท่ีไม่ปรากฏให้เหน็ เด่นชัด ความรทู้ ี่บง่ บอกเป็นนยั ความร้ทู ี่ไมท่ ราบมากอ่ นทีม่ ีศักยภาพในการนาไปใชป้ ระโยชน์ เหมืองข้อมูล (Data Mining) คือ กระบวนการท่ีใช้หลักการทางคณิตศาสตร์ สถิติความสามารถในการเรียนรู้และการรู้จาของคอมพิวเตอร์ มาใช้ในการค้นหารูปแบบ (Pattern)ra.ac.thกฎเกณฑ์ (Rule) ของความสัมพันธ์ของข้อมูลท่ีเป็นลาดับช้ัน เพื่อสกัดข้อมูลให้ได้มาซ่ึงความรู้ท่ีต้องการ (Knowledge Discovery in Databases: KDD) เพ่ือนามาใช้ในการตัดสินใจ โดยมุ่งเน้นk.chandการมองไปข้างหน้า (Prospective) ถือเป็นการวิเคราะห์ข้อมูลในเชิงลึก ซึ่งเทคนิคที่ใช้จะข้ึนอยู่กับวัตถุประสงค์และผลลัพธ์ที่ต้องการ ดังนั้นควรมีการนาเสนอวิธีการท่ีหลากหลายสาหรับเปา้ หมายทีแ่ ตกต่างกนั เพื่อให้ได้ผลลพั ธ์ท่เี หมาะสมตามความต้องการ (Wu, 2004) jmนอกจากน้ี เหมืองข้อมูล ยังหมายรวมไปถึง ชุดซอฟต์แวร์ที่ใช้ในการวิเคราะห์ข้อมูล ซ่ึงถูกออกแบบมาเพ่ือการประยุกต์กับความต้องการใช้งานสารสนเทศในระดับสูง เช่นระบบสนับสนุนการตัดสินใจ (Decision Support System: DSS) หรือ ระบบสารสนเทศสาหรับผู้บริหาร (Executive Information System: EIS ) เพื่อให้ได้ซอฟต์แวร์ท่ีมีความสมบูรณ์พร้อมท้ังในเร่ืองของการค้นหา การจัดทารายงาน และสนับสนุนการจัดการด้านต่าง ๆ จัดเป็นเครื่องมือชิ้นใหม่ท่ีสา มารถค้นหา ข้อมูลในฐา นข้อมูลขนา ดใหญ่หรือข้ อมูลที่ เป็นป ระโยชน์ใน การบริหา รซงึ่ เปน็ การเพมิ่ คุณคา่ ใหก้ บั ฐานข้อมลู ท่ีมอี ยู่ ทั้งนี้อาจกล่าวโดยสรุปได้ว่า เหมืองข้อมูล คือ กระบวนการ ขั้นตอน หรือ วิธีการ เทคนิครวมไปถึงซอฟต์แวร์ที่ใช้ในการวิเคราะห์ข้อมูล เพ่ือค้นหาคาตอบ หรือองค์ความรู้ เพ่ือนามาใช้ประโยชน์ในการตัดสินใจ ทานาย คาดการณ์ หรือวางแผน ในเร่ืองต่าง ๆ ถือเป็นเครื่องมือทีส่ ร้างคณุ คา่ ให้แก่ขอ้ มูล นามาซึ่งองค์ความร้อู ันเปน็ คุณประโยชนต์ ่อหน่วยงาน องค์กร ในการบริหารจดั การ เสริมสร้างความแขง็ แกร่ง ให้แก่องค์กร ส่งผลให้ได้รับความนิยม และถูกนาไปประยุกต์ใช้งานอยา่ งแพร่หลายในปจั จุบนั นนั่ เองเหมอื งข้อมูลเบอ้ื งตน้

การทาเหมืองขอ้ มูล 5ความเปน็ มาและความสาคัญของการทาเหมืองขอ้ มูล จากความหมายของเหมืองข้อมูล จะเห็นได้ว่าเหมืองข้อมูล คือ กระบวนวิธี คือ ซอฟต์แวร์ทถ่ี กู สรรสร้างขน้ึ เพือ่ ประยุกต์ใช้งานในการวเิ คราะห์ขอ้ มูลตามความต้องการของผูใ้ ช้งาน โดยเหตทุ ีม่ าของการทาเหมืองข้อมูลเกิดข้ึน และปัจจัยสาคัญท่ีส่งผลให้เกิดการทาเหมืองข้อมูลนั้น สามารถแบ่งออกไดด้ ังนี้1. ความเป็นมาและวิวฒั นาการของการทาเหมอื งข้อมูลในการทาเหมืองข้อมูลนั้นมีความจาเป็นและท่ีมาจากความต้องการในการใช้ประโยชน์ข้อมูล จากระบบสารสนเทศ และฐานข้อมูล ภายใต้เทคโนโลยีสารสนเทศและเทคโนโลยีการจัดการข้อมูลที่ใช้งานอยู่ในปัจจุบัน โดยอาจกล่าวได้ว่าการทาเหมืองข้อมูลน้ัน มีท่ีมาความเป็นมาและววิ ฒั นาการไลเ่ รียงจากอดตี จนกระทัง่ ปจั จุบันดงั นี้ra.ac.thData Collectionjmk.chand19601980 Data Warehouse & 2000 Decision Support - 1990 PresentData Access Data Mining ภาพที่ 1-1 ววิ ฒั นาการของการทาเหมืองขอ้ มลู ในปี ค.ศ. 1960 ยุคของการจัดเก็บข้อมูล (Data Collection) จัดเป็นยุคของการนาข้อมูลมาจัดเก็บอย่างเหมาะสมในอุปกรณ์ที่น่าเช่ือถือและป้องกันการสูญหายได้เป็นอย่างดีเปน็ ยคุ ที่เปน็ การประยุกต์ใชเ้ ทคโนโลยคี อมพิวเตอร์ข้ันสูง เช่น ซูเปอรค์ อมพิวเตอร์ มาใชใ้ นการจดั เก็บข้อมูลในองค์กรธุรกิจต่าง ๆ เช่น ธุรกิจการเงินการธนาคาร หรือการประยุกต์ใช้เพื่อการจัดเก็บข้อมูลบคุ คลของหนว่ ยงานรฐั เปน็ ต้น เหมืองข้อมูลเบ้ืองต้น

6 การทาเหมืองข้อมลู ปี ค.ศ. 1980 ยุคของการเข้าถึงข้อมูล (Data Access) จัดเป็นยุคแห่งการใช้ประโยชน์จากข้อมูลที่จัดเก็บ โดยนาข้อมูลที่ถูกจัดเก็บเอาไว้มาสร้างความสัมพันธ์ และความเชื่อมโยงกันในข้อมูลเพอื่ ใช้ประโยชน์ในการนาไปวเิ คราะห์ และการตัดสนิ ใจอยา่ งมีคณุ ภาพ ปี ค.ศ. 1990 ยุคของคลังขอ้ มูลและการสนบั สนุนการตดั สินใจ (Data Warehouse andDecision Support) เป็นยุคของการต่อยอดการใช้งานข้อมูล โดยการรวบรวมข้อมูลที่ได้จัดเก็บไว้ลงไปในฐานข้อมูลขนาดใหญ่ ท่ีมีความครอบคลุมทุกด้านขององค์กร และนาข้อมูลเหล่านั้นมาใช้ประโยชน์ร่วมกัน โดยการพัฒนาระบบสารสนเทศระดับสูงต่าง ๆ เพื่อเป็นเครื่องมือช่วยในการสนับสนุนการตัดสนิ ใจของผู้บรหิ ารในระดับตา่ ง ๆ ขององคก์ ร ปี ค.ศ. 2000 ยุคของเหมืองข้อมูล (Data Mining) เป็นการนาข้อมูลจากการจัดการข้อมูล เช่น ฐานข้อมูล หรือ คลังข้อมูล รวมถึงเทคโนโลยีการจัดการข้อมูลอื่น ๆ ด้วยการวิเคราะห์และประมวลผล โดยการสร้างแบบจาลองรูปแบบต่าง ๆ รวมถึงการวิเคราะห์หาความสัมพันธ์ทางสถิติ หรือเทคนิควิธีการอื่น ๆ เพื่อนามาใช้ประโยชน์ต่อยอดเพ่ือให้เกิดองค์ความรู้ ท่ีสนองตอบra.ac.thต่อการนาไปใช้งานตามความต้องการ 2. ความสาคัญของการทาเหมอื งขอ้ มลู k.chandในการทาเหมืองข้อมูลนั้นมีความจาเป็นและที่มาจากความต้องการในการใช้ประโยชน์ข้อมูล จากระบบสารสนเทศ และฐานข้อมูล ภายใต้เทคโนโลยีสารสนเทศและเทคโนโลยีการจัดการข้อมูลท่ีใช้งานอยู่ในปัจจุบัน โดยอาจกล่าวได้ว่าการทาเหมืองข้อมูลนั้น มีท่ีมาจากปัจจัยต่าง ๆjmที่ส่งผลเป็นแรงขับเคล่ือน ให้เกิดความต้องการในการทาเหมืองข้อมูล โดยสามารถแบ่งเป็นประเด็นสาคัญไดด้ งั ต่อไปน้ี 1) ความตอ้ งการใชป้ ระโยชนส์ ูงสดุ ของขอ้ มูลท่ถี กู เกบ็ ไว้ ข้อมูลท่ีถูกเก็บไว้ในฐานข้อมูลหากเก็บไว้เฉย ๆ ก็จะไมเ่ กิดประโยชน์ ดงั น้ันจึงตอ้ งมกี ารสกัดสารสนเทศไปใช้ ซ่ึงการสกัดสารสนเทศ หมายถึง การคดั เลอื กข้อมูลออกมาใช้งานในส่วนที่เราตอ้ งการ 2) ขดี จากัดของผู้ใช้งานในการไดม้ าซง่ึ ข้อมูลท่ีต้องการ ในอดีตในการเข้าถึงและใช้งานข้อมูลต่าง ๆ ตา่ ง ๆ ในฐานขอ้ มูล จะได้มาจากการสืบค้นข้อมูลโดยบุคคลที่ได้รับมอบหมาย ซึ่งผู้สืบค้นจะทาการสร้างเง่ือนไขขึ้นมา ตามความสามารถและ ความเช่ียวชาญของแต่ละบุคคล ดังน้ันผลความรู้ที่ได้จากการสืบค้นนั้น จึงอาจมีความแตกต่างกนั มีประโยชน์ต่อการนาไปใชแ้ ตกตา่ งกัน ท้งั น้ีข้ึนอยู่กบั ความรคู้ วามเขา้ ใจของผสู้ ืบค้น และ ผู้ใชง้ านน่นั เองเหมอื งขอ้ มลู เบอื้ งต้น

การทาเหมืองขอ้ มลู 7 3) สภาวะการแข่งขันทางธรุ กจิ ปัจจุบันการวิเคราะห์ข้อมูลจากฐานข้อมูลเดียว อาจไม่เพียงพอท่ีจะให้ข้อมูลความรู้ ที่จะสนองตอบต่อความต้องการใช้งานข้อมูลสาหรับการดาเนินงานภายใต้สภาวการณ์ที่มีการแข่งขันสูง และมีการเปล่ียนแปลงที่รวดเร็ว ส่งผลให้มีความจาเป็นในการใช้งาน “คลังข้อมูล”หรือ Data Warehouse ท่ีเป็นแหล่งรวบรวมฐานข้อมูลหลาย ๆ ฐานข้อมูล หรือ ข้อมูลจากหลาย ๆแหล่งขอ้ มูล เขา้ ด้วยกนั เพอื่ ใช้ประโยชน์ข้อมลู ตามความตอ้ งการ จากแรงขับเคล่อื นทั้ง 3 ประเดน็ จงึ เปน็ เหตุผล และท่มี า ในการทาเหมอื งข้อมลู เพอ่ื ดึงข้อมูลจากฐานข้อมูลทม่ี ีขนาดใหญ่ นาขอ้ มลู มาใชง้ านให้เกิดประโยชนส์ งู ท่สี ดุ 3. ปัจจยั สาคัญที่ทาใหเ้ กิดเหมอื งข้อมลู ปจั จยั สาคญั ทส่ี ง่ ผลทาให้การทาเหมืองข้อมูล จนกระทัง่ ไดร้ บั ความนยิ ม ได้แก่ 1) ปริมาณของขอ้ มลู ที่เพม่ิ ขนึ้ ra.ac.thเป็นท่ีหลีกเล่ียงไม่ได้ว่า ข้อมูลที่ถูกใช้ในการดาเนินธุรกิจ หรือแม้แต่ในชีวติ ประจาวนั นน้ั มแี ตจ่ ะเพ่ิมปริมาณมากข้นึ และขยายตัวอยา่ งตอ่ เนอ่ื ง ซึงเป็นไปตามแนวโนม้ กระแสเทคโนโลยีท่ีเข้ามามีบทบาทสาคัญ ด้วยจานวนและขนาดข้อมูลขนาดใหญ่ถูกผลิตข้ึนและขยายตัวk.chandอย่างรวดเร็ว ในช่องทางต่างๆ ไม่ว่าจะเป็นการจัดเก็บข้อมูลลูกค้า การซ้ือขายสินค้า การชาระค่าสินค้าและบริการ ข้อมูลเครดิต ข้อมูลการใช้บริการต่างๆ หรือแม้กระทั่งการใช้งานSocial Network โดยมี Internet เป็นกลไกสาคัญน้ัน ส่งผลทาให้การสืบค้นความรู้ มีบทบาทjmความสาคญั ตามไปด้วย 2) ความต้องการใช้งานขอ้ มูลเพอ่ื สนับสนุนการตดั สนิ ใจ การใช้งานข้อมูลในปัจจุบันนั้นมิได้ถูกจัดเก็บไว้เพียงเพ่ือการบริหารจัดการเท่านั้นหากแต่ในปัจจุบันมีการมุ่งใช้ประโยชน์ข้อมูลเหล่าน้ัน เช่น ข้อมูลลูกค้า ประวัติการซื้อสินค้าข้อมูลการผลิตสินค้า ถูกนาไปต่อยอดใช้ประโยชน์โดยการสร้างเป็นระบบการสนับสนุนการตัดสินใจ(Decision Support System) เ พื่ อ เ ป็ น ก า ร ง่ า ย ต่ อ ก า ร น า ข้ อ มู ล ม า ใ ช้ ใ น ก า ร วิ เ ค ร า ะ ห์เ พ่ื อ ก า ร ตั ด สิ น ใ จ นั่ น เ อ ง ซึ่ ง โ ด ย ส่ ว น ใ ห ญ่ ข้ อ มู ล จ ะ ถู ก จั ด เ ก็ บ แ ย ก ม า จ า กระบบปฏิบัติการ (Operational System) โดยนารวมข้อมูลที่ต้องการใช้ประโยชน์ หรือหาคาตอบนามาจัดอยู่ในรูปแบบคลังข้อมูล (Data Warehouse) เพื่อให้การง่ายต่อการนาเอาไปใช้ในการสืบค้นแสวงหาความรู้ตอ่ ไป 3) ค่าใชจ้ ่ายท่ลี ดลงในการเข้าถงึ เทคโนโลยีคอมพวิ เตอร์ ปัจจุบันเทคโนโลยีคอมพิวเตอร์สมรรถนะสูงมีราคาต่าลง ส่งผลให้การทาเหมืองข้อมลู ทปี่ ระกอบดว้ ยเทคนิค วิธีการ อลั กอริทึม (Algorithm) ท่ีมคี วามซับซอ้ น ท่ีมคี วามจาเป็น เหมอื งข้อมูลเบอื้ งตน้

8 การทาเหมืองข้อมลูในการใช้งานคอมพิวเตอร์สมรรถนะสูงในการประมวลผลนั้น เป็นไปได้มากยิ่งขึ้น อีกทั้งเทคโนโลยีคอมพิวเตอร์ในระดับส่วนบุคคล อันได้แก่ Microcomputer Desktop PC หรือกระทั่ง Notebookมีประสิทธิภาพสูง และไม่ได้มีราคาสูงดังเช่นในอดีต รวมไปถึง เทคโนโลยีเครือข่ายมีประสิทธิภาพสงู ข้ึน ในค่าใช้จ่ายทีไ่ ม่สูงเช่นเดียวกัน ทาให้การแลกเปลี่ยนเข้าถึงข้อมลู มีความสะดวก ง่ายดาย และเป็นไปไดห้ ลากหลายย่ิงขึ้น ดงั น้ันจงึ สง่ ผลให้หลายหน่วยงานพิจารณาวิเคราะห์ข้อมูลเพ่ือใชป้ ระโยชน์ด้วยการทาเหมืองข้อมลู มากขึน้ โดยอาศยั เทคโนโลยีสารสนเทศท่ถี ูกใชง้ านอยแู่ ลว้ ในองค์กรนนั่ เอง 4) อัตราการแข่งขันทางธุรกจิ จากสภาพการณ์ในปัจจุบันในด้านวิวัฒนาการและพัฒนาการไปอย่างไม่หยุดยั้งของเทคโนโลยีสารสนเทศนั้น นาไปสู่การแข่งขันอย่างสูงทั้งในด้านอุตสาหกรรมและการค้าซงึ่ ในการดาเนินธรุ กิจของหนว่ ยงานและองคก์ รต่าง ๆ นน้ั ล้วนแลว้ แตม่ ปี ริมาณขอ้ มลู ขา่ วสารเกิดข้ึนทุกวันอย่างมากมาย หากแต่ไม่ได้นามาใช้ให้เกิดประโยชน์ให้สูงสุด เช่น การได้มาซ่ึงความรู้ท่ีจะตอบโจทย์การดาเนินธุรกิจ ซ่ึงถือส่วนท่ีจะสร้างความแข็งแกร่งและ ความได้เปรียบทาra.ac.thงการแข่งขันทางธุรกิจ ดังนั้นจึงมีความจาเป็นอย่างย่ิงท่ีต้องมีการควบคุมและมีกระบวนการสืบค้นความรู้ที่ถูกซ่อนอยู่ในฐานข้อมูลอย่างมีประสิทธิภาพ เพ่ือให้ได้มาซ่ึงความรู้ท่ีสามารถนาไปวิเคราะห์เพื่อการตัดสินใจในการจัดการในระบบต่าง ๆk.chandหน้าท่ีและประเภทของการทาเหมอื งข้อมูล jmหน้าที่และประเภทของการทาเหมืองข้อมูล ข้ึนอยู่กับ ลักษณะของปัญหาที่นาไปใช้(Mahapatra, 2001) โดยอาจจาแนกออกได้เป็น 5 ลักษณะไดแ้ ก่ 1) การแบ่งหมวดหมู่ (Classification & Similarity) เป็นจาแนกหรือแบ่งหมวดหมู่ข้อมูลเพ่ือจัดจาแนกประเภทข้อมูล หรือ เพอ่ื ใช้บ่งช้ีคณุ ลกั ษณะอยา่ งใดอย่างหนึ่ง 2) การแบ่งกลุ่มและการแยกแยะความต่าง (Segmentation & Clustering)เป็นการระบุกลุ่มของข้อมูล โดยพิจารณาจากลักษณะร่วมอันใดอันหน่ึง การทาเหมืองข้อมูลเพื่อแบ่งกลุ่มน้ี แตกต่างจากการแบ่งหมวดหมู่ตรงที่ว่าไม่มีการบอกถึงลักษณะท่ีจะจัดจาแนกไว้ก่อนลว่ งหนา้ 3) การคาดการณ์และการพยากรณ์ (Prediction & Forecasting) เป็นการประมาณค่าที่จะเกิดขึ้นในอนาคต โดยอาศัยการพิจารณาจากรูปแบบท่ีได้จากชุดข้อมูลขนาดใหญ่เป็นข้อมูลพื้นฐาน เพ่ือนามาใช้ในการทานาย คาดการณ์ หรือพยากรณ์ สิ่งต่างๆ ท่ีจะเกิดขึ้นในอนาคตน่ันเองเช่น การพยากรณ์ตามความต้องการสั่งซ้ือสินค้าของลูกค้าในช่วงระยะเวลาต่างๆ ซึ่งอาศัยข้อมูลในอดตี มาประกอบการพจิ ารณาเหมืองขอ้ มลู เบอ้ื งต้น

การทาเหมืองข้อมลู 9 4) การหาความสัมพันธ์ (Association) เป็นการพิจารณาความสัมพันธ์ระหว่างส่ิงท่ีเกิดขึ้น หรือเหตุการณ์ที่เกิดขึ้น เพื่อนามาใช้ในการวางแผน จัดการหรือกระทั่งคาดการณ์โอกาสหรือดาเนินการอื่นใด ท้ังนี้การหาความสัมพันธ์ระหว่างข้อมูลน้ันมักถูกนามาใช้กับข้อมูลรายการธรุ กรรม (Transaction data) เช่น รายการขายสินคา้ หน้ารา้ น รายการธุรกรรมทางการเงินของลูกค้าธนาคาร หรอื รายการธรุ กรรมการใชบ้ รกิ ารโครงข่ายโทรศัพท์ เปน็ ต้น 5) การเรียงลาดับ (Sequencing) คล้ายกับความสัมพันธ์ เว้นแต่ว่าความสัมพันธ์เกิดข้ึนข้ามช่วงเวลา หรืออาจกล่าวได้ว่าเปน็ การค้นหาความสัมพันธ์แบบเรียงลาดับน่ันเอง ซ่ึงการทาเหมืองข้อมูลประเภทนี้เป็นการวิเคราะห์ข้อมูลกับข้อมูลประเภทอนุกรมเวลา (Time-series data)ซ่ึงจัดเป็นชนิดของข้อมูล ท่ีได้จากการเก็บค่าจุดข้อมูลอย่างต่อเน่ืองเป็นลาดับของเวลาก่อนหลังเช่น ข้อมลู ตลาดห้นุ ข้อมูลอุณหภูมริ ายวนั ข้อมลู คลนื่ หวั ใจ อตั ราการเติบโตทางการตลาด เปน็ ตน้ ในขณะท่ี ชิดชนก และคณะ (2545) กล่าวถึงการประยุกต์ใช้เทคนิคเหมืองข้อมูลในงานดา้ นต่าง ๆ โดยจาแนกออกไดเ้ ปน็ 3 ดา้ น ได้แก่ ra.ac.th1) การค้นหากฎความสัมพันธ์ (Association Rule Discovery) ซึ่งเป็นการค้นหาความสัมพันธ์ระหว่างข้อมูลจากฐานข้อมูลขนาดใหญ่ท่ีมีอยู่ เพื่อนาไปใช้ในการวิเคราะห์หรือทานายปรากฏการณ์ตา่ ง ๆ เชน่ การประยกุ ตใ์ ช้ในการค้นหาความสมั พนั ธใ์ นการขายสนิ ค้า k.chand2) การจาแนกประเภทข้อมูล (Data Classification) เป็นกระบวนการสรา้ งโมเดลการจัดข้อมูลให้อยู่ในรปู แบบกลุ่มที่กาหนด โดยนาข้อมลู สว่ นหนึ่งมาสอนให้ระบบเรียนรู้ (Training data)เพ่ือจาแนกข้อมูลออกเป็นกลุ่มตามท่ีได้กาหนดไว้ ผลลัพธ์ที่ได้จากการเรียนรู้คือ โมเดลจาแนกjmประเภทข้อมูล (Classifier Model) และนาข้อมูลอีกส่วนเป็นข้อมูลท่ีใช้ทดสอบ (Testing data) ซ่ึงกลุ่มที่แจ้งจริงของข้อมูลที่ใช้ทดสอบน้ีจะถูกนามาเปรียบเทียบกับกลุ่มที่หามาได้จากโมเดลเพื่อทดสอบความถูกต้องและปรับปรุงโมเดล จนกว่าจะได้ค่าความถูกตอ้ งในระดับที่น่าพอใจ หลังจากนั้นเมือ่ มขี อ้ มลู ใหม่เข้ามา เราจะนาขอ้ มูลมาผา่ นโมเดล โดยโมเดลจะสามารถทานายกลุ่มของข้อมูลนีไ้ ด้ 3) การพยากรณ์ข้อมูล (Data Prediction) เป็นกระบวนการสร้างโมเดลเพ่ือทานายหาค่าท่ีต้องการจากข้อมูลที่มีอยู่ โดยมีกระบวนการสร้างโมเดลคล้ายกับการจาแนกประเภทข้อมูลหากแต่ตา่ งตรงทกี่ ารพยากรณ์ข้อมูลไม่มีการจัดข้อมูลเข้ากลุ่มที่ไดก้ าหนด แต่การพยากรณ์ขอ้ มูลเป็นการพยากรณ์เพื่อหาค่าที่ต้องการออกเป็นตัวเลข เช่น การหายอดขายของเดือนถัดไปจากข้อมูลยอดขายทั้งหมดท่ีผ่านมา หรือ ทานายเกรดเฉลี่ยของนักเรียนในปีการศึกษาหน้า จากข้อมูลการลงทะเบยี นเรียนของนสิ ิตทั้งหมด เป็นต้น (กฤษณะ และ ธีรวฒั น์, 2544) เหมืองข้อมูลเบือ้ งตน้

10 การทาเหมอื งขอ้ มูล Usama และคณะ (1996) ซ่ึงถูกอ้างถึงใน จิราพร และคณะ (2549) ได้จาแนกประเภทของงานทีใ่ ช้เหมอื งขอ้ มลู ตามการสรา้ งแบบจาลองออกเปน็ 2 ประเภทคอื 1) แบบจาลองเชิงทานาย (Predictive Data Mining) เป็นการคาดคะเนลักษณะหรือประมาณคา่ ทีช่ ัดเจนของข้อมูลท่ีจะเกิดข้ึนโดยใชพ้ ืน้ ฐานจากข้อมูลทผ่ี า่ นมาในอดีต 2) แบบจาลองเชิงพรรณา (Descriptive Data Mining) เป็นการหาแบบจาลองเพื่ออธบิ ายลกั ษณะบางประการของข้อมูลทมี่ ีอยู่ ซึ่งโดยสว่ นใหญ่จะเปน็ การแบ่งกลุม่ ให้กับข้อมลู ในขณะท่ี ชนวัฒน์ (2550) ได้จาแนกประเภทของการใช้ประโยชน์วิธีเหมืองข้อมูลเปน็ 6 ประเภท ตามลกั ษณะรูปแบบงานทางธรุ กิจ ไดแ้ ก่ 1) งานจัดหมวดหมู่ (Classification) 2) งานประเมินค่า (Estimation) 3) งานทานายล่วงหนา้ (Prediction) 4) งานจัดกลุ่มโดยอาศยั ความใกลช้ ดิ (Affinity Group) ra.ac.th5) งานรวมตวั (Clustering) และ 6) งานอธิบาย (Description) k.chandจากการอธิบายหน้าที่และประเภทของเหมืองข้อมูลข้างต้นนั้น อาจกล่าวโดยสรุปได้ว่าเหมืองข้อมูลมีหน้าท่ีในการวิเคราะห์ข้อมูลเพ่ือตอบโจทย์ ซ่ึงสามารถแบ่งประเภทของเหมืองข้อมูลออกเปน็ 2 ประเภทสาคัญ ได้แก่ jm1) การทาเหมืองข้อมูลเพ่ือค้นหาและเช่ือมโยงความสัมพันธ์ ท่ีเรียกว่า การทาเหมืองข้อมูลความสัมพันธ์ (Association Mining) ทั้งในลักษณะของการวิเคราะห์ความสัมพันธ์ข้อมูลและการเรยี งลาดบั ความสัมพันธ์ของข้อมลู และ 2) การทาเหมืองข้อมูลเพื่อจัดกลุ่มแยกแยะความแตกต่างในลักษณะของการจัดหมวดหมู่และการจาแนกกลุ่มเพ่ือการคาดการณ์และพยากรณ์ ที่เรียกว่า การทาเหมืองข้อมูลจาแนกประเภท (Classification Mining) ซึ่งจะไดอ้ ธิบายและกล่าวถงึ แต่ละประเภท (ท้ัง 2 ประเภท) ในบทตอ่ ๆ ไปเหมืองข้อมูลเบอื้ งตน้

การทาเหมืองข้อมลู 11กระบวนการทาเหมืองข้อมลู Usama และคณะ (1996) ได้จาแนกกระบวนการทาเหมืองข้อมูลออกเป็น 5 ขั้นตอนดังแสดงในภาพ jmk.chandra.ac.thภาพที่ 1-1 กระบวนการทาเหมอื งข้อมูล (ท่มี า: www.kMining.com) 1) การคดั เลอื กข้อมลู (Data Selection) เป็นการระบุถึงแหล่ง ที่มาของ ข้อมูลท่ีจะนามาใช้ในการทาเหมืองข้อมูลพร้อมทั้งคัดเลือกคุณลักษณะ (Attribute) รวมไปถึงชุดข้อมูลที่สอดคล้อง และเป็นประโยชน์ต่อการทาเหมืองขอ้ มูล 2) การเตรยี มข้อมลู (Data Preprocessing) คือข้ันตอนการเตรียมข้อมูลโดยการแยกข้อมูลท่ีไม่มีค่า ข้อมูลที่ทาการบันทึกผิด ข้อมูลที่มีความซ้าซ้อน หรือไม่สอดคล้องกันออกไป และทาการรวบรวมข้อมูลท่ีต้องการท่ีมาจากหลาย ๆฐานขอ้ มูล โดยมีจดุ ประสงคเ์ พอ่ื ทาใหม้ ่นั ใจวา่ คุณภาพของข้อมลู ที่ถูกเลือกนั้นเหมาะสม 3) การแปลงรูปแบบข้อมลู (Data Transformation) เป็นการแปลงข้อมูลที่เลือกมาให้อยู่ในรูปแบบท่ีเหมาะสมสาหรับการนาไปใช้วิเคร าะห์ตามอลั กอริทึม (Algorithm) ท่ใี ช้ในการทาเหมืองข้อมลู ต่อไป 4) การทาเหมอื งข้อมลู (Data Mining) เป็นการใช้เทคนิคการวเิ คราะห์ข้อมูลด้วยวิธีการทางคณิตศาสตร์ สถิติ หรือวิธีการอ่ืน ๆเพือ่ คน้ พบรูปแบบ (Pattern) ทตี่ อ้ งการในรูปแบบของตัวแบบ (Model) เพือ่ นาไปประยุกตใ์ ช้ตอ่ ไป เหมอื งขอ้ มูลเบอื้ งตน้

12 การทาเหมืองขอ้ มลู 5) การแปลผล และประเมนิ ผล (Interpretation and Evaluation) เป็นการแปลความหมายและการประเมินผลลัพธ์ท่ีได้ว่ามีความเหมาะสม หรือตรงกับวัตถุประสงค์ท่ีต้องการหรือไม่ โดยทั่วไปควรมีการแสดงผลในรูปแบบที่สามารถเข้าใจได้โดยง่าย(Usama, 1996)เทคนคิ การทาเหมอื งข้อมูล เทคนิคการทาเหมืองข้อมูลมีหลากหลายวิธีด้วยกัน ชนวัฒน์ ( 2550) กล่าวถึงเทคนิคการทาเหมืองข้อมูลท่ีได้รับความนิยมในการนามาใช้ได้แก่ ด้านการวิเคราะห์ความสัมพันธ์(Association) โดยมีเทคนิควิธีท่ีนิยมใช้เช่น เทคนิคกฎความสัมพันธ์ (Association Rules)ด้านการจัดแบ่งประเภทและการทานาย (Classification and Prediction) เช่น เทคนิคดีซีชันทรี(Decision Tree) ขณะที่ Mahapura (2001) กล่าวว่าอาจจาแนกเทคนิควิธีการทาเหมืองข้อมูลออกได้ra.ac.thเป็น 2 ดา้ นคือ เทคนคิ ด้านคณิตศาสตรแ์ ละสถิติ และ เทคนิคดา้ นปัญญาประดษิ ฐ์ 1) เทคนิคดา้ นคณติ ศาสตรแ์ ละสถติ ิ k.chandเทคนคิ ด้านคณิตศาสตร์และสถิติ (Mathematic and Statistic Techniques)เป็นการประยุกตห์ ลักการทางคณิตศาสตร์ และสถติ ิ นามาใช้ในการวิเคราะห์ข้อมลู เช่น เทคนคิวธิ กี ารวิเคราะหจ์ าแนกกลมุ่ (Cluster Analysis) เป็นเทคนคิ วธิ ีทางสถติ ทิ ี่ใช้ในการจดั กลมุ่ ข้อมูล และjmสามารถจาแนกข้อมลู ใหมล่ งในกลมุ่ ต่าง ๆ ได้ การวิเคราะหค์ วามถดถอย (Regression Analysis)เปน็ เทคนิควธิ ีทางสถติ ใิ นการวเิ คราะหค์ วามถดถอย ซ่ึงสามารถนามาประยุกต์ใชก้ บั ข้อมลู บางประเภทรวมถงึ วธิ ีการทางสถิติทีใ่ ช้แก้ไขปญั หาอ่ืน ๆ เชน่ ดสิ ครีมิเนนต์ (Discriminant analysis) และวิธกี ารโปรแกรมเชงิ เสน้ (Linear Programming) เป็นต้น 2) เทคนคิ ดา้ นปัญญาประดษิ ฐ์ ใ น ส ่ว น เ ท ค น ิค ด ้า น ป ัญ ญ า ป ร ะ ด ิษ ฐ ์ ( Artificial Intelligence Techniques)เป็นการประยุกต์หลักการวิธีการขั้นสูง ในการกาหนด อัลกอริทึมให้คอมพิวเตอร์ทางานเพื่อวิเคราะห์ผลตามความต้องการ ตัวอย่างของเทคนิคด้านปัญญาประดิษฐ์ ได้แก่ เทคนิคโครงข่ายเชิงประสาท (Neural Network) ซ่ึงเป็นวิธีการเรียนรู้ของเคร่ืองโดยการจดจารูปแบบ(Pattern Recognition) จากการตรวจสอบข้อมูลในอดีต จากนั้นนารูปแบบท่ีได้ถูกนามาใช้ในการพยากรณ์เพื่อการสนับสนุนการตัดสินใจ หรือ เทคนิคการให้เหตุผลโดยใช้กรณีเป็นฐาน(Case-Based Reasoning: CBR) เป็นการใช้เหตุการณ์ที่เกิดข้ึนในอดตี เพ่ือจดจาลกั ษณะรูปแบบ(Pattern) เ ช่ น กั น ( Morris, 1995) น อ ก จ า ก นี้ เ ท ค นิ ค ก ร ะ บ ว น วิ ธี ท า ง พั น ธุ ศ า ส ต ร์เหมืองข้อมูลเบ้อื งตน้

การทาเหมืองข้อมูล 13(Genetic Algorithms) หรือที่เรียกว่า อัลกอริทึมทางพันธุ์ศาสตร์ ถือเป็นอีกวิธีการหนึ่งที่ใช้ในการค้นหาและแก้ปัญหาเพื่อให้ได้จุดที่เหมาะสมทีส่ ุด (Optimum points) โดยการเลียนแบบขั้นตอนธรรมชาติของวิวัฒนาการและพัฒนาการของสิ่งมีชีวิต ซึ่งทาให้สามารถค้นหาและแก้ปัญหาเพ่ือให้ได้จุดท่ีเหมาะสมที่สุด (David, 1991) เป็นต้น จะเห็นได้ว่าเทคนิคในการทาเหมืองข้อมูลน้ัน มีมากมาย หลากหลาย โดยแต่ละเทคนิคนั้นจะเหมาะสมกับลักษณะปัญหา ลักษณะของข้อมูล และรวมถึง ปัจจัยที่เกี่ยวข้องแตกต่างกันไปในการเลือกใช้งานจึงต้องข้ึนอยู่กับความเหมาะสม และความต้องการของผู้ใช้งาน ดังแสดงตัวอย่างเปรียบเทียบความสามารถของเทคนคิ ต่าง ๆ กับลักษณะของข้อมูล (ตารางที่ 1-1)ตารางที่ 1-1 เปรียบเทยี บความสามารถของเทคนคิ เหมืองข้อมูลกบั ลกั ษณะของข้อมูล ลักษณะของขอ้ มลู Rule Decision เทคนคิ Neural CBR Induction Tree Networkra.ac.thรองรับขอ้ มูลทีห่ ลากหลาย ดี Cluster ดีมาก ดี ดี ดี Analysis ดีมากรองรบั ข้อมูลที่ไม่ถกู ตอ้ ง หรือมขี อ้ ผิดพลาด ดี ไมด่ ี ดี ดมี าก ดี ไม่ดี ดีk.chandสามารถรองรบั การทางานกบั กลุ่มข้อมลู ขนาดใหญ่ ดี ไม่เหมาะกบั ดี ตวั เลข 0-1 ดีมาก คา่ ต่อเนื่อง ดีมาก เท่าน้นัสามารถรองรบั ชนดิ ของขอ้ มูลได้หลายชนดิ สงู ดีมาก สูงมาก สูงความสามารถในการพยากรณ์ได้อยา่ งถกู ต้อง ดีมาก สงู ไม่ดี ดมี าก ดี สงูjmมปี ระสทิ ธภิ าพในการอธบิ ายผลลัพธ์ทไ่ี ด้ ดมี าก ดี ง่ายนาไปใช้งานร่วมกบั วธิ กี ารอน่ื ๆ ได้ ดี ดี ดี ดีความสามารถในการประมวลผล งา่ ย ง่าย ง่าย ยาก ปรบั ปรงุ ตารางเปรยี บเทียบจาก Mahapura (Mahapatra, 2001)ประโยชน์จากการทาเหมืองข้อมูล เม่ือกล่าวถึงประโยชน์จากการทาเหมืองข้อมูลน้ัน อาจกล่าวได้ว่า เหมืองข้อมูล สามารถนาไปประยุกต์กับงานด้านต่างๆ ได้อย่างหลากหลาย โดยอาจแบ่งประโยชน์ของเหมืองข้อมูลได้เป็นหัวข้อดังนี้ 1) เปน็ เครอ่ื งมือช่วยช้ีแนวทางการตดั สนิ ใจและคาดการณผ์ ลลัพธท์ ่จี ะได้จากการตดั สินใจ 2) ชว่ ยเพ่มิ ความเร็วในการวิเคราะหฐ์ านขอ้ มลู ขนาดใหญ่ เหมอื งข้อมูลเบอ้ื งต้น

14 การทาเหมืองข้อมลู 3) เป็นเคร่ืองมือช่วยในการค้นหาส่วนประกอบที่ซ่อนอยู่ภายในเอกสาร รวมถึงความสัมพันธ์ของสว่ นประกอบต่าง ๆ ด้วย 4) เปน็ เคร่ืองมือเชอ่ื มโยงหน่วยงานตา่ ง ๆ ภายในองค์กร 5) ช่วยการจดั กลมุ่ ข้อมลู ใหส้ ามารถนาไปใช้ประโยชนไ์ ด้ตามความต้องการ นอกจากนใี้ นมมุ มองเชิงธรุ กิจแลว้ การทาเหมอื งขอ้ มลู น้ัน ส่งผลใหเ้ กดิ ประโยชนด์ งั นี้ 1) สร้างความได้เปรียบเหนือคู่แข่งขัน ซึ่งเหมืองข้อมูลสามารถนามาใช้ประโยชน์ได้ทง้ั ในแงข่ องการดงึ สว่ นแบ่งการตลาด และในแง่ของการป้องกนั มใิ ห้เกดิ การเสยี สว่ นแบง่ การตลาด 2) เกิดความรู้ที่สามารถนาไปประยุกต์ใช้ประกอบการตัดสินใจได้ เน่ืองจากการทาเหมืองข้อมูล เป็นการวิเคราะห์ข้อมูลซึ่งรวบรวมจากแหล่งต่าง ๆ เช่น รายการทางธุรกิจ ข้อมูลประวัติลูกค้า และข้อมูลอื่น ๆ จากแหล่งภายนอก ด้วยเทคนิคที่ซับซ้อน อันส่งผลสนับสนุนให้การดาเนินองค์กรเป็นในลักษณะทเี่ ป็น ธุรกิจอัจฉริยะ (Business Intelligence : BI) ดังนั้นจึงส่งผลให้ได้ความรู้ขององคก์ ร ทส่ี ามารถนามาใชใ้ นการคาดการณอ์ นาคต และสามารถเจาะกลมุ่ ตลาดได้ถูกต้องมากขนึ้ ra.ac.th3) ช่วยใ น การ หาข้อ ผิดพ ลาดข องกา รปฏิ บัติงา น ห รือก ารให้ บริกา รได้การทาเหมืองข้อมูลน้ัน นอกจากจะสร้างความได้เปรียบเหนือคู่แข่งขัน และได้ข้อมูลประกอบการตัดสินใจแล้ว ยังสามารถนามาประยุกต์ใช้ เพื่อช่วยในการวิเคราะห์ข้อผิดพลาดในการปฏิบัติงานk.chand(Fraud Detection) ท้ังนีเ้ พ่อื ลดความเสี่ยงในการปฏิบัตงิ านในเร่อื งต่าง ๆ น่ันเอง 4) ช่วยประหยัดค่าใช้จ่าย โดยการทาเหมืองข้อมูลในองค์กรน้ัน จะส่งผลให้สามารถลดขั้นตอนการทางาน หรือทาให้ขั้นตอนการทางานในเร่ืองต่าง ๆ นั้น มีประสิทธิภาพมากขึ้นjmซ่ึงอาจส่งผลให้สามารถลดเวลา ลดข้ันตอน ลดจานวนบุคลากร ในการปฏิบัติงาน ซ่ึงถือเป็นการลดคา่ ใช้จา่ ยน่ันเอง 5) การกาหนดเป้าหมายกลุ่มลูกค้าได้อย่างมีประสิทธิภาพมากขึ้น ทาให้ยอดขายเพิ่มขึ้นเพิม่ จานวนลกู คา้ และ ลดโอกาสของความเส่ยี งต่าง ๆ จากประโยชน์ในการนาเอาเหมืองข้อมูลประยุกต์ใช้เป็นเครื่องมือช่วยในเรื่องต่าง ๆที่กล่าวไปข้างต้นนั้น จะเห็นได้ว่าสามารถนาเอาไปประยุกต์ใช้ได้กับการดาเนินงานทางธุรกิจในรูปแบบงาน ได้แก่ งานด้านการตลาด สามารถทาเหมืองข้อมูลวิเคราะห์การตลาดเพื่อกาหนดลูกค้ากลุ่มเป้าหมายเฉพาะผลิตภัณฑ์ เพื่อคงไว้ซึ่งลูกค้าเดิม หรือ การวิเคราะห์ตะกร้าตลาด ( MarketBasket Analysis) ในระบบการค้าอิเล็กทรอนิกส์เหมอื งข้อมลู เบื้องตน้

การทาเหมืองขอ้ มูล 15 งานด้านการธนาคาร เช่นการตรวจจับการปลอมแปลง สิ่งผิดปกติ หรือ การวิเคราะห์คุณสมบัติผู้ขอสินเชื่อ หรือ การจัดกลุ่มลูกค้าท้ังหมดของธนาคารที่ประสพเหตุผิดปกติในบัญชีธนาคารลกั ษณะเดียวกนั เพื่อดาเนินการต่าง ๆ ตามนโยบายธนาคารต่อไป หรอื งานด้านการผลิต เช่น การวิเคราะห์จุดคุ้มค่าในการลงทุน การค้นหาความเชื่อมโยงของวัตถุดิบที่ใช้ผลิตสินค้า หรือ ความเช่ือมโยงของอุปสงค์-อุปทาน เป็นต้น งานด้านการเกษตร เช่น การประยุกต์เหมืองข้อมูล เพื่อจาแนกประเภทของโรคพืชต่าง ๆเช่น ข้าว อ้อย ถวั่ เหลือง และ มะเขือเทศ เป็นตน้ งานด้านวิศวกรรม เช่น การวิเคราะห์และวินิจฉัยสาเหตุการทางานผิดพลาดของเคร่ืองจกั รกลต่าง ๆ งานด้านอาชญวิทยา เป็นการประยุกต์เหมืองข้อมูล เพื่อการวิเคราะห์ค้นหา และการพิสูจน์อัตลักษณ์บุคคล เช่น การค้นหาเจ้าของลายนิ้วมือ การค้นหาบุคคลด้วยการวิเคราะห์ภาพra.ac.thใบหน้า เปน็ ต้น งานด้านอวกาศ เช่น การใช้วิเคราะห์ข้อมูลท่ีส่งมาจากดาวเทียมขององค์การนาซ่าเพอื่ การทดสอบสมมติฐานตา่ ง ๆ เกีย่ วกับการศึกษาวเิ คราะห์เรอื่ งดวงดาว และอวกาศ นนั่ เอง k.chandนอกจากนี้ยังสามารถประยุกต์ใช้ในงานด้านอื่น ๆ ด้วยเช่นกัน อาทิ งานด้านการประกันภัย และด้านสุขภาพและการแพทย์ ด้านดาราศาสตร์ และด้านกีฬา เป็นต้นjmซึ่งการนาไปใช้ประโยชน์นั้นจาเป็นต้องอาศัยบุคลากรจากหลายฝ่าย และต้องอาศัยความรู้จานวนมาก ถึงจะได้รับประโยชน์อย่างแท้จริง เพราะสิ่งที่ได้จากขั้นตอนวิธีเป็นเพียงตัวเลข และข้อมูล ที่อาจจะนาไปใช้ประโยชน์ได้หรือใช้ประโยชน์อะไรไม่ได้เลยก็เป็นได้ ผู้ที่ศึกษาการทาเหมืองข้อมูลจึงควรมีความรู้รอบด้านและต้องติดต่อกับทุก ๆ ฝ่าย เพื่อให้เข้าใจถึงขอบเขตของปัญหาโดยแท้จริงก่อน เพื่อให้การทาเหมืองข้อมูลเกิดประโยชน์อย่างแท้จริง เหมืองขอ้ มลู เบ้อื งต้น

16 การทาเหมอื งข้อมูลบทสรปุ เหมืองข้อมูล (Data Mining) คือ การใช้ประโยชน์จากข้อมูลท่ีถูกเก็บไว้ในรูปแบบอิเล็กทรอนิกส์ โดยผ่านกระบวนการทางคอมพิวเตอร์ ในการค้นหารูปแบบ (Pattern)กฎเกณฑ์ (Rule) ของความสัมพันธ์ที่ซ่อนอยู่ ให้ได้มาซ่ึงความรู้ท่ีต้องการ (Knowledge Discoveryin Databases: KDD) เพ่ือนามาใช้ในการตัดสินใจ ถือเป็นเครื่องมือชิ้นใหม่ที่สามารถค้นหาข้อมูลในฐานข้อมลู ขนาดใหญ่หรือข้อมลู ท่ีเปน็ ประโยชน์ในการบริหาร ซ่งึ เป็นการเพ่มิ คณุ ค่าให้กับฐานข้อมูลทมี่ อี ยู่ เหมืองข้อมูล สามารถแบ่งออกเป็นหน้าท่ีหลักๆ ได้แก่ 1) การค้นหาและเชื่อมโยงความสัมพันธ์ ท่ีเรียกว่า การทาเหมืองข้อมูลความสัมพันธ์ (Association Mining) ทั้งในลักษณะของการวิเคราะห์ความสัมพันธ์ข้อมูลและการเรียงลาดับความสัมพันธ์ของข้อมูล และ 2) การจัดกลุ่มแยกแยะความแตกต่างในลักษณะของการจัดหมวดหมู่และการจาแนกกลุ่ม เพ่ือการคาดการณ์และra.ac.thพยากรณ์ ที่เรียกว่า การทาเหมืองข้อมลู จาแนกประเภท (Classification Mining) กระบวนการทาเหมืองข้อมูลประกอบด้วย 5 ขั้นตอน คือ 1) การคัดเลือกข้อมูลk.chand2) การเตรียมข้อมูล 3) การแปลงรูปแบบข้อมูล 4) การทาเหมืองข้อมูล และ 5) การแปลผล และประเมนิ ผล เทคนิคการทาเหมืองข้อมูลจาแนกออกได้เป็น 2 ด้าน คือ เทคนิคด้านคณิตศาสตร์และสถิติjmเชน่ เทคนคิ วธิ ีการวิเคราะห์จาแนกกลุม่ (Cluster Analysis) การวิเคราะห์ความถดถอย (RegressionAnalysis) และ เทคนิคด้านปัญญาประดิษฐ์ เช่น เทคนิคโครงข่ายเชิงประสาท (Neural Network)คือวิธีการเรียนรู้ของเคร่ืองโดยการจดจารูปแบบ (Pattern Recognition) แต่หากจาแนกเทคนิคที่ได้รับความนยิ มในการนามาใช้ในเชิงธรุ กิจไดแ้ ก่ เทคนคิ ดา้ นการวเิ คราะห์ความสัมพันธ์ (Association)การจัดแบ่งประเภทและการทานาย (Classification and Prediction) เช่น เทคนิคดีซีชันทรี(Decision Tree) การทาเหมืองข้อมูล สามารถนาไปประยุกต์กับงานด้านต่างๆ ได้อย่างหลากหลาย ได้แก่ด้านการตลาด ด้านการธนาคาร ด้านการผลิต ด้านการประกันภัย และด้านสุขภาพและการแพทย์ด้านดาราศาสตร์ และด้านกีฬา เป็นต้นเหมอื งข้อมูลเบื้องต้น

การทาเหมืองขอ้ มูล 17เอกสารอา้ งองิกฤษณะ ไวยมัย และ ธีระวัฒน์ พงษ์ศิริปรีดา. “การใช้เทคนิค Association Rule Discovery เพ่ือ การจัดสรรกฎหมายในการพิจารณาคดีความ.” NECTEC Technical Journal. ปีท่ี 3 ฉบบั ท่ี 11, (2544) : 143 - 52.ชนวัฒน์ ศรีสอ้าน. ฐานข้อมูล คลังข้อมูล และเหมืองข้อมูล. ปทุมธานี: สานักพิมพ์ มหาวิทยาลัย รงั สติ , 2550.ชดิ ชนก ส่งศิริ, ธนาวนิ ท์ รักธรรมานนท์ และ กฤษณะ ไวยมัย. “การใชเ้ ทคนคิ ดาต้าไมนน์ งิ เพอ่ื พัฒนา คุณภาพการศึกษาคณะวิศวกรรมศาสตร์.” NECTEC Technical Journal. ปีท่ี 11 ฉบับที่ 3, 2545 : 134-42.อ ดุ ล ย์ ยิ้ ม ง า ม . ก า ร ท า เ ห มื อ ง ข้ อ มู ล Data Mining [อ อ น ไ ล น์ ]. เ ข้ า ถึ ง ไ ด้ จ า ก : http://compcenter.bu.ac.th/index.php?option=com_content&task=view&id=7 ra.ac.th5&Itemid=172. (วันทคี่ น้ ขอ้ มูล : 17 มถิ นุ ายน 2554)Bing, L., Wynne, H. and Yiming, M. “Mining Association Rules with Multiple Minimum k.chandSupports.” Proceeding of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Diego, 1999.D. J. Hand, H. Mannila, and P. Smyth, Principles of Data Mining. MIT Press, 2001.jmDavid, L. Handbook of Genetic Algorithms. New York: Van Nostrand Reinhold., 1991.Linoff, G. and Berry, M. Data Mining Techniques. John Wiley & Sons. , 1997.M. Bramer, Principles of Data Mining. Springer, 2013.Mahapatra, I. and Bose, R. K. Business Data Mining - a Machine Learning Perspective. Information and Management. 39, 2001 : 211-25.Morris, B. Case-based reasoning. West Virginia University. Al/ES, 1995; เหมอื งข้อมลู เบ้ืองต้น

18 การทาเหมืองขอ้ มลูคาถามทบทวน1. เหมอื งข้อมลู หมายถึง2. การทาเหมอื งขอ้ มูลสามารถแบ่งได้เปน็ ก่ีประเภท อะไรบา้ ง3. กระบวนการทาเหมอื งขอ้ มลู มีก่ขี ้ันตอน อะไรบา้ ง4. จงยกตวั อยา่ งเทคนคิ การทาเหมอื งข้อมลู5. การทาเหมอื งข้อมูลสามารถนาไปประยุกต์ใชป้ ระโยชน์ในด้านใดไดบ้ า้ งจงยกตัวอยา่ ง jmk.chandra.ac.thเหมอื งขอ้ มูลเบื้องต้น

2 สถาปัตยกรรมและ ra.ac.thขน้ั ตอนการทาเหมอื งขอ้ มูล k.chandในการทาเหมืองข้อมูลนั้น เป็นการใช้งานองค์ประกอบของเทคโนโลยีสารสนเทศในการค้นหาความรู้ท่ีแอบแฝงอยู่ในข้อมูลที่ถูกจัดเก็บเอาไว้ อันได้แก่ เทคโนโลยีคอมพิวเตอร์ผนวกรวมเข้ากับข้อมูล สารสนเทศ และอาจรวมไปถึงเทคโนโลยีเครือข่ายท่ีมีประสิทธิภาพjmในการเข้าถึงข้อมูลที่เก่ียวข้อง อันเป็นองค์ประกอบต่างๆ ท่ีเก่ียวข้อง เพื่อนามาเข้าสู่กระบวนการ ข้นั ตอนในการทาเหมอื งขอ้ มลู เนื้อหาในบทน้ีจะเป็นการอธิบายให้ผู้อ่านได้ทาความเข้าใจถึง องค์ประกอบ และสถาปัตยกรรมท่ีเกี่ยวข้อง ในการทาเหมืองข้อมูล รวมไปถึงขั้นตอนการทาเหมืองข้อมูล โดยแบ่งเนอื้ หาภายในบทเปน็ 2 หวั ข้อดังน้ี 1. องคป์ ระกอบและสถาปัตยกรรมสาหรบั เหมอื งขอ้ มลู 2. ข้ันตอนการทาเหมอื งข้อมูล เหมืองข้อมูลเบอ้ื งต้น

20 สถาปัตยกรรมและขนั้ ตอนการทาเหมืองขอ้ มลูองคป์ ระกอบและสถาปตั ยกรรมเหมืองขอ้ มลู การทาเหมืองข้อมูล เป็นการประยุกต์ใช้ซอฟต์แวร์ในการวิเคราะห์ข้อมูลเพ่ือค้นหาองค์ความรู้ ซ่ึงนอกจากจะต้องมีซอฟต์แวร์สาหรบั การทาเหมืองข้อมลู แล้ว ยังต้องมี ข้อมูล เป็นปัจจัยสาคัญในการทาเหมืองข้อมูล และยังต้องมีองค์ประกอบอื่น ๆ ที่เกี่ยวข้อง เพื่อให้การดาเนินการในการทาเหมืองข้อมูลเป็นไปตามกระบวนการ และได้ผลลัพธ์คือความรู้ ท่ีสามารถนาเอาไปใช้ประโยชนไ์ ด้ ดังนั้นหากจะกล่าวถึง ส่วนประกอบที่เก่ียวข้องกับการทาเหมืองข้อมูล ท่ีจะจัดเป็นองค์ประกอบ ที่ประกอบรวมกันเป็นสถาปัตยกรรมเหมืองข้อมูลน้ัน จึงควรจะจาแนกออกได้เป็น 6 องค์ประกอบ คือ 1) แหล่งข้อมูล (Data Source) คือ แหล่งที่มาของข้อมูลสาหรับการทาเหมืองข้อมูล ที่ถูกจัดเก็บเอาไว้ หรือรวบรวมไว้ ซึ่งอาจจะอยู่ในรูปแบบ ฐานข้อมูล (Database)คลังข้อมูล (Data Warehouse) หรือ อาจเป็นข้อมูลท่ีอยู่บนเครือข่ายสื่อสารข้อมูล World Widera.ac.thWeb ห รื อ บ น แ ห ล่ ง ข้ อ มู ล อ่ื น ๆ ( Other Info Repositories) 2 ) ส่ ว น จั ด ก า ร ข้ อ มู ล(Data Management) โดยอาศัยฐานข้อมูล และ ระบบจัดการฐานข้อมูล (Database andDatabase Management System) หรือ ฐานคลังข้อมูล (Data Warehouse Server) ซ่ึงทาหน้าที่k.chandนาเข้าและจัดการข้อมูลตามคาขอของผู้ใช้ 3) ส่วนฐานความรู้ (Knowledge Base) ได้แก่ ความรู้เฉพาะด้านในงานท่ีทาจะเป็นประโยชน์ต่อการสืบค้น หรือประเมินความน่าสนใจของรูปแบบผลลัพธ์ท่ี ไ ด้ 4 ) ก ล ไ ก เ ห มื อ ง ข้ อ มู ล ( Data Mining Engine) ถื อ เ ป็ น ส่ ว น ป ร ะ ก อ บ ห ลั ก ส า คั ญjmที่ประกอบไปด้วยโมเดล หรือ เทคนิค ที่รองรับการทาเหมืองข้อมูลประเภทต่างๆ ได้แก่ การหากฎความสมั พันธ์ การจาแนกประเภท การจดั กลุ่ม 5) สว่ นประเมนิ รูปแบบผลลัพธ์ (Pattern EvaluationModule) ซงึ่ จะทางานรว่ มกับ กลไกการทาเหมอื งขอ้ มูล เพือ่ ประเมินความแมน่ ยา หรอื ความถูกต้องของรูปแบบผลลัพธ์ท่ีค้นพบ ด้วยมาตรวัด (Measure) ต่าง ๆ ถือเป็นส่วนการทางานเพื่อกล่ันกรองรปู แบบผลลัทธ์ทีไ่ ด้ ให้สอดคล้องตรงตามความต้องการในการนาไปใชป้ ระโยชน์ และ 6) ส่วนประสานกบั ผใู้ ช้งาน (User Interface) จัดเป็นส่วนติดต่อประสานระหว่างผู้ใช้งานกบั การทาเหมืองข้อมูล ช่วยให้ผ้ใู ช้สามารถระบุงานทต่ี ้องการทาเหมอื งข้อมูล เรยี กดูข้อมลู หรือโครงสร้างการจัดเกบ็ ขอ้ มูล และทาการประเมินรปู แบบผลลพั ธ์ที่ได้ จากท้ัง 6 องค์ประกอบที่กล่าวข้างต้น แต่ละองค์ประกอบจะต้องทางานสัมพันธ์กัน เพื่อให้เกิดกระบวนการทางาน เป็นสถาปัตยกรรมเหมืองข้อมูลท่ีสมบูรณ์ต่อไป ดังแสดงความสัมพันธ์ของแต่ละองคป์ ระกอบดงั ภาพเหมืองข้อมูลเบ้ืองต้น

สถาปัตยกรรมและขน้ั ตอนการทาเหมืองข้อมูล 21 jmk.chandra.ac.th ภาพที่ 2-1 องค์ประกอบและสถาปตั ยกรรมเหมืองขอ้ มลู จากองค์ประกอบท้ัง 6 ส่วนของการทาเหมืองข้อมูลนั้น สามารถนามาอธิบายรายละเอียดของแตล่ ะองคป์ ระกอบ เพ่อื ความเข้าใจไดด้ ังนี้ เหมืองขอ้ มูลเบื้องตน้

22 สถาปตั ยกรรมและขนั้ ตอนการทาเหมืองข้อมูล 1. แหลง่ ข้อมูล แหล่งข้อมูล (Data Source) ในการทาเหมืองข้อมูลเรื่องใดเร่ืองหน่ึง เพ่ือวัตถุประสงค์อย่างใดอย่างหน่ึงนั้น อาจจาแนกที่มาได้เป็น 2 แหล่งใหญ่ ๆ ได้แก่ แหล่งข้อมูลภายใน และแหลง่ ขอ้ มูลภายนอก 1) แหล่งข้อมลู ภายใน แหล่งขอ้ มูลภายใน (Internal Data Source) เปน็ แหลง่ ข้อมลู ท้ังหมดที่อยู่ภายในหนว่ ยงานองค์กร หรือภายใต้หน้าที่ความรับผิดชอบของผู้ใช้งานข้อมูล เป็นข้อมูลท่ีผู้ใช้งานสามารถส่ังการเข้าถึงข้อมูลได้ตามความต้องการ ตวั อย่างของแหล่งขอ้ มูลภายใน ได้แก่ ข้อมูลของแผนกต่าง ๆ เช่นข้อมูลการปฏิบัติงานในแต่ละวัน ข้อมูลบุคลากร เช่น ผู้บริหาร เจ้าหน้าที่ผู้ชานาญการ หัวหน้างานพนักงาน ข้อมูลสินค้าและบริการ ข้อมูลเคร่ืองจักร ข้อมูลคลังสินค้า และ ข้อมูลในการปฏิบัติงานเปน็ ต้น 2) แหล่งข้อมลู ภายนอก ra.ac.thแหล่งข้อมูลภายนอก (External Data Source) เป็นแหล่งข้อมูลทั้งหมดที่อยู่ภายนอกองค์กร หน่วยงาน หรือนอกเหนือความรับผิดชอบของผู้ใช้งานข้อมูล แต่จัดเป็นข้อมูลท่ีมีk.chandจาเป็นและเก่ียวข้องกับการตัดสินใจ เช่น หน่วยงานรัฐบาล หน่วยงานเอกชนสถาบันวิจัยห้องสมุดเป็นต้น โดยมีตัวอย่างของข้อมูลเช่น ผลการวิจัย ผลสารวจ หรือแม้แต่ผลการจัดอันดับความน่าเช่ือถือ เป็นต้น ท่ีมาของแหล่งข้อมูลจากภายนอกน้ี อาจไม่ได้อยู่ในรูปแบบฐานข้อมูลท่ีสามารถส่ังการเขา้ ถึงไดโ้ ดยตรง หากแต่อาจอย่ใู นรูปแบบ หนงั สือหนังสือพิมพเ์ ว็บไซต์ หรอื CD-ROM เป็นต้นjmซึ่งจาเป็นต้องมีการนาเขา้ ข้อมลู สฐู่ านข้อมลู เพื่อนาไปใช้ประโยชน์ต่อไป นอกจากแหล่งข้อมูลจะจาแนกตามแหล่งท่ีมาของข้อมูลแล้ว ยังสามารถจาแนกตามลักษณะการจัดการข้อมูลว่าเป็นข้อมูลที่ถูกจัดการและจัดเก็บไว้ใช้งานอย่างมีแบบแผน หรือเป็นข้อมูลท่ีถูกเผยแพร่และใช้ประโยชน์ทั่วไปบนเครือข่ายสาธารณะ โดยอาจจาแนกแหล่งข้อมูลสาคญั ทเ่ี ก่ียวขอ้ งกบั การทาเหมอื งข้อมลู ไดแ้ ก่ 1) ข้อมลู ทีถ่ ูกจัดเกบ็ ไว้ใช้งานอยา่ งมีแบบแผน สาหรับข้อมูลที่ถูกจัดเก็บไว้ใช้งานอย่างมีแบบแผน ซ่ึงมักจะเป็นการจัดเก็บข้อมูลในหน่วยงาน องค์กรธุรกิจ เพ่ือการใช้ประโยชน์ในระบบสารสนเทศต่าง ๆ ข้อมูลลักษณะน้ีจะถูกจัดเก็บอยใู่ นรูปแบบของ ฐานข้อมูล (Database) หรอื คลังขอ้ มูล (Data Warehouse) ตัวอย่างข้อมูลที่จัดเก็บ และมักจะถูกนามาใช้ทาเหมืองข้อมูล เช่น ข้อมูลลูกค้า ข้อมูลรายการขายสินค้า ข้อมูลประวัตกิ ารใช้บรกิ าร ขอ้ มลู ประวัติการรักษา เปน็ ตน้เหมืองขอ้ มูลเบ้อื งตน้

สถาปตั ยกรรมและขั้นตอนการทาเหมืองข้อมูล 23 2) ขอ้ มูลทถ่ี ูกเผยแพรแ่ ละใชป้ ระโยชนท์ ่วั ไป ในส่วนของข้อมูลทถี่ ูกเผยแพร่และใช้ประโยชน์ทั่วไป ซ่ึงอาจเป็นข้อมูลท่ีพบเหน็ ได้ทั่ว ๆ ไป อาจอยู่บนเครือข่ายสื่อสารขอ้ มูลอนิ เทอรเ์ น็ต อันเป็นเครือข่ายสาธารณะ บนบริการ WWW(World Wide Web) หรือบนแหล่งข้อมูลในลักษะอ่ืน ๆ (Other Info Repositories) เป็นต้นโดยลักษณะของข้อมูลที่ถูกเผยแพร่และใช้ประโยชนท์ ่ัวไป นี้ จะแตกต่างจากข้อมูลซึ่งถูกจัดเก็บอย่างเป็นแบบแผนไวใ้ ช้งานอย่างชัดเจน กลา่ วคือ ข้อมูลที่ได้มานั้น อาจไมม่ ีรูปแบบ แบบแผน และจัดเก็บอยู่ในรูปแบบต่าง ๆ เช่น ข้อมูลอ้างอิงของเว็บเพจต่าง ๆ ที่อาจถูกรวบรวมและได้มาเป็นรูปแบบXML หรือ HTML หรือ ข้อมูลการอ้างอิงผลงานวิชาการ งานวิจัย ท่ีถูกจัดรูปแบบตามมาตรฐานการอา้ งอิง และจดั เก็บไว้เปน็ ไฟลส์ กลุ ตา่ งๆ เช่น .bib หรือ .ris หรอื LaTEX ไฟล์ 2. ส่วนจดั การขอ้ มลู ส่วนจัดการข้อมูล (Data Management) เป็นองค์ประกอบสาหรับขั้นตอนสาคัญra.ac.thก่อนการทาเหมืองข้อมูล คือ การจัดเตรียมข้อมูล โดยการรวบรวม คัดเลือก และ คัดกรองข้อมูลที่สามารถนามาใช้ประโยชน์ เพ่ือนาเข้าสู่กระบวนการเหมืองข้อมูลต่อไป สาหรับส่วนประกอบท่ีจาเป็นของส่วนจัดการข้อมูล เพ่ือการจัดเตรียมข้อมูล ที่ถูกคัดกรอง คัดเลือก มาจากแหล่งข้อมูลk.chandต่าง ๆ น้ัน สาหรับเทคโนโลยีท่ีรองรับการดาเนินการในส่วนจัดการข้อมูลน้ี อาจอยู่ในรูปแบบของฐานขอ้ มลู และ ระบบจัดการฐานข้อมลู รวมไปถงึ ฐานคลังข้อมูล 1) ฐานข้อมลู และ ระบบจัดการฐานข้อมูล jmฐ า น ข้ อ มู ล แ ล ะ ร ะ บ บ จั ด ก า ร ฐ า น ข้ อ มู ล (Database and DatabaseManagement System) ซ่ึงคือ การนาข้อมูลที่มีความสัมพันธ์กันมาจัดเก็บไว้ด้วยกัน เพ่ือให้ผู้ใช้สามารถใช้งานข้อมูลร่วมกันได้อย่างมีประสิทธิภาพ ซึ่งรวมไปถึงการใช้งานข้อมูลเพื่อประกอบการตัดสินใจ ที่มีการจัดการด้วยระบบจัดการฐานข้อมูล (Database Management System) อันเป็นซ อ ฟ ต์ แ ว ร์ ห รื อ ร ะ บ บ ที่ ถู ก พั ฒ น า ขึ้ น เ พ่ื อ อ า น ว ย ค ว า ม ส ะ ด ว ก ใ น ก า ร จั ด ก า ร แ ล ะการใช้งานข้อมูล ตามหลักการและแนวคิดของฐานข้อมูล โดยมีหน้าที่หลัก ในการสร้าง และจัดการฐานข้อมูล เพื่อให้ผู้ใช้งานข้อมูลสามารถเรียกใช้ข้อมูล ได้ตามความต้องการ รวมไปถึงการจัดการควบคมุ สทิ ธิการใช้งานและรักษาความปลอดภยั ในการใช้งานข้อมลู สาหรบั ข้อมูลท่ีถูกจัดเก็บไวใ้ ช้งานในลักษณะน้ี มักจะเป็นข้อมูลที่ถูกใช้งานอยู่เป็นประจา เป็นส่วนหนึ่งของงานท่ีต้องปฏิบัติ และเป็นข้อมูลที่จาเปน็ ตอ้ งจัดเกบ็ ไว้ในหนว่ ยงาน องค์กร ซง่ึ เก่ียวเนอ่ื งกบั การใชง้ านระบบสารสนเทศ เหมืองขอ้ มลู เบือ้ งตน้

24 สถาปัตยกรรมและข้นั ตอนการทาเหมืองข้อมูล 2) ฐานคลงั ขอ้ มลู ฐานคลงั ข้อมลู (Data Warehouse Server) ซ่ึงคือวิธีการ รวมถึงเปน็ แหล่งจัดเก็บและรวบรวมข้อมูลจากฐานข้อมูลหลาย ๆ ฐาน เพื่อนามาใช้ประโยชน์ เช่น ฐานข้อมูลปฏิบัติการ(Operational Database) ของระบบงานประจาวันภายในองค์กรหรอื หน่วยงาน และฐานขอ้ มลู อ่ืน ๆจากภายนอก (External Database) โดยมีวตั ถุประสงค์เพื่อนาข้อมูลทีร่ วบรวมจัดเก็บมาใชป้ ระโยชน์ร่วมกนั ในงานด้านต่าง ๆ ซึ่งในหลายกรณีอาจมีความตอ้ งการใช้งานข้อมูลร่วมกนั จากหลายฐานข้อมูลจงึ เป็นสาเหตุให้มีการจดั การให้อยู่ในรูปแบบคลังข้อมูลนนั่ เอง 3. สว่ นฐานความรู้ ส่วนฐานความรู้ (Knowledge Base) จัดเป็นองค์ประกอบที่คอยจัดการข้อมูลความรู้ท่ีได้จากการทาเหมืองข้อมูล หรือ จัดการความรู้ที่จะเสริมกระบวนการทาเหมืองข้อมูล ให้ได้รูปแบบผลลัพธ์ที่สามารถนาไปใช้ประโยชน์ได้ โดยเทคโนโลยีท่ีรองรับการทาหน้าท่ีของส่วนฐานความรู้นี้ra.ac.thอาจอยู่ในรูปแบบของฐานความรู้ ในลักษณะของฐานข้อมลู หรือ คลังข้อมูลประเภทหนงึ่ ซง่ึ ทาหน้าที่ในการจัดเก็บรวมรวมความรู้เฉพาะด้านที่เป็นประโยชน์ทั้งต่อการสืบค้น หรือกระท่ัง การต่อยอดความรู้ที่ถูกจัดเก็บรวบรวมไว้ ในลักษณะของการประเมินความน่าสนใจของรูปแบบผลลัพธ์ท่ีได้k.chandท่ไี ด้ผ่านกระบวนการเหมอื งขอ้ มลู มาแลว้ เป็นต้น 4. กลไกเหมอื งข้อมลู jmกลไกเหมืองข้อมูล ( Data Mining Engine) ถือเป็นส่วนประกอบหลักสาคัญท่ีอาจเรียกได้ว่า เป็นขั้นตอนการค้นหารูปแบบ หรือมักจะถูกเรียกว่า โมเดล (Model)หรือ การค้นหาความสัมพันธ์จากข้อมูล ซึ่งเรียกได้ว่าเป็นกระบวนการค้นหาโมเดลหรือความสัมพันธ์(Data Modeling or Data Discovery) โดยกระบวนการท่ีจัดได้ว่าเป็น “กลไกเหมืองข้อมูล” น้ันเริ่มต้นจาก การมีข้อมูลเริ่มต้น ที่อาจมีจานวนไม่มากนัก นาเข้าสู่กระบวนการค้นหารูปแบบเพื่อสร้างโมเดล จากน้ันจึงนาผลที่ได้จากกระบวนการ นาไปยืนยันกับข้อมูลสาหรับการทดสอบไปและปรับปรุงโมเดล เพ่ือได้ผลลัพธ์ท่ีมีความถูกต้องอยู่ในระดับที่ยอมรับได้ อันเป็นที่น่าพอใจจึงเสร็จสิ้นกระบวนการค้นหารูปแบบ ซึ่งในกลไกเหมืองข้อมูลน้ี หัวใจสาคัญคือ กระบวนการค้นหารูปแบบ หรือที่เรียกว่า “เทคนิค” ท่ีรองรับการทาเหมืองข้อมูลประเภทต่าง ๆ เช่นการหากฎความสัมพันธ์ การจาแนกประเภท การจัดกลุ่ม เพ่ือให้ได้มาซ่ึง รูปแบบ หรือ ตัวแบบหรือ โมเดล ทค่ี น้ พบ เพ่อื นาไปตอ่ ยอดใชป้ ระโยชน์ต่อไปนนั่ เองเหมืองข้อมูลเบ้ืองต้น

สถาปัตยกรรมและขน้ั ตอนการทาเหมืองข้อมูล 25 5. สว่ นประเมินรูปแบบผลลพั ธ์ ส่วนประเมินรูปแบบผลลัพธ์ (Pattern Evaluation Module) เป็นส่วนซ่ึงจะทางานร่วมกับ กลไกการทาเหมืองข้อมูล เพื่อประเมินความแม่นยา หรือ ความถูกต้องของรูปแบบผลลัพธ์ท่ีค้นพบ ด้วยมาตรวัด (Measure) ต่าง ๆ เช่น Accuracy percentage Precision Recall หรือF-Measure เป็นต้น (ซ่ึงจะได้กล่าวถึงอีกคร้ังในข้ันตอนการทาเหมืองข้อมูล) ถือได้ว่า ส่วนประเมินรูปแบบผลลัพธ์นี้ เป็นส่วนการทางาน ที่ทาหน้าที่ในการกลั่นกรองรูปแบบผลลัพธ์ท่ีได้ว่ามีประสทิ ธิภาพสูงเพียงใด ท้งั ในด้านความแมน่ ยา ความถูกต้อง รวมถึงความเป็นไปไดใ้ นการนาเอารูปแบบผลลัพธ์ที่ได้ไปใช้ประโยชน์ ท้ังน้ีเพ่ือให้สอดคล้องตรงตามความต้องการในการนาไปใช้ประโยชน์ 6. ส่วนประสานกบั ผใู้ ช้งาน ส่วนประสานกับผู้ใช้งาน (User Interface) จัดเป็นส่วนติดต่อประสานระหว่างผู้ใช้งานกับการทาเหมืองข้อมูล ช่วยให้ผู้ใช้สามารถระบุงานท่ีต้องการทาเหมืองข้อมูล เรียกดูข้อมูลหรือra.ac.thโครงสรา้ งการจดั เกบ็ ขอ้ มลู และทาการประเมนิ รปู แบบผลลัพธ์ที่ได้ ขอ้ มูลทสี่ ามารถนามาใช้ในการทาเหมืองขอ้ มลู เพื่อการวิเคราะห์ข้อมูลและนาไปใชป้ ระโยชน์k.chandน้ัน อาจมาจากแหล่งข้อมูลในรูปแบบต่างๆ ซึ่งขึ้นอยู่กับวัตถุประสงค์ของการทาเหมืองข้อมูลโดยสามารถแบ่งลักษณะของข้อมูลออกเป็น 2 รูปแบบ ได้แก่ 1) ข้อมูลแบบมีโครงสร้าง(Structured Data) หรือข้อมูลท่ีถูกจัดให้อยู่ในรูปแบบตาราง และอาจถูกจัดเก็บไว้โดยเทคโนโลยีjmจัดการข้อมูล เช่น ฐานข้อมูล บนระบบจัดการฐานข้อมูลเชิงสัมพันธ์ ตัวอย่างของข้อมูลแบบมีโครงสร้าง ได้แก่ ข้อมูลของลูกค้า หรือ ข้อมูลการซื้อขายสินค้าต่างๆ เป็นต้น และ2) ข้อมูลแบบไม่มีโครงสร้าง (Unstructured Data) ซึ่งจัดเป็นข้อมูลที่พบเจอได้ในรูปแบบต่าง ๆ ได้ในยุคปัจจุบนั เช่น ข้อความในรูปแบบอีเมล์ (E-mail) หรือ ข้อมูลตา่ ง ๆ บนเครือข่ายสังคมออนไลน์(Social Network) เป็นต้นข้ันตอนการทาเหมอื งขอ้ มูล หากเราเปรียบเทียบข้อมูล เป็นภูเขา และองค์ความรู้ นั้น เป็น สินแร่ สาคัญ ท่ีเราต้องการค้นหาเพ่ือนามาใช้ประโยชน์แล้ว ขั้นตอนการทาเหมืองข้อมูลน้ัน ก็เปรียบเสมือนการทาเหมืองแร่ท่ีจะต้องใช้เคร่ืองจักร ทาหน้าท่ีในการคัดแยก สินแร่ อันเป็นท่ีต้องการออกจาก กองหิน กรวด ดินทราย ที่ปะปนมากับสายแร่ เพียงแตใ่ นกระบวนการในการทาเหมอื งขอ้ มูลนนั้ สิ่งที่เราจะได้จากข้อมูลปริมาณมากมายมหาศาล คือ ความรู้ (Knowledge) ท่ีซ่อนแฝงอยู่ในข้อมูล ซึ่งความรู้น้ีจะช่วยให้เรา เหมืองข้อมูลเบื้องต้น

26 สถาปตั ยกรรมและข้นั ตอนการทาเหมืองข้อมลูเข้าใจลักษณะของข้อมูล และเข้าใจปัจจัยที่ทาให้เกิดลักษณะบางอย่างข้ึนในข้อมูลบางกลุ่ม ทาให้เราสามารถทานายแนวโน้มของข้อมูลใหม่ทจี่ ะเกิดขน้ึ ในอนาคตได้ รวมถึงเข้าใจความสัมพนั ธ์ทเี่ ชื่อมโยงข้อมูลแต่ละกลุ่มยอ่ ยเข้าดว้ ยกนั อีกด้วย ดังนั้นเมือ่ กล่าวถึง ข้ันตอนของการทาเหมืองขอ้ มลู นนั้ Usama และคณะ (1996) ได้จาแนกกระบวนการทาเหมืองข้อมูลออกเป็น 5 ขั้นตอน ได้แก่ 1) การคัดเลือกข้อมูล 2) การจัดเตรียมข้อมูล 3) การจัดรูปแบบข้อมูล 4) การทาเหมืองข้อมูล และ 5) การแปรผลและประเมินผลดังแสดงในภาพ jmk.chandra.ac.th ภาพที่ 2-2 ขั้นตอนการทาเหมืองข้อมลู (ประยุกตจ์ าก: http://www.zentut.com/data-mining/what-is-data-mining/) ในขณะที่ในมุมมองเชิงธุรกิจ ภายใต้โครงการความร่วมมือของหน่วยงานเอกชนในยุโรปได้แก่ บริษัท DaimlerChrysler บริษัท SPSS และบริษัท NCR ได้ร่วมกันกาหนดขั้นตอนมาตรฐานท่ีเรียกว่า Cross Industry Standard Process for Data Mining หรือเรียกย่อ ๆ ว่า CRISP-DMไว้เป็นขั้นตอนกระบวนการทาเหมืองข้อมูล โดยแบ่งออกเป็น 6 ข้ันตอนสาคัญ ได้แก่1) การทาความเข้าใจกับองค์กรธุรกิจ 2) การทาความเข้าใจกับข้อมูล 3) การจัดเตรียมข้อมูล4) การจัดทาตัวแบบ 5) การประเมินผล และ 6) การนาไปใช้ (Shearer C, 2000) ดังแสดงในภาพเหมืองขอ้ มลู เบ้อื งตน้

สถาปตั ยกรรมและขน้ั ตอนการทาเหมอื งข้อมูล 27ra.ac.thภาพท่ี 2-3 ข้ันตอนมาตรฐาน Cross Industry Standard Process for Data Mining: CRISP-DM (ที่มา: https://en.wikipedia.org/wiki/Cross_Industry_Standard_Process_for_Data_Mining) k.chandสาหรบั รายละเอียดของข้ันตอนการทาเหมอื งข้อมูล ในหนังสอื เล่มนี้ เปน็ การอา้ งองิ โดยผสานแนวคิดของ Usama และคณะ (1996) และ CRISP-DM โดยแบง่ ออกเปน็ 6 ขั้นตอน ดังต่อไปนี้ jm1. การทาความเข้าใจกบั องค์กรธรุ กิจ การทาความเข้าใจกับองค์กรธุรกิจ (Business Understanding) ถือเป็นข้ันตอนสาคัญในการตระหนักและให้ความสาคัญกับการทาความเข้าใจต่อลกั ษณะขององค์กร วตั ถุประสงค์ของการทาเหมืองข้อมูล ความต้องการและมุมมองของการใช้ประโยชน์ในเชิงธุรกิจ ซ่ึงหมายรวมถึง การทาความเข้าใจ ในนิยามของปัญหา เป้าหมาย วัตถุประสงค์ในเชิงธุรกิจ แผนการดาเนินการท่ีจะบรรลุวตั ถุประสงค์ และโดยเฉพาะอย่างยิ่ง แบบแผนในการตัดสินใจเชิงธรุ กิจ และนิยามที่เกี่ยวข้องกับการตดั สินใจ ขององคก์ รธุรกิจนั้น ๆ 2. การคัดเลอื กข้อมูล การคัดเลือกข้อมูล (Data Selection) เป็นการระบุถึงแหล่งข้อมูลที่จะนามาใช้ในการทาเหมืองข้อมูล โดยมีวัตถุประสงค์ของข้ันตอนการคัดเลือกข้อมูล คือ การระบุถึงแหล่งท่ีมาของข้อมูลท่ีมีอยู่ และ การดึงเอาข้อมูลนามาใช้สาหรับการวิเคราะห์เบื้องต้น เพื่อเตรียมการสาหรับการทาเหมืองขอ้ มลู ในขั้นต่อ ๆ ไป เหมอื งข้อมลู เบือ้ งต้น

28 สถาปัตยกรรมและขัน้ ตอนการทาเหมืองข้อมลู สาหรับการกาหนดข้อมูลที่ได้รับการคัดเลือก จากขั้นตอนการคัดเลือก ข้อมูลนี้จะมีความแตกต่างกันไป ตามวัตถุประสงค์ ความต้องการของแต่ละธุรกิจ ที่ได้กาหนดไว้ต้ังแต่ต้นอีกทั้งยังถูกกาหนดโดยลักษณะงานท่ีจะถูกนามาใช้อีกด้วย ตัวแปรข้อมูลที่ถูกเลือกคัดเลือกมาแต่ละตัวน้ัน จะต้องมีการกาหนดนิยาม ความหมาย เพื่อให้สามารถทาความเข้าใจว่าเป็นรูปแบบข้อมลู อะไร ประกอบด้วยข้อมลู อะไรบ้าง ดังนน้ั จึงตอ้ งมีคาอธิบายอย่างชัดเจนเกยี่ วกับชนิดของข้อมูลค่าที่เป็นไปได้ แหล่งที่มาของข้อมูล ชนิดหรือรูปแบบของข้อมูล และลักษณะอื่น ๆ โดยลักษณะของตัวแปรข้อมูล แบ่งได้เป็น 2 ชนิดคือ ตัวแปรข้อมูลเชิงลักษณะ (Categorical Variable) และตัวแปรขอ้ มูลเชิงปรมิ าณ (Quantitative Variable) 1) ตัวแปรข้อมูลเชิงลักษณะ คือ ตัวแปรเชิงลักษณะ (Categorical Variable)ข้อมูลในรูปแบบสาหรับการจาแนกประเภท หรืออาจเรียกได้ว่า เป็นรูปแบบข้อมูลเชิงข้อความ(Nominal Data) ประกอบดว้ ย (1) ตัวแปรข้อมูลแบบนามบัญญัติ (Nominal Variable) ข้อมูลรูปแบบนี้ra.ac.thเป็นลักษณะของข้อมูลท่ีนามาใชใ้ นการการกล่าวอ้างถึงวัตถุ (Object) แบบไมม่ ีลาดับ โดยค่าท่เี ป็นไปได้ (Possible Value) ยกตัวอย่างเช่น ตัวแปรสถานภาพบุคคล ท่ีระบุเป็น โสด แต่งงาน หย่า ไม่ระบุตัวแปรเพศ ท่ีระบุได้เป็น ชาย หรือ หญิง และ ตัวแปรระดับการศึกษา ที่ระบุเป็น ปวช. ปวส.k.chandปริญญาตรี หรือ ปรญิ ญาโท เป็นต้น (2) ตัวแปรข้อมูลแบบเรียงลาดับ (Ordinal Variable) เปน็ ลักษณะรูปแบบข้อมูลท่ีมีการกาหนดลาดับสาหรับค่าท่ีเป็นไปได้ ตัวอย่างเช่น ตัวแปรข้อมูลระดับฐานะของลูกค้า ที่ระบุได้jmเปน็ ดี ปานกลาง หรอื ไม่ดี เป็นต้น 2) ตัวแปรข้อมูลเชิงปริมาณ หรือ ตัวแปรเชิงปริมาณ (Quantitative Variable)หรือ อาจเรียกได้ว่า เป็นรูปแบบข้อมูลเชิงตัวเลข (Numerical Data) ซึ่งมีการวัดความแตกต่างระหว่างคา่ ทเ่ี ป็นไปได้ สามารถจาแนกไดเ้ ปน็ 2 ประเภท คอื (1) ตัวแปรข้อมูลแบบค่าต่อเน่ือง (Continuous Variable) เป็นลักษณะรูปแบบข้อมูลที่มีการกาหนดค่าที่เป็นไปได้แบบต่อเนื่องกัน ตัวอย่างเช่น ตัวแปรข้อมลู รายได้ ตัวแปรค่าเฉลี่ยจานวนครัง้ ทซ่ี ื้อ ตัวแปรมูลคา่ การซอ้ื ขายหลักทรพั ย์ หรอื ตัวแปรขอ้ มูลคา่ ครองชพี เป็นตน้ (2) ตัวแปรข้อมูลแบบค่าจานวนเต็ม (Discrete Variable) เป็นลักษณะรูปแบบข้อมูลท่ีมีการกาหนดค่าที่เป็นไปได้แบบค่าจานวนเต็ม เช่น จานวนบุคลากร เวลาทาการปี (สัปดาห์เดอื น ไตรมาส) เปน็ ตน้เหมอื งข้อมลู เบ้ืองต้น

สถาปัตยกรรมและขนั้ ตอนการทาเหมืองข้อมลู 29 จากลักษณะของตัวแปรข้อมูลที่มีความหลากหลายน้ัน การพิจารณาคัดเลือกตัวแปรข้อมูลทนี่ ามาใช้สาหรับการทาเหมืองข้อมูล นั้นนอกจากจะต้องมีคุณลักษณะที่สาคัญคือ การนามาใช้ในการสร้างความแตกตา่ งของขอ้ มลู เปน็ กลุ่มยอ่ ย ๆ เพ่ือให้สามารถนามาใชใ้ นการคาดการณ์ ทานายผลลพั ธ์ได้ โดยขอ้ มูลที่ถกู คัดเลือกน้ีจะเรียกว่า “Active Variable” แล้วน้ัน ยังจะต้องพิจารณาถึงอายขุ องชุดข้อมูล หมายถึงความเป็นปัจจุบันของชุดข้อมูล อันจะส่งผลต่อประสิทธิภาพของการทาเหมืองข้อมูลโดยหากชุดข้อมูลมีความเป็นปัจจุบัน ทันสมัย ต่อสภาพการณ์ และสถานการณ์ แล้ว ก็จะส่งผลทาให้รูปแบบผลลัพธ์ หรือ โมเดล ที่ค้นพบนั้น สอดคล้องต่อสภาพความเป็นจริง และสามารถนาไปใช้ประโยชน์ไดน้ ั่นเอง 3. การจดั เตรยี มขอ้ มลู การจัดเตรียมข้อมูล (Data Preparation) คือ ข้ันตอนการเตรียมข้อมูลท่ีจะนามาใช้ในการทาเหมืองข้อมูล โดยการแยกข้อมูลท่ีไม่มีค่า ข้อมูลท่ีทาการบันทึกผิด หรือ ข้อมูลที่มีjmk.chandra.ac.thความซ้าซ้อน หรือ ไม่สอดคล้องกันออกไป และทาการรวบรวมข้อมูลที่ต้องการที่มาจากหลาย ๆฐานข้อมูล โดยมีวัตถุประสงค์เพ่ือสร้างความเชื่อมั่นในคุณภาพของข้อมูลที่ถูกเลือกนั้นว่ามีเหมาะสม ซึ่งเป็นขั้นตอนที่สาคัญมากที่สุด และใช้เวลานานท่ีสุด เพราะว่าหากเกิดข้อผิดพลาดอาจทาใหผ้ ลทีไ่ ด้ออกมาคลาดเคลอื่ น หรือผิดจากวัตถุประสงค์ท่ีวางไว้ได้ สาหรับขนั้ ตอนการจัดเตรียมขอ้ มลู น้ี อาจแบ่งออกเป็น 2 ข้นั ตอนย่อยได้แก่ 1) การกลนั่ กรองขอ้ มลู การกล่ันกรองข้อมูล (Data Preprocessing) เป็นข้ันตอน เพื่อการสร้างความมั่นใจว่าคุณภาพของข้อมูลท่ีถูกเลือกน้ันมีความสมบูรณ์ และ เหมาะสมแล้ว “ข้อมูล” ที่สมบูรณ์ถือเป็นสิ่งประกัน และสร้างความเชื่อม่ันว่าการทาเหมืองข้อมูลจะบรรลุ สาเร็จ และสามารถนาผลลัพธ์ท่ีได้ไปใชป้ ระโยชนไ์ ด้ ในขั้นตอนการกลั่นกรองข้อมูลน้ี ถือเป็นขั้นตอนท่ีมีอุปสรรคมากกว่า ขั้นตอนของการเตรียมข้อมูล เหตุเพราะข้อมูลส่วนใหญ่ที่มีในองค์กร มักถูกจัดเก็บไว้เพ่ือการใช้งานเป็นหลัก โดยมิได้ถูกเตรียมมาเพ่ือการวิเคราะห์ข้อมูลในลักษณะของการทาเหมืองข้อมูลโดยตรง ดังนั้นข้อมูลท่ีถูกนามาใช้ จะเป็นการรวบรวมมาจากแหล่งต่าง ๆ ท่ีอาจมีการจัดเก็บได้ไม่สมบูรณ์ โดยเฉพาะอย่างยิ่งข้อมูลท่ีถูกนามาจากภายนอก ท่ีจะมีปัญหาสาคัญคือ เรื่องของคุณภาพของข้อมูล (Data Integrity)ดังนั้นในในขนั้ ตอนน้ี ลาดับแรกจะต้องทาการทบทวนโครงสรา้ งของข้อมูลใหม่ และวดั คุณภาพ โดยวิธีทางสถิติ หรอื การสมุ่ ตวั อยา่ ง ซง่ึ เคร่อื งมือท่ใี ช้ในการทาการกลัน่ กรองข้อมลู มีดังต่อไปน้ี เหมืองข้อมลู เบือ้ งตน้

30 สถาปัตยกรรมและขั้นตอนการทาเหมืองขอ้ มลู (1) เคร่ืองมือทางกราฟิก เพ่ือแสดงให้เห็นค่าความถ่ี และ ลักษณะการกระจายของข้อมูล ซึ่งเครื่องมือน้ีจะเหมาะสาหรับชุดข้อมูลที่มีค่าตัวแปรแบบตัวแปรเชิงลักษณะ(Categorical) การแสดงลักษณะการกระจาย และการแบ่งความถ่ีของข้อมูลนั้น จะเป็นวิธีที่ทาให้เกิดความเข้าใจในความหมายของชุดข้อมูล (Data Content) รวมไปถึงช่วยให้เห็นถึงข้อผิดพลาดเช่น ค่าทห่ี ายไปของข้อมูลอกี ดว้ ย นอกจากนี้ ยังมี เครื่องมือทางกราฟิก แบบอื่น ๆ เช่น Scatter plots เป็นการแสดงกราฟในแบบ 2 มิติ เพื่อแสดงความสัมพันธ์ระหว่างตัวแปร 2 ตัวแปรข้ึนไป หรือมากกว่า หรือ Boxplotที่ถูกนามาใช้ให้เป็นประโยชน์สาหรับเปรียบเทียบศูนย์ กลาง (ค่าเฉลี่ย) หรือกระจาย (ค่าเบี่ยงเบน)ของ ตัวแปรตั้งแต่ 2 ตัวแปรขึ้นไป jmk.chandra.ac.th ภาพท่ี 2-3 ตวั อย่าง Scatter Plots และ Box Plots (ท่ีมา: https://en.wikipedia.org/wiki/Scatter_plot และ https://en.wikipedia.org/wiki/Box_plot) (2) เคร่ืองมือทางสถิติ เป็นการวิเคราะห์ข้อมูลทางสถิติพื้นฐาน ในชุดข้อมูลที่มีลักษณะเป็นตัวแปรเชิงปริมาณ (Quantitative) ซ่ึงตัวแปรประเภทนี้มักมีการใช้การวัดได้แก่ ค่าสูงสุด (Max) ค่าต่าสุด (Min) ค่าเฉลี่ย (Mean) ค่ากลาง หรือ ค่ามัธยฐาน (Median)ค่าฐานนิยม (Mode) และค่าอ่ืน ๆ ทางสถิติ ซึ่งเม่ือนาค่าเหล่าน้ีมาเข้าสูตร สมการคานวณทางคณติ ศาสตร์ กจ็ ะสามารถแสดงถึงคา่ ท่ี ไม่สมบรู ณ์ หรือค่าทม่ี ปี ญั หา ได้เหมืองข้อมลู เบือ้ งต้น

สถาปัตยกรรมและขัน้ ตอนการทาเหมืองข้อมูล 31 ข้อควรระวังในระหว่างในขั้นตอนการกล่ันกรองข้อมูล คือ ข้อมูลรบกวน (Noisy Data)ที่หมายถึง ข้อมูลผิดปกติ เช่น ตัวแปรตัวหน่ึงหรือมากกว่ามีค่าซ่ึงเกินกว่าค่าที่เราคาดไว้ ซ่ึงอาจสง่ ผลได้ทั้งดา้ นบวกและด้านลบ ในด้านบวกคือ อาจเป็นส่วนท่ีแสดงใหเ้ ห็นอย่างชัดเจนถึงโอกาส หรือผลลัพธ์ ความคาดหวัง ที่กาลังค้นหาอยู่ หรือ ในด้านลบ คือ อาจจะเป็นข้อมูลท่ีไม่สมบูรณ์ อันเป็นสาเหตุจากความผิดพลาดของกระบวนการนาเข้าข้อมลู เช่น การบันทึกข้อมลู อายุท่ีผิดพลาด ทาให้มี300 ปี หรือ บันทึกค่าของรายได้เป็นค่าติดลบ ข้อมูลที่มีค่าผิดพลาดเหล่านี้จึงควรจะถูกแก้ไข หรือเอาออก กอ่ นการวเิ คราะห์ ดงั นนั้ จงึ ควรมีขัน้ ตอนการตรวจสอบข้อมูลก่อนนามาใช้ อีกส่วนท่ีควรระวังคือ ค่าท่ีหายไป (Missing Value) หมายถึง ค่าท่ีไม่ได้แสดงในข้อมูลที่ได้คัดเลือกเพ่ือนามาใช้ หรืออาจเรียกได้ว่าเป็นค่าที่ไม่สมบูรณ์ที่ถูกลบออกไป ในระหว่างขั้นตอนการจัดการข้อมูลรบกวน (Noise Detection) หรือ ข้อมูลท่ีหายไป ในระหว่างข้ันตอนการบันทึกข้อมูล ซึ่งเกิดจากความผิดพลาดของผู้บันทึกข้อมูล หรือ อาจเพราะไม่ปรากฏข้อมูลนั้น ตัง้ แต่ขัน้ ตอนการบันทึกข้อมูล จึงทาให้ข้อมูลขาดหายไป ซ่ึงการจัดการกับค่าท่ีหายไปเหล่านี้ สามารถจัดการได้ra.ac.thหลากหลายวิธี ด้วยกัน เช่น เทคนิควิธีการเติมเต็มข้อมูลด้วยค่าเฉล่ีย หรือ การเติมเต็มข้อมูลด้วยjmk.chandเทคนคิ ความน่าจะเปน็ เปน็ ต้น ภาพที่ 2-4 ตวั อยา่ งชดุ ข้อมูลทีม่ คี า่ ทห่ี ายไป (Missing Value) เหมอื งข้อมลู เบื้องต้น

32 สถาปตั ยกรรมและขน้ั ตอนการทาเหมืองข้อมูล 2) การสารวจและตรวจสอบข้อมูล (Data Exploration and Cleaning) เมื่อทาการเก็บข้อมูลเรียบร้อยแล้ว ข้ันตอนต่อไปท่ีควรกระทา คือการตรวจสอบข้อมูลโดยมีวัตถุประสงคส์ าคญั ในการทาการตรวจสอบขอ้ มลู 2 ประการ คอื (1) เพื่อสารวจ ทาความเข้าใจในการนาชุดข้อมูลมาใช้ให้สอดคล้องกับวัตถุประสงค์ของการวิเคราะห์ข้อมูล ดังนั้น ผู้ทาหน้าที่นักวิเคราะห์ข้อมูล จาเป็นต้องมีความคุ้นเคยและเข้าใจถึงคุณลักษณะ ความหมายของข้อมูล รวมถึงวัตถุประสงค์ท่ีแท้จริงของชุดข้อมูลแต่ละแอตตริบิวต์ (Attribute) ท่ีถูกจัดเก็บไว้ และชุดข้อมูลท่ีถูกคัดเลือกมาใช้ในการวิเคราะห์ทาเหมอื งขอ้ มลู (2) เพื่อตรวจสอบความครบถ้วน สมบูรณ์ และ ถูกต้อง ของชุดข้อมูลที่นามาใช้อย่างที่ได้กล่าวถึงในขั้นตอนการคัดเลือกข้อมูล ในการจัดเก็บข้อมูล อาจมีความผิดพลาดเกิดข้ึนได้โดยเฉพาะอย่างย่ิงในขณะที่ ทาการรวบรวมข้อมูล จากหลากหลายแหล่ง ฐานข้อมูล เข้ามาเป็นหน่ึงเดยี วกนั ดังนน้ั ผู้ทาหนา้ ท่ีนกั วเิ คราะห์ขอ้ มลู จะตอ้ งทาการตรวจสอบข้อมูลเหล่าน้ใี ห้ครบถ้วน ถูกต้อง ra.ac.thยกตัวอย่างของปัญหาในการรวบรวมข้อมูล ท่ีต้องการการตรวจสอบ เช่น การรวบรวมข้อมูลปีที่เกษียณอายุงานของบุคลากร ซ่ึงต้องเป็นการดึงข้อมูลจากปีท่ีบุคลากรอายุครบ 60 ปีk.chandแต่กลับไปดึงข้อมูล ปีที่เข้าทางานมาคานวณแทนปีเกิด ทาให้ได้ข้อมูลที่ไม่ถูกต้องมาแทนโดยกรณีน้ีจึงอาจความผิดพลาดจากการสับสนในการตั้งชื่อ หรือการตีความหมายช่ือแอตตริบิวต์(Mislabeling of Field) นนั่ เอง jmดั ง น้ั น ห า ก ไม่ มี ก า ร ต ร ว จ ส อบ ค ว า ม สั ม พั น ธ์ แ ล ะ วั ต ถุ ป ร ะส ง ค์ ท่ีแ ท้ จ ริ ง ข อ งแต่ละแอตตริบิวต์แล้ว ก็อาจเกิดการสับสน และอาจเกิดข้อผิดพลาดในการรวบรวมข้อมูล ซึ่งเม่ือนาขอ้ มูลท่ีไดม้ าใชป้ ระโยชนใ์ นการทาเหมืองข้อมูล กจ็ ะส่งผลทาให้ ผลลพั ธ์ที่ไดผ้ ดิ พลาดดว้ ยนน่ั เอง 3) การจดั รปู แบบข้อมูล การจัดรูปแบบข้อมูล (Data Transformation) เป็นการแปลง หรือ การปรับรูปแบบชุดข้อมูลท่ีได้รับการคัดเลือกมา ให้อยู่ในรูปแบบท่ีเหมาะสม สาหรับการนาไปใช้วิเคราะห์ขอ้ มูลตามอัลกอริทมึ (Algorithm) ที่ใช้ในการทาเหมืองขอ้ มลู ตอ่ ไป เช่น ขอ้ มูลอายุ เป็นข้อมูลตัวเลขจานวนจริง เช่น 16, 25, 37 อาจจะจัดเป็นกลุ่มช่วงอายุ เช่น อายุไม่เกิน 18 ปี อายุระหว่าง19 – 25 ปี หรือ อายุ 25 ปีขึ้นไป ท้ังน้ีเพื่อสะดวกในการใช้งานและเกิดความเข้าใจมากข้ึน หรืออาจเลือกใช้เทคนิควิธีการแปลงกลุ่มประเภทให้เป็นตัวเลข เพ่ือความสะดวก เช่น การใช้รหัสตัวเลขแทนชื่อประเทศ หรือ การกาหนดรหสั อักษรเพอ่ื แทนประเภทของสินค้า เปน็ ตน้เหมอื งข้อมูลเบ้ืองตน้

สถาปตั ยกรรมและขนั้ ตอนการทาเหมอื งข้อมลู 33 ข้ันตอนการจัดรูปแบบข้อมูลน้ี ในตารา หรือ หนังสือ บางเล่ม อาจกล่าวถึง โดยผนวกรวมเข้ากันกับ ข้ันตอนการจัดเตรียมข้อมูล ดังน้ัน อาจกล่าวได้ว่า การเตรียมข้อมูล และการจดั รปู แบบขอ้ มลู น้ี ถือเป็นหัวใจสาคัญของการเตรยี มความพรอ้ มก่อนการทาเหมืองข้อมลู นอกจากน้ี การจัดรูปแบบข้อมูล ยังรวมไปถึง การลดขนาดของข้อมูล (Data Reduction)เป็นการค้นหารูปแบบข้อมูล หรือ แพทเทิร์น (Data Pattern) ของข้อมูลที่มีลักษณะเป็นรูปแบบร่วมกัน ซึ่งจาเป็นต้องใช้ข้อมูลตัวอย่างจานวนมาก โดยหากข้อมูลตัวอย่างมีจานวนน้อยเกินไปอาจส่งผลให้ค้นหาลักษณะร่วมเหล่าน้ันไม่พบ และในทางกลับกันหากข้อมูลมีปริมาณมากเกินไปการค้นหารูปแบบข้อมูลจากกลุ่มข้อมูลขนาดใหญ่ต้องใช้เวลามาก ซึ่งหากลดจานวนข้อมูลลงด้วยสัดส่วนท่ีถูกต้อง จะส่งผลให้ยังคงสามารถค้นหารูปแบบข้อมูลได้เช่นเดิม ในขณะที่ใช้เวลาในการค้นหาสั้นลง อาจกล่าวได้ว่า การลดขนาดข้อมูล คือ การทาให้ข้อมูล ต้ังต้นมีขนาดลดลงโดยสูญเสียลักษณะสาคัญของข้อมูลให้น้อยที่สุด ซึ่งหมายถึง สูญเสียความถูกต้องของรูปแบบผลลัพธ์น้อยท่ีสุดดงั นนั้ การลดขนาดของขอ้ มลู จงึ เป็นขั้นตอนสาคญั อีกขัน้ ตอนของการทาเหมืองข้อมูล ra.ac.th4. การวเิ คราะห์ข้อมูลและสร้างตัวแบบ ก า ร วิ เ ค ร า ะ ห์ ข้ อ มู ล แ ล ะ ส ร้ า ง ตั ว แ บ บ ( Data Analysis and Modeling)k.chandเป็นกระบวนการวิเคราะห์ข้อมูล เพ่ือค้นหารูปแบบ โมเดล หรือความสัมพันธ์ จากนั้นนาผลท่ีได้จากกระบวนการค้นหา (Learning Process / Method) ไปยืนยันกับข้อมูลทดสอบ ถ้าผลท่ีได้ยังไม่เป็นท่ีน่าพอใจ จะวนสู่การปรับปรุงกระบวนการค้นหา โดยอาจเป็นดาเนินการตั้งแต่jmการปรับชุดข้อมูลสาหรับการวิเคราะห์ข้อมูลใหม่ ต้ังแต่กระบวนการคัดเลือกข้อมูล หรือการปรับปรุงกระบวนการค้นหารูปแบบโดยการปรับค่าพารามิเตอร์บางตัว และเริ่มกระบวนการค้นหาใหม่ หรือเลือกใช้เทคนิควิธีการใหม่ จนกว่าผลลัพธ์ที่ได้มีความถูกต้อง อยู่ในระดับที่ยอมรับได้ จึงจะเสร็จส้ินกระบวนการทาเหมอื งข้อมลู และไดร้ ปู แบบ โมเดล เพื่อนาไปใชป้ ระโยชน์ สาหรับการวิเคราะห์ข้อมูล เพื่อสร้างตัวแบบ โมเดลนี้ เป็นการใช้เทคนิควิธีการต่าง ๆในการทาเหมืองข้อมูล ก็เพ่ือวัตถประสงค์ในการทาเหมืองข้อมูล 3 ประเภทสาคัญ ดังท่ีได้กล่าวถึงไว้ในบทก่อนหน้าน้ี ไดแ้ ก่ การวิเคราะหค์ วามสมั พันธ์ การจาแนกประเภทข้อมูล และ การจดั กลุ่มข้อมูลโดยเม่ือพิจารณาลักษณะของการนาเอาข้อมูลมาใช้ในการวิเคราะห์ข้อมูลนั้น สามารถแบ่งประเภทการวิเคราะห์ข้อมูลออกได้เป็น 2 รูปแบบ ไดแ้ ก่ เหมอื งข้อมูลเบอื้ งตน้

34 สถาปตั ยกรรมและข้นั ตอนการทาเหมืองขอ้ มลู 1) รูปแบบการเรยี นรูแ้ บบไม่มผี สู้ อน รูปแบบการเรียนรู้แบบไม่มีผู้สอน (Unsupervised Learning) เป็นรูปแบบการนาเอาข้อมูลมาวิเคราะห์โดยพิจารณาความสัมพันธ์ของชุดข้อมูลน้ัน เพื่อนาเอารูปแบบผลลัพธ์จากการวิเคราะห์ข้อมูลท่ีได้ไปใช้ประโยชน์โดยตรง กับชุดข้อมูลเดียวกัน โดยเทคนิควิธีการวิเคราะห์ข้อมูลที่จัดวา่ เปน็ รปู แบบการเรยี นรแู้ บบไม่มผี สู้ อน คอื การวเิ คราะห์ความสมั พนั ธ์ และ การวิเคราะหจ์ ัดกล่มุ (1) การวิเคราะห์ความสัมพันธ์ (Association Analysis) เป็นเทคนิคหนึ่งของการทาเหมืองข้อมูล ท่ีสาคัญ และ ได้รับความนิยม สามารถนาไปประยุกต์ใช้ได้จริงกับงานต่าง ๆในธุรกิจ โดยหลักการทางานของการวิเคราะห์ความสัมพันธ์ คือ การค้นหาความสัมพันธ์ของข้อมูลจากชุดข้อมูลขนาดใหญ่ เพ่ือนาไปใช้ในการวิเคราะห์ หรือทานายปรากฏการณ์ต่าง ๆ โดยส่วนใหญ่มักถูกประยุกต์ใช้กับชุดข้อมูลซ้ือ-ขายสินค้า เพื่อการวิเคราะห์การซื้อสินค้าของลูกค้า ที่เรียกว่า“การวิเคราะห์ตระกร้าสินค้า (Market Basket Analysis)” ซ่ึงเป็นการวิเคราะห์ประเมินจากข้อมูลจากตารางรายการขายสินค้า ท่ีได้รวบรวมไว้ จากระบบขายสินค้าหน้าร้าน (Point of Sale: POS)ra.ac.thซึ่งผลการวิเคราะห์ที่ได้ จะเป็นการจัดสร้างตัวแบบ อันเป็นคาตอบของปัญหาในลักษณะของรูปแบบความสัมพันธ์ของสินค้าที่ถูกขายออกไป ตัวแบบที่ได้จะอยู่ในลักษณะท่ีเรียกว่า“กฎความสัมพนั ธ์ ( Association Rule )” เพอ่ื หาความสัมพันธ์ของข้อมูล k.chandตัวอย่างการวิเคราะห์ความสัมพันธ์ไปประยุกต์ใช้กับงานจริง ท่ีมักถูกยกเป็นตัวอย่างดังปรากฏอยู่ในหนังสือ ตารา ต่าง ๆ เก่ียวกับเหมืองข้อมูล เช่น ระบบแนะนาหนังสือให้กับลูกค้าแบบอัตโนมัติ ของ Amazon โดยมาจากการวิเคราะห์ข้อมูลการส่ังซ้ือทั้งหมดของ Amazonjmเพื่อหาความสัมพันธ์ของข้อมูลว่า การซื้อหนังสือเล่มใด ๆ ของลูกค้า มักจะซ้ือหนังสือเล่มใดบ้างไปพร้อมกนั ดว้ ยเสมอ เพือ่ ใหไ้ ด้กฎความสมั พันธ์ของสนิ ค้า เช่น buys ( Mr.X , PHP) -> buys (Mr.X , AJAX ) [ 80% , 70% ] แปลความหมายได้ว่า เมื่อซ้ือ Mr.X ซื้อหนังสือ PHP แล้วมีโอกาสท่ีจะซื้อหนังสือ AJAX ด้วยความเช่ือมั่น 70% และพบการซื้อทั้งหนังสือ PHP และหนังสือ AJAX พรอ้ ม ๆ กนั 80 % ซ่ึงผลของการวิเคราะห์ความสัมพันธ์ ในรูปแบบกฎความสัมพันธ์นี้ สามารนาไปประยุกต์ใช้ในการคาดการณว์ ่าควรแนะนาหนังสือเล่มใดเพิ่มเติม และพัฒนาเป็นระบบแนะนาหนงั สอื ให้กับลูกค้าทเ่ี พิง่ ซ้อื หนังสือจากรา้ น โดยอัตโนมัตนิ ่ันเองเหมอื งข้อมลู เบ้ืองต้น

สถาปัตยกรรมและข้นั ตอนการทาเหมอื งข้อมูล 35 (2) การวิเคราะห์จัดกลุ่มข้อมูล (Cluster Analysis) หมายถึง การแบ่งกลุ่มท่ีต้องใช้ข้อมูลของทุกกลุ่ม โดยการหาจุดเด่นของแต่ละกลุ่ม ออกมาให้เห็นอย่างชัดเจน เพื่อได้มาซึ่งลักษณะเฉพาะของกลุ่มนั้นๆ ถือเป็นวิธีเป็นการวิเคราะห์ ในลักษณะของการพิจารณาความใกล้เคียง และแตกต่างกนั ของชดุ ข้อมูล เพ่ือทาการจดั กลมุ่ ชุดข้อมูลท่ีมีความคลา้ ยคลึง ใกลเ้ คยี งกันเปน็ กลุ่มเดียวกัน และจัดให้ชดุ ข้อมลู ทมี่ ีความแตกตา่ งกนั เปน็ คนละกลุ่มกัน jmk.chandra.ac.thภาพท่ี 2-5 ลักษณะการวิเคราะหจ์ ดั กลมุ่ (Cluster Analysis) ตัวอย่างของการประยุกต์ใช้งานผลจากการวิเคราะห์จัดกลุ่มข้อมูล เช่น การวิเคราะห์จัดกลุ่มลูกค้าของห้างสรรพสินค้าซูเปอร์สโตร์ จากข้อมูลพฤติกรรมการซื้อสินค้า ที่ถูกจัดเก็บไว้ในระบบการขายสินค้าผนวกรวมกับระบบข้อมูลสมาชิก เพื่อค้นหารูปแบบลักษณะ ของกลุ่มลูกค้าทีใ่ กล้เคียงกนั นามาจัดเป็นกลุ่ม ๆ เพ่ือกาหนดเปน็ รายการสง่ เสรมิ การขายทเ่ี หมาะสมกับกลุ่มลูกค้าสง่ ตรงไปยงั ลกู ค้าแตล่ ะกล่มุ เป็นตน้ 2) รปู แบบการเรยี นรู้แบบมีผู้สอน รูปแบบการเรียนรู้แบบมีผู้สอน (Supervised Learning) เป็นรูปแบบการรวบรวมนาเอาชุดข้อมูลในอดีต นามาวิเคราะห์โดยพิจารณาความสัมพันธ์ หรือรูปแบบเฉพาะของชุดข้อมูลน้ัน ๆ เพ่ือนาเอารูปแบบผลลัพธ์จากการวิเคราะห์ข้อมูลท่ีได้ไปใช้ในการคาดการณ์ หรือ ทานายสิ่งที่คาดว่าจะเกิดขึ้นในอนาคต อาจกล่าวได้ว่า เป็นการวิเคราะห์ข้อมูลจากอดีต เป็นส่ิงนาเหมือนการสั่งสอน ใหป้ รากฏเป็นรูปแบบ และนารูปแบบ โมเดล ท่ีได้ ไปใชก้ ับข้อมูลชุดใหม่ ดังนั้นจึงเรยี กว่าเป็นการเรียนรู้แบบมีผู้สอนน่ันเอง โดยเทคนิควิธีการวิเคราะห์ข้อมูลลักษณะน้ี คือ การวิเคราะห์จาแนกประเภทข้อมูล เหมอื งขอ้ มลู เบ้ืองตน้

36 สถาปตั ยกรรมและข้ันตอนการทาเหมืองข้อมลู (1) ก า ร วิ เ ค ร า ะ ห์ จ า แ น ก ป ร ะ เ ภ ท ข้ อ มู ล ( Classification Analysis)เป็นการวิเคราะห์เพื่อค้นหารูปแบบในการจัดการข้อมูลให้จาแนกตามกลุ่มท่ีถูกกาหนดข้ึนโดยการสร้างตัวแบบเพื่อช่วยสนับสนุนการตัดสินใจจาแนกกลุ่มข้อมูลจากชุดข้อมูลในอดีตที่มีอยู่เพ่ือนาไปใช้ในการคาดการณ์ หรือ ทานายแนวโน้มการเกิดข้ึนของข้อมูลชุดใหม่ โดยตัวแบบท่ีได้จากการวิเคราะห์ข้อมูล อาจอยู่ในรูปแบบของ กฎการจาแนกประเภท (Classification Rules) หรือตน้ ไม้ตดั สนิ ใจ (Decision Tree) เปน็ ต้น k.chandra.ac.thภาพที่ 2-6 ลักษณะการวิเคราะห์จาแนกประเภท (Classification Analysis) jmตวั อย่างของการวิเคราะห์จาแนกประเภทข้อมูล เพ่อื ไปประยุกต์ใช้งานจริง เช่น การวิเคราะห์ข้อมูล คุณสมบัติของลูกค้าธนาคาร เพ่ือค้นหารูปแบบของคุณลักษณะของลูกค้าที่ได้รับการอนุมัติสินเช่ือส่วนบุคคล และ ผู้ท่ีไม่ได้รับการอนุมัติ ในลักษณะของต้นไม้ตัดสินใจ แล้วนาเอารูปแบบที่ได้มาประยกุ ตใ์ ช้ในการกลน่ั กรอง เพื่อพิจารณาอนมุ ัติสินเช่อื เบือ้ งต้น น่ันเอง 5. การแปลผล และ ประเมินผล การแปลผล และ ประเมินผล (Interpretation and Evaluation) เป็นการแปลความหมายและการประเมนิ ผลลัพธ์ที่ได้ว่ามคี วามเหมาะสม หรอื ตรงกับวตั ถุประสงค์ท่ตี ้องการหรือไม่โดยทว่ั ไปควรมีการแสดงผลในรปู แบบทสี่ ามารถเขา้ ใจได้โดยงา่ ย (Usama, 1996) สาหรับการประเมินผล ทาได้โดยการวดั ประสทิ ธภิ าพของเทคนิคการทาเหมืองขอ้ มูลทใ่ี ช้ ซงึ่ โดยทว่ั ไปแลว้ ตวั วัดประสทิ ธภิ าพที่ได้รบั ความนิยม ได้แก่ Precision เปน็ การวดั ความแมน่ ยาของตวั แบบ Recall เปน็ การวัดความถกู ต้องของตวั แบบ F-measure เป็นการวัดค่า Precision และRecall รว่ มกนั และ Accuracy เปน็ การวัดความถูกต้องของตัวแบบในภาพรวม เปน็ ตน้เหมอื งข้อมูลเบื้องตน้

สถาปัตยกรรมและข้นั ตอนการทาเหมอื งข้อมูล 37 6. การนาตัวแบบไปประยกุ ต์ใช้ การนาตัวแบบไปประยุกต์ใช้ (Deployment) เป็นการนาเอาตัวแบบ หรือรูปแบบผลลัพธ์ท่ีได้ โดยผ่านการแปลผล และประเมินผล จนเป็นท่ีน่าพึงพอใจแล้ว นาไปประยุกต์ใช้งานจริงโดยอาจอยู่ในลักษณะของการนาเอาตัวแบบที่ได้ ไปพัฒนาเป็นโปรแกรมประยุกต์เพื่อใช้ในการคาดการณ์ ทานาย ตามวัตถปุ ระสงค์ของการทาเหมืองข้อมลู ต่อไปน่ันเอง jmk.chandra.ac.th เหมอื งข้อมลู เบือ้ งตน้

38 สถาปัตยกรรมและข้นั ตอนการทาเหมืองขอ้ มลูบทสรปุ ในการทาเหมืองข้อมูลนั้น เป็นการใช้งานองค์ประกอบของเทคโนโลยีสารสนเทศในการค้นหาความรู้ท่ีแอบแฝงในข้อมูลที่ถูกจัดเก็บเอาไว้ อันได้แก่ เทคโนโลยีคอมพิวเตอร์ผนวกรวมเข้ากับข้อมูล สารสนเทศ และอาจรวมไปถึงเทคโนโลยีเครือข่ายที่มีประสิทธิภาพในการเข้าถึงข้อมูลท่ีเกี่ยวข้อง อันประกอบกันเป็นสถาปัตยกรรมเหมืองข้อมูล เพ่ือนามาเข้าสู่กระบวนการ ข้นั ตอนในการทาเหมอื งขอ้ มูล เพ่อื ใหไ้ ด้ผลลัพธ์ในการนาไปใชป้ ระโยชนต์ ่อไป สถาปัตยกรรมเหมืองข้อมูลนั้น จาแนกออกได้เป็น 6 องค์ประกอบ ได้แก่ 1) แหล่งข้อมูล2) ส่วนจัดการข้อมูล 3) ส่วนฐานความรู้ 4) กลไกเหมืองข้อมูล 5) ส่วนประเมินรูปแบบผลลัพธ์ และ6) ส่วนประสานกับผู้ใช้งาน แต่ละองค์ประกอบจะต้องทางานสัมพันธ์กัน เพ่ือให้เกิดกระบวนการทางาน เปน็ สถาปตั ยกรรมเหมืองข้อมลู ที่สมบรู ณ์ตอ่ ไป ข้ันตอนการทาเหมืองข้อมูลสามารถแบ่งออกได้เป็น 6 ขั้นตอนได้แก่ 1) การทาความเข้าใจกับra.ac.thองคก์ รธุรกจิ 2) การคัดเลือกข้อมูล 3) การจดั เตรียมข้อมลู 5) การจัดสร้างตัวแบบ 6) การแปลผลและประเมินผล และ 7) การนาตัวแบบไปประยุกตใ์ ช้k.chandเอกสารอ้างองิjmกฤษณะ ไวยมัย และ ธีระวัฒน์ พงษ์ศิริปรีดา. “การใช้เทคนิค Association Rule Discovery เพ่ือ การจัดสรรกฎหมายในการพิจารณาคดีความ.” NECTEC Technical Journal. ปีที่ 3 ฉบบั ท่ี 11, (2544) : 143 - 52.ชนวัฒน์ ศรีสอ้าน. ฐานข้อมูล คลังข้อมูล และเหมืองข้อมูล. ปทุมธานี: สานักพิมพ์ มหาวิทยาลัย รงั สิต, 2550.ชดิ ชนก ส่งศิริ, ธนาวินท์ รกั ธรรมานนท์ และ กฤษณะ ไวยมยั . “การใชเ้ ทคนคิ ดาต้าไมน์นิงเพือ่ พฒั นา คุณภาพการศึกษาคณะวิศวกรรมศาสตร์.” NECTEC Technical Journal. ปีที่ 11 ฉบับที่ 3, 2545 : 134-42.ธรรมศักด์ิ เธียรนิเวศน์. “การลดขนาดข้อมูลด้วยน้าหนักความหนาแน่นเพื่อการจัดกลุ่มข้อมูล ขนาดใหญ่”. วิทยานิพนธ์สาขาวิชาวิศวกรรมคอมพิวเตอร์ มหาวิทยาลัยเทคโนโลยีสุรนารี ปกี ารศกึ ษา 2548.เหมืองขอ้ มูลเบอื้ งตน้

สถาปตั ยกรรมและขน้ั ตอนการทาเหมืองข้อมูล 39อ ดุ ล ย์ ย้ิ ม ง า ม . ก า ร ท า เ ห มื อ ง ข้ อ มู ล Data Mining[อ อ น ไ ล น์ ]. เ ข้ า ถึ ง ไ ด้ จ า ก : http://compcenter.bu.ac.th/index.php?option=com_content&task=view&id=7 5&Itemid=172. (วันที่คน้ ขอ้ มลู : 17 มิถุนายน 2554) . บ ท ท่ี 5 ก า ร ท า เ ห มื อ ง ข้ อ มู ล (Data Mining). เ ข้ า ถึ ง ไ ด้ จ า ก : http://www.no-poor.com/dssandos/Chapter5 - dss.htm. ( วั น ท่ี ค้ น ข้ อ มู ล : 20 มถิ ุนายน 2556)Bing, L., Wynne, H. and Yiming, M. “Mining Association Rules with Multiple Minimum Supports.” Proceeding of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Diego, 1999.David, L. Handbook of Genetic Algorithms. New York: Van Nostrand Reinhold., 1991.Linoff, G. and Berry, M. Data Mining Techniques. John Wiley & Sons. , 1997.ra.ac.thMahapatra, I. and Bose, R. K. “Business Data Mining - a Machine Learning Perspective.” Information and Management. 39, 2001 : 211-25.Morris, B. Case-based reasoning. West Virginia University. Al/ES, 1995;k.chandShearer C. The CRISP-DM model: the new blueprint for data mining. J Data jmWarehousing (2000); 5:13—22.คาถามทบทวน1. องค์ประกอบของ สถาปัตยกรรมเหมืองขอ้ มลู แบง่ ออกเปน็ กีส่ ่วน อะไรบ้าง2. ขนั้ ตอนการทาเหมอื งขอ้ มลู แบง่ ออกเป็นกีส่ ่วน อะไรบ้าง3. ขนั้ ตอนใดของเหมืองขอ้ มลู ทจี่ ัดเปน็ ขัน้ ตอนแรก4. ข้นั ตอนการประเมนิ ผลการทาเหมอื งขอ้ มูล มวี ตั ถปุ ระสงคเ์ พ่ืออะไร5. ยกตัวอยา่ งข้อมูลทค่ี วรจดั เตรยี มสาหรับการทาเหมืองข้อมูลเพ่ือวเิ คราะห์ความสมั พนั ธ์ของสนิ ค้า เหมอื งขอ้ มลู เบ้ืองตน้

40 สถาปตั ยกรรมและขัน้ ตอนการทาเหมืองข้อมลู jmk.chandra.ac.thเหมืองขอ้ มลู เบอ้ื งตน้

3 ขอ้ มูลและการจดั เตรยี มขอ้ มูล ra.ac.thข้อมูล เป็นจุดเริ่มต้น และเป็นปัจจัยสำคัญ ในกำรทำเหมืองข้อมูล ซ่ึงถือได้ว่ำกำรค้นหำk.chandควำมรู้ท่ีซ่อนอยู่ โดยใช้ประโยชน์จำกข้อมูลน้ัน เป็นท่ีมำของกำรค้นพบควำมรู้ที่แฝงอยู่ข้อมูล ในควำมหมำยของเหมืองข้อมูลมีลักษณะเป็นอย่ำงไร และ ข้อมูลประเภทไหนท่ีจะมีควำมเหมำะสม ท่ีจะนำมำใช้ในกำรทำเหมืองข้อมูล รวมถึง ในกำรทำเหมืองข้อมูลนั้น ควรจัดเตรียมข้อมูลjmอยำ่ งไร เพ่ือให้สำมำรถทำกำรวิเครำะห์ขอ้ มูลดว้ ยเทคนคิ ต่ำง ๆ ได้ จงึ เปน็ ส่ิงทีค่ วรทำควำมเข้ำใจ ดังน้ันเน้ือหำในบทนี้จะเป็นกำรอธิบำยเพ่ือให้ผู้อ่ำนได้ทำควำมเข้ำใจถึง ควำมหมำยและแหล่งที่มำของข้อมูล ชนิดของข้อมูลสำหรับเหมืองข้อมูล ประเภทและลักษณะของข้อมูลท่ีเหมำะสมสำหรับกำรทำเหมืองข้อมูล รวมไปถึงข้ันตอนและวิธีกำรจัดเตรียมข้อมูล สำหรับกำรทำเหมืองข้อมูลโดยแบ่งเนอื้ หำภำยในบทเปน็ หวั ขอ้ ดงั น้ี 1. ควำมหมำยและแหลง่ ท่ีมำของขอ้ มูล 2. ชนดิ ของข้อมลู สำหรบั เหมืองขอ้ มูล 3. ประเภทของข้อมลู สำหรับกำรทำเหมอื งข้อมลู 4. ลักษณะของข้อมูลทเี่ หมำะสำหรับกำรทำเหมืองข้อมลู 5. ขนั้ ตอนและวธิ ีกำรจดั เตรียมข้อมลู เหมืองข้อมลู เบ้ืองต้น

42 ข้อมลู และกำรจดั เตรียมข้อมลูความหมายและแหล่งทม่ี าของข้อมลู ข้อมูล เป็นปัจจัยเร่ิมต้น ท่ีนำมำสู่ กำรจัดเก็บ จัดกำร และกำรใช้ประโยชน์ ซึ่งหมำยรวมไปถึงกำรทำเหมืองข้อมูล อันเป็นส่วนหน่ึงของกำรต่อยอดใช้ประโยชน์ข้อมูลที่ถูกจัดเก็บอยู่ให้เกดิ ประโยชนส์ งู สุด1. ความหมายของข้อมูลข้อมูล ตำมควำมหมำยโดย รำชบัณฑิตยสถำน หมำยถึง ข้อเท็จจริง หรือส่ิงที่ถือหรือยอมรับวำ่ เป็นขอ้ เทจ็ จรงิ สำหรับใชเ้ ปน็ หลักอนุมำนหำควำมจรงิ หรอื กำรคำนวณเม่ือกล่ำวถึง ข้อมูล น้ัน อำจจำแนกได้เป็น 3 ส่วนคือ ข้อมูล (Data) สำรสนเทศ(Information) และองค์ควำมรู้ (Knowledge) ซึ่งแต่ละส่วนน้ันมีควำมเกี่ยวข้อง สัมพันธ์กันดังแสดงในภำพท่ี 1-2 jmk.chandra.ac.thProcessสารสนเทศChoosingองคค์ วามรู้ (Information) Process (Knowledge) ขอ้ มลู (Data) •ขอ้ เท็จจรงิ ทผ่ี า่ น •สารสนเทศทผี่ า่ น •ขอ้ เท็จจรงิ การประมวลผล กระบวนการคดั สรร (อกั ษร,ตวั เลข, เพอื่ นามาใช้ เพอื่ ใชใ้ นการ ภาพ ฯลฯ) ประโยชนต์ าม แกป้ ญั หาตา่ งๆ วตั ถปุ ระสงค์ภาพที่ 1-2 ควำมสัมพนั ธ์ระหว่ำง ขอ้ มลู สำรสนเทศ และ องค์ควำมรู้ ข้อมูล (Data) คือ ข้อเท็จจริงเกยี่ วกับส่ิงต่ำง ๆ เช่น คน สัตว์ สิ่งของหรือเหตกุ ำรณ์ กจิ กรรมหรือ รำยกำรธุรกรรมท่ีถูกเก็บบันทึกไว้ ซึ่งอำจอยู่ในรูปของตัวเลขตัวอักษร หรือข้อควำม รวมถึงภำพและเสียง ที่ยังไม่ผ่ำนกำรประมวลผล (EFraim Turban and Jay E. Arunson, 2008)โดยต้องมีคุณลักษณะ คือ ถูกต้อง ครบถ้วน สมบูรณ์ น่ำเช่ือถือ และที่สำคัญอย่ำงยิ่งคือสำมำรถนำไปใชป้ ระโยชนไ์ ด้ สำรสนเทศ (Information) คือ ผลลัพธ์ที่ได้จำกกำรนำข้อมูลไปผ่ำนกำรประมวลผล หรือกำรจัดกำรให้มีควำมถูกต้องทันสมัย และ อยู่ในรูปแบบที่ผู้ใช้ สำมำรถนำไปใช้งำนได้ตำมที่ต้องกำรได้ เช่นสรุปยอดขำยของร้ำนสำขำเปรียบเทียบแต่ละไตรมำสของปี ที่ต้องประมวลผลจำกยอดขำยของร้ำนสำขำตำ่ ง ๆ ในแต่ละไตรมำสเป็นตน้เหมืองขอ้ มูลเบื้องตน้

Pages:

Jamornkul Laokietkul

IntroductiontoDataMining (Edition 2015)

Like this book? You can publish your book online for free in a few minutes!

Create your own flipbook

TOP SEARCH

business design fashion music health life sports home marketing children

IntroductiontoDataMining (Edition 2015)

Description: IntroductiontoDataMining

Keywords: Data mining

Read the Text Version

Jamornkul Laokietkul

TOP SEARCH

RELATED PUBLICATIONS