Important Announcement
PubHTML5 Scheduled Server Maintenance on (GMT) Sunday, June 26th, 2:00 am - 8:00 am.
PubHTML5 site will be inoperative during the times indicated!

Home Explore IntroductiontoDataMining (Edition 2015)

IntroductiontoDataMining (Edition 2015)

Published by Jamornkul Laokietkul, 2016-02-25 07:39:05

Description: IntroductiontoDataMining

Keywords: Data mining

Search

Read the Text Version

การทาเหมอื งขอ้ มลู ด้วย WEKA 93 ภำพท่ี 5-6 แสดงการนาเขา้ ข้อมูลโดยแฟ้มข้อมลู jmk.chandra.ac.th2) นาเข้าจากแฟ้มข้อมูลบนเครอื ข่าย สามารถนาเขา้ ไดโ้ ดยเลอื กปุม่ Open URL… ภำพที่ 5-7 แสดงการนาเข้าขอ้ มูลจากแฟ้มข้อมูลบนเครือข่าย 3) นาเข้าจากข้อมูลบนฐานข้อมูล เช่ือมต่อผ่าน JDBC โดยเลือกปุ่ม Open DB…ซ่ึงจะต้องระบุ Database URL รวมถึง Username และ Password ในการเข้าถึง จากน้ันจะต้องเขียนคาสั่ง SQL ในการเลอื กข้อมลู ท่ีต้องการ เหมืองขอ้ มลู เบื้องต้น

94 การทาเหมอื งข้อมลู ด้วย WEKA ra.ac.thภำพท่ี 5-8 แสดงการนาเข้าข้อมลู จากฐานข้อมลู เชื่อมต่อผ่าน JDBC k.chand4) การสร้างชุดข้อมูลข้ึนเอง โดยเลือกปมุ่ Generate… เป็นวิธีการที่เหมาะสาหรับการสร้างชุดข้อมูลข้ึนมาเพ่ือการทดสอบเท่าน้ัน โดยจะjmปรากฏหน้าจอ DataGenerator ซ่ึงจะต้องกาหนดจุดมุ่งหมายในการสร้างชุดข้อมูลเพ่ือจาแนกกลุ่มข้อมูลโดยวิธีใดก่อน จากน้ันเมื่อกดปุ่ม Generate โปรแกรมจะสร้างตัวแปร a1 – an ตามลักษณะวิธีการที่ต้องการวิเคราะห์ข้อมูล และสร้างชุดข้อมูลสุ่มขึ้นมาโดยอัตโนมัติ โดยสามารถทาการแก้ไขข้อมูลตามความต้องการอกี ครั้ง ภำพที่ 5-9 แสดงการสร้างชุดขอ้ มลู เพ่ือนามาใช้งานเหมืองข้อมูลเบอ้ื งต้น

การทาเหมอื งขอ้ มูลดว้ ย WEKA 95 3. กำรนำเขำ้ ขอ้ มลู ไฟล์ arff เข้ำสสู่ ว่ นกำรจดั เตรยี มขอ้ มลู ไฟล์สกุล arff : Attribute Relation File Format เป็นแฟ้มข้อมูลที่มีรูปแบบรหัสการเก็บข้อมูลแบบ ASCII โดยกาหนดรูปแบบการจัดเก็บข้อมูล จะต้องขึ้นต้นด้วย @ตามด้วยชื่อตัวแปรที่จะระบุคุณลักษณะตา่ งๆ ก่อนจะเป็นข้อมูล ra.ac.thภำพท่ี 5-10 แสดงรูปแบบการจัดเก็บข้อมลู ในไฟล์ arff ใน WEKA มีแฟ้มข้อมูลตัวอย่างที่ติดตั้งมาพร้อมกับโปรแกรมจัดเก็บอยู่ใน Folder data ในk.chandที่นขี้ อยกตัวอยา่ งแฟ้มขอ้ มูล weather.arff ซ่งึ มีชดุ ขอ้ มลู ดังน้ีjmบรรทดั ท่ี 1 ระบุชอ่ื ขอ้ มลู /ชอ่ื ตาราง บรรทดั ท่ี 3-7 ระบลุ กั ษณะของขอ้ มลู และชนิดขอ้ มลู บรรทดั ท่ี 9 ระบตุ าแหน่งเรม่ิ ตน้ ขอ้ มลู บรรทดั ท่ี 10 ชดุ ขอ้ มลู (เรยี งตามลกั ษณะขอ้ มลู ทก่ี าหนด ใน บรรทดั ท่ี 3-7) ภำพที่ 5-11 ชุดข้อมูลไฟล์ weather.arff เหมืองขอ้ มลู เบื้องตน้

96 การทาเหมอื งข้อมูลดว้ ย WEKA เม่ือเปิดแฟ้มข้อมูลโดยกดปุ่ม Open file… เลือก ไฟล์ weather.arff เข้าสู่โปรแกรมแล้วจะปรากฏหนา้ จอ การทางานในส่วนต่างๆ ของ Preprocess ซึ่งสามารถแปรผลได้ดงั นี้ jmk.chandra.ac.thภำพท่ี 5-12 แสดงการนาเข้าข้อมลู weather.arff เข้าสู่การ preprocess ส่วนการทางานของ Current relation จะปรากฏข้อมูลว่าเป็นข้อมูล weather ซึ่งประกอบไปด้วยชุดข้อมูล 14 ชุด และมีคุณลักษณะ 5 คุณลักษณะ อันได้แก่ outlook, temperature,humidity, windy แ ล ะ play ข ณ ะ เ ดี ย ว กั น ส่ ว น แ ส ด ง ข้ อ มู ล คุ ณ ลั ก ษ ณ ะ ท่ี ถู ก เ ลื อ ก(Selected attribute) จะแสดงข้อมูลสรุปของคุณลักษณะน้ันๆ ดังในภาพจะแสดงคุณลักษณะของoutlook ซ่ึงถูกกาหนดลักษณะของข้อมูลเป็นนามบัญญัติ (sunny, overcast, rainy) ดังน้ันข้อมูลสรุปจะเป็นการนับความถ่ีของข้อมูล แต่หากเป็นข้อมูลตัวเลข จะแสดงเป็นค่าสูงสุด ต่าสุด ค่าเฉล่ียและส่วนเบีย่ งเบนมาตรฐาน เชน่ ข้อมูล temperatureเหมอื งข้อมูลเบื้องต้น

การทาเหมอื งข้อมูลดว้ ย WEKA 97 ภำพท่ี 5-13 ภาพส่วนแสดงลักษณะของข้อมลู ที่ถกู เลือก (ข้อมูล temperature) ส่วนแสดงผลเป็นกราฟ จะแสดงลักษณะการกระจายของชุดข้อมูลท่ีคาดว่าจะใช้เป็นผลลัพธ์ra.ac.thในการจาแนกกลุ่ม ในภาพคือ play โดยสามารถสั่งให้แสดงผลการกระจายของข้อมูลจากคณุ ลักษณะjmk.chandท้งั หมดไดโ้ ดยกดป่มุ Visualize All ภำพท่ี 5-14 แสดงกราฟการกระจายของขอ้ มูลทัง้ หมด เหมอื งข้อมูลเบื้องต้น

98 การทาเหมืองขอ้ มลู ดว้ ย WEKA 4. กำรนำเข้ำข้อมลู ไฟล์ csv เขำ้ สู่สว่ นกำรจัดเตรียมข้อมูล ไฟล์สกุล csv: Comma-Separated Value Variable) เป็นไฟล์สาหรับเก็บข้อมูลแบบตาราง โดยใช้จุลภาค (เครื่องหมาย , ) แบ่งข้อมูลในแต่ละคอลัมน์ (แนวตั้ง) และใช้แถวหรือบรรทัด(แนวนอน) แทนชดุ ข้อมลู การสร้างไฟล์ csv สามารถสร้างได้โดยใช้โปรแกรม Text Editor ทั่วไป เช่น Notepad สร้างไฟล์ขอ้ มูล โดยกาหนดให้แถวแรกเป็นชอื่ คุณลักษณะข้อมูล แถวต่อๆ ไป เป็นชุดข้อมูล เช่น การสร้างไฟลข์ ้อมูลคะแนนนกั เรียนในช้นั เรียนแล้วบันทกึ เปน็ sample.csv ดงั ตวั อย่างในภาพ บรรทดั ท่ี 1 ระบุลกั ษณะของขอ้ มลู และชนิดขอ้ มลู บรรทดั ท่ี 2-11 ชดุ ขอ้ มลู (เรยี งตามลกั ษณะขอ้ มลู ทก่ี าหนด ใน บรรทดั ท่ี 1) ra.ac.thภำพที่ 5-15 แสดงข้อมูลไฟล์ sample.csv jmk.chandไฟล์ csv ยงั สามารถสร้างได้โดยใชโ้ ปรแกรม Microsoft Excel สรา้ งไฟล์ได้เช่นเดียวกนั ภำพท่ี 5-16 แสดงตวั อย่างการใช้ Microsoft Excel สรา้ งข้อมลู ไฟล์ sample.csvเหมอื งขอ้ มลู เบอื้ งตน้

การทาเหมืองข้อมลู ด้วย WEKA 99 เม่ือเปิดแฟ้มข้อมูลโดยกดปุ่ม Open file… เลือก ไฟล์ sample.csv เข้าสู่โปรแกรมแล้วจะปรากฏหน้าจอ การทางานในสว่ นต่างๆ ของ Preprocess เช่นเดียวกนั กับไฟลข์ อ้ มลู อ่ืนๆ jmk.chandra.ac.thภำพที่ 5-17 แสดงการนาเข้าข้อมูล sample.csv เข้าสกู่ าร preprocessกำรวิเครำะหส์ ถติ ิเบอ้ื งตน้ ด้วย WEKA WEKA สามารถวิเคราะห์ข้อมูลในเชิงสถิติเบื้องต้นได้ โดยแสดงข้อมูลสรุปไว้ในส่วนการทางาน Preprocess ท้ังขอ้ มลู ความถีส่ าหรบั ขอ้ มลู นามบัญญัติ (Nominal Scale) และ ข้อมูลคา่ สูงสดุคา่ ตา่ สุด คา่ เฉล่ยี สว่ นเบี่ยงเบนมาตรฐาน สาหรบั ขอ้ มูลตัวเลข นอกจากนี้ยงั มีส่วนแสดงใหเ้ หน็ ถึงการกระจายของข้อมลู ในรปู กราฟ การวิเคราะห์สถิติใน WEKA นั้นแบ่งออกได้เป็น 2 ส่ว นคือ สถิติตัวแปรเดียว(Univariate Statistic) และ สถิตหิ ลายตัวแปร (Multivariate Statistic) เหมืองขอ้ มูลเบื้องต้น

100 การทาเหมอื งข้อมลู ดว้ ย WEKA 1. สถติ ติ วั แปรเดียว สถิติตัวแปรเดียว (Univariate statistic) เป็นสถิติท่ีใช้ข้อมูลคุณลักษณะในการวิเคราะห์ค่าสถิติ ผลที่ได้จากการวิเคราะห์ในลักษณะน้ีจะแสดงอยู่ในส่วนแสดงข้อมูลคุณลักษณะท่ีถูกเลือก(Selected attribute) อันได้แก่ - ชอื่ ของคณุ ลกั ษณะ (Name) - ชนดิ ของข้อมลู (Type: Nominal / Numeric) - ร้อยละของจานวนขอ้ มูลที่ขาดหายไปเทยี บกับข้อมลู ทงั้ หมด (Missing) - ค่าที่แตกตา่ งกันทั้งหมดในคณุ ลกั ษณะ (Distinct) - ร้อยละของที่มเี พยี งค่าเดยี วจากข้อมูลทัง้ หมด (Unique) jmk.chandra.ac.thภำพที่ 5-18 แสดงสถิตติ ัวแปรเดยี ว การแสดงผลข้อมูลในรูปกราฟในสถิติตัวแปรเดียวนั้น จะแสดงผลเป็นลักษณะกราฟแท่ง ซึ่งอาจเรยี กดูทลี ะคุณลักษณะ หรือดพู รอ้ มกนั ทกุ คณุ ลกั ษณะโดย Visualize All ภำพที่ 5-19 แสดงกราฟของสถิตติ ัวแปรเดียวเหมืองขอ้ มลู เบือ้ งต้น

การทาเหมอื งข้อมลู ด้วย WEKA 101 2. สถติ หิ ลำยตัวแปร สถิติหลายตัวแปร (Multivariate statistic) เป็นสถิติที่ใช้ข้อมูลคุณลักษณะในการวิเคราะห์ค่าสถิติข้ันสูง อันได้แก่ การวิเคราะห์ค่าถดถอยด้วยสมการถดถอยและสหสัมพันธ์ (LinearRegression) โดย WEKA สามารถวิเคราะห์สมการถดถอยได้โดยใช้ส่วนการทาเหมืองข้อมูลแบบจาแนกประเภท (Classify) ในการวิเคราะห์ขอ้ มูล ซ่ึงแบ่งออกเป็น 2 กรณี คอื กรณที ข่ี อ้ มูลท่ตี อ้ งการวเิ คราะห์เปน็ ข้อมูลตวั เลข หรือจานวนจริง (Numeric) เรมิ่ จาก - นาเข้าขอ้ มูลในส่วน Preprocess - เลือกส่วนการทางาน Classify เพอ่ื วิเคราะห์ขอ้ มลู - กดปุ่ม Choose เพ่ือเลือกฟังก์ชนั การ ทางาน โดยเลอื ก Linear Regressionra.ac.th- กาหนด Test Option ให้เป็ น Use Training Set - เลือกข้อมูลเฉพาะคุณลักษณะท่ีเป็ น k.chandตวั เลข (Num) - กดป่มุ Start เพ่อื เรม่ิ วเิ คราะหข์ อ้ มลู - ผล ลัพ ธ์จะแส ด ง ในส่ว น Classifier jmOutput ภำพท่ี 5-20 แสดงสว่ นการทางาน Classify กรณที ่ขี ้อมลู ทต่ี อ้ งการวิเคราะห์เป็นข้อมูลนามบัญญัติ (Nominal) - เลอื กขอ้ มูลเฉพาะคณุ ลกั ษณะทเ่ี ป็นนามบัญญัติ (Nom) - ในโมดลู Classifier กดปมุ่ Choose เพ่ือเลือกฟังก์ชนั การทางาน โดยเลอื ก Logistic Regression - กาหนด Test Option ให้เปน็ Use Training Set - กดป่มุ Start เพือ่ เรม่ิ วิเคราะห์ข้อมลู - ผลลัพธ์จะแสดงในส่วน Classifier Output เมอื่ เริม่ วิเคราะห์ข้อมลู แล้ว ผลลพั ธจ์ ะแสดงในสว่ นของ Classifier Output ดงั ภาพ เหมอื งข้อมลู เบอ้ื งตน้

102 การทาเหมอื งขอ้ มูลด้วย WEKA ra.ac.thภำพท่ี 5-21 แสดงผลการวิเคราะหข์ ้อมลู ทางสถิติแบบหลายตวั แปร การแสดงผลข้อมูลในรูปกราฟในสถิติหลายตัวแปรน้ัน จะแสดงผลเป็นลักษณะกราฟของk.chandสองตัวแปรข้ึนไป ซ่ึงอาจเรียกดูทีละคู่คุณลักษณะ หรือดูพร้อมกันทุกคุณลักษณะ กราฟลักษณะน้ีjmเรยี กว่า Scatter Plot โดยใชส้ ว่ นการทางาน Visualize ในการแสดงผล ภำพท่ี 5-22 แสดงสว่ นการทางาน Visualizeเหมืองขอ้ มลู เบอ้ื งต้น

การทาเหมอื งขอ้ มลู ด้วย WEKA 103 ในการแสดงผลข้อมูลในรูปกราฟ Scatter Plot น้ัน สามารถปรับขนาดของกราฟโดยกาหนดในส่วนของ PlotSize และขนาดของข้อมูลโดยกาหนด PointSize และเลือกแสดงข้อมูลค่คู ณุ ลักษณะไดด้ ้วยการกดป่มุ Select Attributes และกดป่มุ Update เพื่อแสดงผล (กด Ctrl คา้ งไวเ้ พอ่ื เลอื กคู่ คณุ ลกั ษณะทต่ี อ้ งการแสดงผล) ภำพท่ี 5-23 แสดงส่วนเลือกคณุ ลักษณะในการแสดงกราฟ jmk.chandra.ac.thเมื่อได้ผลการแสดงผลข้อมูลในรูปกราฟ Scatter Plot แล้ว ยังสามารถคลิ๊กเลือกที่ คู่คณุ ลักษณะในกราฟ เพ่อื แสดง กราฟระหวา่ งสองตัวแปรได้ (คลก๊ิ เพอ่ื เรยี กดคู ่คู ุณลกั ษณะ) คณุ ลกั ษณะบนแกน Yคณุ ลกั ษณะบนแกน X ภำพท่ี 5-24 แสดงกราฟระหว่าง 2 คุณลักษณะ ภำพยอ่ ของ คณุ ลกั ษณะทเ่ี ลอื ก เหมอื งขอ้ มลู เบื้องต้น

104 การทาเหมอื งข้อมลู ด้วย WEKAกำรคัดกรองขอ้ มูลใน WEKA ใน WEKA เมื่อมีการนาเข้าข้อมูลในส่วนของ Preprocess แล้ว ก่อนที่จะทาการวิเคราะห์ข้อมูล หรือ ทาเหมืองข้อมูล อาจต้องมีการคัดกรองข้อมูล ตามขั้นตอนการทาเหมืองข้อมูลคือการทาความสะอาดข้อมูล (Cleanup Data) ก่อน เพื่อให้ข้อมูลมีความพร้อมสาหรับการวิเคราะห์ตอ่ ไป สาหรับเครื่องมือคัดกรองข้อมูล (Filtering) ใน WEKA นั้น จะอยู่ในส่วนของ Preprocess ในโมดูลการทางานท่ีเรียกว่า Filter ซ่ึงมีวิธีการคัดกรองข้อมูลแบบต่างๆ โดยแบ่งออกได้เป็น 2 ประเภทหลกั ได้แก่ ตวั กรองแบบอตั โนมตั ิ และ ตวั กรองแบบกาหนดเอง สว่ นเครอื่ งมอื jmk.chandra.ac.thคดั กรองขอ้ มลู ภำพท่ี 5-25 แสดงสว่ นเครือ่ งมอื คดั กรองข้อมูล (Filter) การทดลองใช้ตัวกรองข้อมูล จะใช้ข้อมูล sample.csv ในการทดสอบการคัดกรองข้อมูลโดยนาเข้าข้อมูล sample.csv เข้าสู่ส่วนการทางาน Preprocess จากน้ันจึงเลือกใช้ตัวกรองข้อมูลโดยอาจเร่ิมจากตวั กรองแบบอตั โนมัติเหมืองข้อมูลเบื้องตน้

การทาเหมืองขอ้ มูลดว้ ย WEKA 105 1. ตวั กรองแบบอตั โนมัติ ตัวกรองแบบอัตโนมัติ (Supervised Filter) เป็นเคร่ืองมือในการคัดกรองข้อมูลท่ีช่วยให้ผู้ใช้งาน WEKA ไม่ต้องดาเนินการคัดกรอง คัดเลือกข้อมูล หรือ คุณลักษณะของข้อมูลทเี่ หมาะสมต่อการวเิ คราะห์ขอ้ มูลดว้ ยตนเอง โดยตัวกรองประเภทนจ้ี ะทาการคดั เลือกใหโ้ ดยอตั โนมตั ิซึ่งการทางานของตัวกรองแบบอัตโนมัติน้ีจะกระทากับส่วนประกอบ 2 ลักษณะคือ คุณลักษณะ(Attribute) และ ข้อมูล (Instance) jmk.chandra.ac.th ภำพท่ี 5-26 แสดงการเลือกตัวกรองข้อมูลแบบอัตโนมตั ิ (Supervised Filter) 1) ตวั กรองแบบอัตโนมัติท่ีกระทากบั คุณลักษณะ (Attribute Supervised Filter)ประกอบด้วย (1) Attribute Selection คื อ ก า ร คั ด เ ลื อ ก คุ ณ ลั ก ษ ณ ะ ที่ เ ห ม า ะ ส มในการวิเคราะห์ข้อมูล โดยจะต้องกาหนดวิธีการคัดเลือกคุณลักษณะท่ีเลือกใช้โดยคลิ๊กท่ีกล่องข้อความหลังปุ่ม Choose จะปรากฏหน้าต่างกาหนดวิธีการและเทคนิคการค้นหาในช่อง Evaluator และ Search ตามลาดับ ให้กดปุ่ม Choose เพื่อเลือกวิธีการท่ีต้องการ จากน้ันจงึ กดปุม่ OK เพื่อออกจากหน้าตา่ งการกาหนดค่า และกดป่มุ Apply เพื่อทาการคัดเลือกคุณลักษณะ เหมืองขอ้ มูลเบื้องต้น

106 การทาเหมอื งขอ้ มลู ด้วย WEKA ภำพที่ 5-27 แสดงหนา้ ตา่ งการกาหนดวิธีการและเทคนิคการคน้ หาคณุ ลักษณะ (2) Class Order คือการจัดลาดับคุณลักษณะท่ีเหมาะสมในการจัดกลมุ่ ข้อมูลโดย คล๊ิกท่ีกล่องข้อความหลังปุ่ม Choose จะปรากฏหน้าต่างกาหนดจะต้องกาหนดจานวน Classorder ท่ีต้องการ และจานวนรอบที่ต้องการสุ่มใน Class order และ Seed ตามลาดับ จากน้ันจึงกดjmk.chandra.ac.thปมุ่ OK เพอ่ื ออกจากหน้าต่างการกาหนดค่า และกดปมุ่ Apply เพอ่ื กระทาการจัดลาดบั คณุ ลกั ษณะ ภำพท่ี 5-28 แสดงหน้าต่างการกาหนดค่าการจัดลาดับคุณลกั ษณะ (3) Discretize คือการแปลงค่าในคุณลักษณะท่ีเป็นค่าต่อเนื่องให้เป็นค่าไม่ตอ่ เนื่อง โดย เลือกคุณลักษณะท่ีตอ้ งการจาก attributeIndices และกาหนดค่าท่ตี ้องการในสว่ นกลับค่า invertselection และส่วนอนื่ ตามความตอ้ งการ และกด OK เพ่ือออกจากหนา้ ต่างการกาหนดค่าและกดปุม่ Apply เพ่ือกระทาการจัดลาดับคุณลักษณะเหมอื งข้อมลู เบื้องต้น

การทาเหมืองขอ้ มูลด้วย WEKA 107 ภำพท่ี 5-29 แสดงหนา้ ตา่ ง Discretize (4) NominalToBinary คือการแปลงคา่ ในคุณลักษณะจากนามบัญญัตใิ ห้เป็นra.ac.thฐานสอง กด OK เพ่ือออกจากหน้าต่างการกาหนดค่า และกดปุ่ม Apply เพื่อกระทาการจัดลาดับjmk.chandคณุ ลักษณะ ภำพท่ี 5-30 แสดงหนา้ ต่าง NominalToBinary 2) ตวั กรองแบบอัตโนมัตทิ ี่กระทากบั ข้อมลู (Instance Supervised Filter) (1) Resample คือการสุ่มเลือกตัวอย่างข้อมูล จากข้อมูลท่ีมีอยู่ซึ่งสามารถสั่งให้มีการเปล่ียนแปลงข้อมูล หรอื ไม่ก็ได้ เหมอื งข้อมลู เบื้องตน้

108 การทาเหมอื งขอ้ มูลดว้ ย WEKA ภำพท่ี 5-31 แสดงหน้าต่างการกาหนดคุณลกั ษณะของ Resample (2) SpreadSubsample คือการสร้างชุดข้อมูลย่อย จากการสุ่มข้อมูลโดยjmk.chandra.ac.thสามารถกาหนดค่าน้าหนกั การสมุ่ จานวนสูงสดุ ท่ีตอ้ งการได้ ภำพท่ี 5-32 แสดงหนา้ ต่างการกาหนดคุณลกั ษณะของ SpreadSubsample (3) StratifiedRemoveFolds คือตัวกรองท่ีใช้สาหรับการกาหนดชุดข้อมูลสาหรับการทดสอบข้อมูลแบบ Cross Validationเหมืองขอ้ มูลเบื้องตน้

การทาเหมืองขอ้ มูลดว้ ย WEKA 109 ภำพท่ี 5-33 แสดงหนา้ ต่างการกาหนดคุณลกั ษณะของ StratifiedRemoveFolds 2. ตัวกรองแบบกำหนดเอง ra.ac.thตวั กรองแบบกาหนดเอง (Unsupervised Filter) เปน็ เครอื่ งมือในการคัดกรองข้อมูลท่ีช่วยให้ผู้ใช้งาน WEKA สามารถคัดกรอง คัดเลือกข้อมูล หรือ คุณลักษณะของข้อมูลท่ีเหมาะสมต่อการวิเคราะหข์ อ้ มูลได้ดว้ ยตนเอง k.chandการทางานของตัวกรองแบบอัตโนมัตนิ ้ีจะกระทากับส่วนประกอบ 2 ลักษณะเช่นเดียวกันกับตวั กรองแบบอัตโนมัติ ได้แก่ คุณลักษณะ (Attribute) และ ข้อมูล (Instance) โดยมีตัวกรองมากมายjmได้แก่ ภำพที่ 5-34 แสดงหน้าตา่ งการเลือกตวั กรองแบบกาหนดเอง เหมอื งข้อมูลเบื้องตน้

110 การทาเหมืองข้อมูลดว้ ย WEKA 1) ตัวกรองแบบกาหนดเองทก่ี ระทากับคุณลักษณะ ตัวกรองแบบกาหนดเองที่กระทากับคุณลักษณะ (Attribute SupervisedFilter) ป ร ะ ก อ บ ด้ ว ย ตั ว ก ร อ ง ไ ด้ แ ก่ Add, AddCluster, AddExpression, AddNoise,ClusterMembership, Copy, Discretize, FirstOrder, MakeIndicator, MergeTwoValues,NominalToBinary, Normalize, NumericToBinary, NumericTransform, Obfuscate,PKIDiscretize, RandomProjection, Remove, RemoveType, RemoveUseless,ReplaceMissingValues, Standardize, StringToNominal, StringToWordVector,SwapValues, TimeSeriesDelta และ TimeSeriesTranslate เป็นตน้ 2) ตัวกรองแบบกาหนดเองทก่ี ระทากับขอ้ มลู ตัวกรองแบบกาหนดเองที่กระทากับข้อมูล (Instance Supervised Filter)ra.ac.thซึ่ ง ป ร ะ ก อ บ ด้ ว ย ตั ว ก ร อ ง อั น ไ ด้ แ ก่ Normalize, NonSparseToSpare, Randomize,RemoveFolds, RemoveMisclassified, RemovePercentage, RemoveRange,jmk.chandRemoveWithValues, Resample และ SparseToNonSparseเหมอื งขอ้ มูลเบื้องต้น

การทาเหมอื งข้อมูลดว้ ย WEKA 111บทสรุป ซอฟต์แวร์สาหรับการทาเหมืองข้อมูลน้ัน มีหลากหลายโปรแกรมด้วยกัน ซอฟต์แวร์ท่ีได้รับความนิยม คือ WEKA ซึ่งเป็นซอฟต์แวร์ประเภท Open Source ท่ีถูกพัฒนาขึ้นโดย WaikatoUniversity สาหรับการใช้งานโปรแกรม WEKA จะประกอบด้วยส่วนการทางานสาคัญ ได้แก่1) ส่ ว น Explorer ส่ ว น ก า ร ท า ง า น ท่ี อ อ ก แ บ บ ม า ร อ ง รั บ ใ ห้ ส ะ ด ว ก กั บ ผู้ ใ ช้ ง า น(Graphic User Interface) 2) Experimenter ส่วนการทางานสาหรับการออกแบบการทดลองและการทดสอบผลการทดลอง 3) Knowledge Flow ส่วนการทางานสาหรับกาหนดผังกระแสความรู้และ 4) Simple CLI (Command Line Interface) ส่วนรบั คาสัง่ ผ่านการพิมพ์ การใช้งาน Explorer ใน WEKA จะเริ่มจากต้องมีข้อมูลสาหรับการวิเคราะห์ข้อมูล จากนั้นจึงเข้าสู่ขั้นตอน 3 ขั้นตอนได้แก่ 1) จัดเตรียมให้อยู่ในรูปแบบของไฟล์ arff ซ่ึงเป็นไฟล์ข้อมูลของra.ac.thWEKA จากนั้นจึงจะนามาผ่านกระบวนการ 2) ประมวลผลโดยการคัดกรองข้อมูลท่ีเหมาะสมต่อการวิเคราะห์ข้อมูล (Filter) และเม่ือข้อมูลพร้อมเข้าสู่การวิเคราะห์แล้วจึงเลือก 3) วิธีการ ขั้นตอนวิธีk.chandและกาหนดพารามิเตอร์ที่เหมาะสมต่อการวิเคราะห์ข้อมูลน้ันๆ ซึ่งในท้ายที่สุดจะได้ผลลัพธ์ คือตัวแบบ สาหรับการนาไปใช้ประโยชน์ตอ่ ไป การจัดเตรียมข้อมูลสาหรับการทาเหมืองข้อมูลด้วย WEKA น้ันจะรองรับการนาเข้าข้อมูลได้jmท้ังการเชอ่ื มต่อกับฐานข้อมูลโดยตรง และการนาเขา้ ข้อมลู ในรปู แบบไฟล์ csv โดยมสี กุลไฟลพ์ น้ื ฐานที่WEKA รองรบั คอื arff WEKA สามารถวิเคราะห์ข้อมูลในเชิงสถิติเบื้องต้นได้ โดยแสดงข้อมูลสรุปไว้ในส่วนการทางาน Preprocess ทั้งข้อมูลความถ่ีสาหรับข้อมูลนามบัญญัติ (Nominal Scale) และข้อมูลค่าสูงสุด ค่าต่าสุด ค่าเฉลี่ย ส่วนเบ่ียงเบนมาตรฐาน สาหรับข้อมูลตัวเลข การวิเคราะห์สถิติในWEKA นั้นแบ่งออกไดเ้ ปน็ 2 สว่ นคอื สถิติตัวแปรเดียว (Univariate statistic) และ สถติ ิหลายตวั แปร(Multivariate statistic) นอกจากน้ียงั มสี ่วนแสดงให้เหน็ ถงึ การกระจายของขอ้ มูลในรูปกราฟ WEKA มีเครื่องมือช่วยในการคัดกรองข้อมูล ให้เลือกใช้หลากหลาย โดยมีทั้งตัวกรองแบบอัตโนมัติ และตัวกรองแบบกาหนดเอง ซึ่งช่วยให้ผู้ใช้งานสามารถจัดเตรียมข้อมูลได้เหมาะสมต่อการวิเคราะหข์ ้อมูล เหมอื งข้อมูลเบอ้ื งตน้

112 การทาเหมืองขอ้ มูลดว้ ย WEKAเอกสำรอ้ำงอิงชนวัฒน์ ศรีสอ้าน. ฐำนข้อมูล คลังข้อมูล และเหมืองข้อมูล. ปทุมธานี: สานักพิมพ์ มหาวิทยาลัย รงั สติ , 2550.ชดิ ชนก ส่งศริ ิ, ธนาวินท์ รกั ธรรมานนท์ และ กฤษณะ ไวยมัย. “การใช้เทคนิคดาตา้ ไมนน์ งิ เพ่ือพัฒนา คุณภาพการศึกษาคณะวิศวกรรมศาสตร์.” NECTEC Technical Journal. ปีท่ี 11 ฉบับท่ี 3, 2545 : 134-42.อ ดุ ล ย์ ยิ้ ม ง า ม . ก ำ ร ท ำ เ ห มื อ ง ข้ อ มู ล Data Mining[อ อ น ไ ล น์ ]. เ ข้ า ถึ ง ไ ด้ จ า ก : http://compcenter.bu.ac.th/index.php?option=com_content&task=view&id=7 5&Itemid=172. (วนั ทีค่ ้นข้อมูล : 17 มิถุนายน 2554)Bing, L., Wynne, H. and Yiming, M. “Mining Association Rules with Multiple Minimum Supports.” Proceeding of the ACM SIGKDD International Conference on ra.ac.thKnowledge Discovery and Data Mining. San Diego, 1999.David, L. Handbook of Genetic Algorithms. New York: Van Nostrand Reinhold., 1991.k.chandLinoff, G. and Berry, M. Data Mining Techniques. John Wiley & Sons. , 1997.Mahapatra, I. and Bose, R. K. “Business Data Mining - a Machine Learning Perspective.” jmInformation and Management. 39, 2001 : 211-25.WEKA Wiki, Frequently Asked Questions. [อ อ น ไ ล น์ ]. เ ข้ า ถึ ง ไ ด้ จ า ก : http://weka.wikispaces.com. (วันทค่ี ้นขอ้ มูล : 17 มิถนุ ายน 2554)คำถำมทบทวน1. WEKA ประกอบด้วยสว่ นการทางานใดบา้ ง2. สว่ นการทางานสาคญั ของ WEKA คือส่วนใด3. WEKA รองรบั การใชง้ านไฟล์ขอ้ มลู สกุลใดบา้ ง4. สกลุ ไฟล์พ้ืนฐานของ WEKA คือ5. ชนดิ ของขอ้ มูลที่ WEKA รู้จกั คอื ข้อมลู ชนดิ ใดบ้างเหมืองข้อมลู เบอ้ื งต้น

6 การทาเหมอื งขอ้ มูลความสมั พนั ธ ์ ra.ac.thในการทาเหมืองข้อมูลความสัมพันธ์ ถือได้ว่าเป็นการทาเหมืองข้อมูลที่ได้รับความนิยมอย่างk.chandย่ิง ในการิวเคราะห์ข้อมูลการตลาด มักถูกประยุกต์ใช้ในการวิเคราะห์ความสัมพันธ์ของสินค้า และบริการ เพ่ือวางแผนการตลาด การจัดรายการส่งเสริมการขาย หลักการวิเคราะห์ความสัมพันธ์ดว้ ยเทคนิควิธกี าร อัลกอริทึม เพ่ือให้สามารถทาการวิเคราะห์ความสัมพนั ธ์ของข้อมูล จึงเปน็ สง่ิ ทค่ี วรjmทาความเข้าใจ ดังน้ันเนื้อหาในบทนี้จะเป็นการอธิบายเพื่อให้ผู้อ่านได้ทาความเข้าใจถึง การทาเหมืองข้อมูลความสัมพันธ์ หลักการพื้นฐานของการค้นหากฎความสัมพันธ์ รวมไปถึงขั้นตอนและวิธีการวิเคราะห์ความสมั พนั ธ์ โดยแบ่งเนื้อหาภายในบทเปน็ หัวขอ้ ดงั นี้ 1. เหมอื งข้อมูลความสมั พนั ธ์ 2. หลกั การพน้ื ฐานของการค้นหากฎความสัมพันธ์ 3. ขน้ั ตอนและวธิ กี ารทาเหมืองข้อมูลสัมพันธ์ด้วย WEKA เหมืองข้อมลู เบอ้ื งตน้

114 การทาเหมืองข้อมลู ความสมั พนั ธ์เหมอื งข้อมูลความสมั พนั ธ์ การทาเหมืองข้อมูลความสัมพันธ์ (Association Mining) เป็นเทคนิคหนึ่งในกรรมวิธีเหมืองข้อมลู ท่ีได้รับความนิยมอย่างกว้างขวางในการวิจัยเชงิ ประยุกต์ใช้เหมืองข้อมูล โดยมีวิธีการคือการค้นหาความสัมพันธ์ของข้อมูลท่ีเรียกว่า กฎความสัมพันธ์ (Association Rules) ซึ่งคือ การค้นหาความสัมพันธ์ท่ีเกิดข้ึนซ้า ๆ จากชุดข้อมูลที่นาเข้ามาเพ่ือการเรียนรู้ เพ่ือให้ได้ผลลัพธ์เป็นรูปแบบความสมั พนั ธท์ ี่แข็งแกร่ง 1. วัตถุประสงคข์ องการทาเหมืองข้อมูลความสมั พนั ธ์ การทาเหมืองข้อมลู ความสมั พันธ์นั้น มีวัตถุประสงค์เพ่ือ ค้นหารปู แบบความสัมพันธ์ โดยการวิเคราะห์ความสัมพันธ์ระหวา่ งส่ิงของ (item) ซ่ึงอยู่ในเซตของวัตถุ ท่ีเรียกว่า “กฎ” เพอ่ื แสดงให้เห็นในรูปแบบ “สาเหตุไปสู่ผลลัพธ์” เพ่ือให้ง่ายต่อการทาความเข้าใจ ถือเป็นเทคนิคท่ีเหมาะกับการวิเคราะห์ข้อมูลในฐานข้อมูลขนาดใหญ่ โดยนิยมนามาใช้ในการวิเคราะห์ตลาด เรียกว่า การra.ac.thวิเคราะห์ตะกร้าการซื้อ หรือ Market Basket Analysis ซ่ึงเป็นการวิเคราะห์พฤติกรรมการซื้อสินค้าของผู้ซื้อ เพื่อค้นหาความต้องการ ความเป็นไปได้ และแนวโน้มการตลาด เพ่ือนามาใช้ประโยชน์ในการวางแผนการตลาด เช่น รายการส่งเสริมการขาย เปน็ ตน้ k.chand2. ข้อมูลสาหรับวิเคราะห์ความสัมพนั ธ์ สาหรับข้อมูลท่ีนิยมนามาวิเคราะห์ความสัมพันธ์ จึงมักเป็นข้อมูลประเภทรายการjmธรุ กรรม (Transaction Data) เช่น รายการซ้ือขายสินคา้ รายการธุรกรรมผ่านบัญชีธนาคาร เป็นต้นซ่ึงข้อมลู รายการเหล่าน้ี ถอื เปน็ พฤติกรรมท่ีสามารถนาวเิ คราะห์ ค้นหาคาตอบในเชิงความสัมพันธ์ได้ 3. การประยุกตใ์ ชเ้ หมืองข้อมูลความสัมพนั ธ์ จากวัตถุประสงค์ในการทาเหมืองข้อมูลความสัมพันธ์ ที่มุ่งค้นหารูปแบบความสัมพันธ์โดยนิยมใช้กับข้อมูลประเภทรายการธุรกรรม เพ่ือนาไปใช้ประโยชน์ ดังที่ได้กล่าวไปแล้วนั้น ดังนั้นจึงพบการนาเอาวิธีการเหมืองข้อมูลความสัมพนั ธ์ ไปประยกุ ต์ใช้งานจริง กบั ธรุ กิจ การค้า เช่น ตัวอย่างของธุรกิจร้านค้าสะดวกซื้อ ท่ีมีการนาเอารายการขายสินค้า ไปประมวลผลเพ่ือวิเคราะห์ความสัมพันธ์ของสินค้าแต่ละชนิดท่ีมักถูกซอ้ื ไปในคราวเดียวกัน เพอ่ื นารปู แบบที่ค้นพบมาวางแผนจดั วางสนิ คา้ ในรา้ นคา้ รวมไปถงึ การจัดรายการส่งเสรมิ การขาย ตวั อยา่ งของหา้ งสรรพสินค้า ซเู ปอร์สโตร์ ทม่ี ีการวิเคราะหร์ ายการขายสนิ คา้ กับ คณุ ลักษณะของลูกค้าท่ีเป็นสมาชิก เพื่อค้นหาความสัมพันธ์และพฤติกรรมการเลือกซื้อสินค้า และจัดรายการส่งเสรมิ การขาย ทส่ี อดคลอ้ งกับพฤตกิ รรมของลูกค้าเหมืองข้อมลู เบื้องตน้

การทาเหมืองขอ้ มลู ความสัมพันธ์ 115 ตัวอย่างของเว็บไซต์ผู้ให้บริการสืบค้นข้อมูลระดับโลกอย่าง Google ที่มีการนาเอาคาค้น (Keywords) และเว็บไซต์ต่าง ๆ มาค้นหาความเช่ือมโยงสัมพันธ์กัน เพ่ือแนะนาเว็บไซต์ที่มีความสัมพันธ์กัน จากความเชื่อมโยงที่ได้วิเคราะห์ โดยมีจุดมุ่งหมายเพ่ือเพ่ิมประสิทธิภาพการสืบค้น รวมไปถึง เป้าหมายในเชิงการค้า เช่น การขายโฆษณา ที่มีการวิเคราะห์การแสดงผลให้สมั พนั ธก์ ับกล่มุ เปา้ หมาย เปน็ ตน้ จากตัวอย่างข้างต้นนั้น เป็นเพียงส่วนหน่ึงของการประยุกต์ใช้การทาเหมืองข้อมูลความสัมพันธ์ในเชิงธุรกิจ ซ่ึงในปัจจุบันพบว่ามีการนาไปประยุกต์ใช้งานในธุรกิจต่าง ๆอย่างหลายหลาย ดังจะกลา่ วถึงการประยกุ ต์ใช้ในบทท่ี 9 ต่อไปหลักการพน้ื ฐานในการคน้ หาและสรา้ งกฎความสัมพนั ธ์ สาหรับหลักการพ้ืนฐานในการค้นหากฎความสัมพันธ์น้ัน เป็นการค้นหารูปแบบรายการra.ac.thท่ีมีความถ่ีในเกิดขึ้น (Frequency items set) ซ่ึงหมายถึงเป็นรายการท่ีมีการเกิดข้ึนบ่อยครั้งโดยรายการเหล่าน้นั จะต้องอยู่ภายใต้คา่ สนับสนุนหรือคา่ ท่ียอมรับได้ (Support) และคา่ ความเชื่อมั่นรวมถึง ความเป็นไปได้ ของแต่ละปัจจัยท่ีนามาพิจารณา (Confidence) จึงจะสามารถนามาสร้างเป็นk.chandกฎความสมั พนั ธ์ใชป้ ระโยชนไ์ ดต้ ่อไป รูปแบบรายการที่ค้นพบเหล่านั้น สามารถเขียนอยู่ในรูปแบบเซต (Set) ทางคณิตศาสตร์เรียกว่า กฎความสัมพันธ์ หรือ กฎเชื่อมโยงความสัมพันธ์ (Association Rules) โดยจะเลือกใช้jmเฉพาะกฎที่ส่งผลต่อประเภทของข้อมูลท่ีต้องการ ดังน้ันจึงจาเป็นต้องมีการกาหนดความคาดหวังทั้งในด้านของการสนับสนุน และความเชื่อม่ันข้ันต่าที่คาดหวังเอาไว้ เพื่อใช้เป็นหลักเกณฑ์พิจารณาคัดเลือกกฎความสมั พนั ธเ์ พ่ือนาไปใชป้ ระโยชน์ตอ่ ไป 1. รูปแบบของกฎความสัมพันธ์ จากหลักการพื้นฐานในการค้นหากฎความสัมพันธ์ รูปแบบของกฎความสัมพันธ์สามารถนิยามไดด้ งั นี้ หากกาหนดให้ Itemset คือ เซตของชดุ ข้อมลู และ I  {i1,...,ik} ดงั นนั้ กฎความสัมพนั ธ์ จะอยู่ในรปู แบบ X  Y เม่ือ X  I และ Y  I เหมอื งข้อมูลเบอ้ื งตน้

116 การทาเหมืองข้อมลู ความสัมพนั ธ์ ในขณะท่ี คา่ สนบั สนนุ (Support: Supp.) สามารถคานวณหาไดจ้ ากสมการตอ่ ไปนี้ Supp.(X  Y )  P(X  Y ) และ ค่าความเช่ือม่นั (Confidence: Conf.) สามารถคานวณหาไดจ้ ากสมการตอ่ ไปนี้ Conf .( X  Y )  P(Y | X )  P( X  Y ) P(X ) นอกจากน้ี รูปแบบของกฎความสัมพันธ์ ยังสามารถแบ่งออกได้เป็น 2 ลักษณะคื อ 1 ) ก ฎ ค ว า ม สั ม พั น ธ์ แ บ บ มิ ติ เ ดี ย ว ( Single-Dimensional Association Rules) แ ล ะra.ac.th2) กฎความสัมพันธ์แบบหลายมิติ (Multi-Dimensional Association Rules) 1) กฎความสัมพันธแ์ บบมิตเิ ดยี ว k.chandกฎความสัมพันธ์แบบมิติเดียว ( Single-Dimensional Association Rules)jmเปน็ รปู แบบการแสดงความสัมพันธร์ ะหว่างสงิ่ 2 ส่ิง ( Item1  Item2 ) ดังภาพ ภาพที่ 6-1 แสดงตัวอยา่ งรูปแบบของกฎความสมั พันธแ์ บบมติ ิเดียว จากภาพตัวอย่าง จะหมายถึงพฤติกรรมการซื้อสินค้า ที่มีรายการขายคอมพิวเตอร์และซอฟต์แวรไ์ ปดว้ ยกัน ดว้ ยคา่ สนับสนนุ ร้อยละ 1 และคา่ ความเช่ือม่นั รอ้ ยละ 50เหมืองขอ้ มูลเบอื้ งต้น

การทาเหมืองข้อมูลความสัมพันธ์ 117 2) กฎความสัมพันธแ์ บบหลายมติ ิ กฎ คว ามสั มพั นธ์ แบบหลายมิ ติ ( Multi-Dimensional Association Rules)เป็นรปู แบบการแสดงความสัมพันธ์ระหว่างสงิ่ ใด ๆ มากกว่า 2 ส่งิ ขึ้นไป ( Item1, Item2,..., Itemk )ดังภาพ ra.ac.thภาพท่ี 6-2 แสดงตวั อยา่ งรปู แบบของกฎความสัมพันธแ์ บบหลายมิติ k.chandจากภาพตัวอย่าง หมายความว่า พบรายการว่ามีลูกค้าที่ซ้ือคอมพิวเตอร์ หนังสือ และซ้ือซอฟต์แวร์ ไปในคราวเดียวกัน ด้วยค่าสนับสนุนร้อยละ 5 และความเช่ือมั่นร้อยละ 80 หรือ พบว่าลกู ค้าท่ีช่วงอายุระหว่าง 20 – 29 ปี ทีม่ ีรายได้อยู่ในช่วง 20,000 – 30,000 มักจะซ้ือ IPad ด้วยความjmเชอื่ มัน่ รอ้ ยละ 75 และ ค่าสนับสนนุ ร้อยละ 3 2. วิธีการสร้างกฎความสัมพันธ์ จากรูปแบบของกฎความสัมพันธ์น้ัน จะมีวิธีการค้นพบเพ่ือให้ได้มาซึ่งกฎความสัมพันธ์ได้โดยอาศัยหลักการค้นหา และนับ ความถี่ที่เกิดขึ้น เปรียบเทียบกับรายการข้อมูลทั้งหมดที่พบซึ่งหลักการทกี่ ล่าวถงึ นี้ เปน็ เทคนคิ ข้นั ตอนวธิ ี หรือ อลั กอรทิ ึม ทนี่ ยิ มใช้กนั ในช่ือที่เรียกวา่ Apriori Apriori ถูกคิดค้น ในปี ค.ศ.1993 และตั้งช่ือวิธีการตามชื่อผู้คิดค้น Apriori จัดเป็นเทคนิควิธีหรือ อัลกอริทึม ท่ีได้รับความนิยมใช้ในการสร้างกฎความสัมพันธ์ โดยใช้วิธีการหาชุดข้อมูลท่ีเกิดขึ้นบ่อยครั้ง (Frequent Item Set) แม้ว่าภายหลังจะมีอัลกอริทึม หรือ เทคนิคอ่ืนๆ อีกมากมายแตส่ ่วนใหญ่ก็มีพืน้ ฐานจาก Apriori ทั้งส้นิ (Agrawal R. et al., 1996) เหมอื งข้อมูลเบื้องต้น

118 การทาเหมอื งข้อมลู ความสัมพนั ธ์ Pseudo code: Ck : Candidate itemset of size k Lk : Frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk != ; k++) do begin Ck+1 = candidates generates from Lk ; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates on Ck+1 with min_ support end return ∪ ∪ k Lk ; ภาพท่ี 6-3 ตวั อย่าง Pseudo code แสดงกระบวนวิธกี ารทางานของ Apriori (ท่ีมา : Agrawal R. et al., 1996) 3. วธิ ีการวิเคราะหค์ วามสัมพันธ์ด้วยเทคนคิ Apriori ra.ac.thหากอธิบายข้นั ตอนการวเิ คราะหค์ วามสมั พันธ์ ด้วยเทคนิค Apriori น้ัน สามารถอธบิ ายแบ่งเป็นขัน้ ตอนวธิ ีการวเิ คราะหค์ วามสมั พันธด์ ังนี้ k.chand1) ขั้นตอนท่ี 1 การหารายการท่ีเกิดขึ้นบ่อย (Find All Frequent Item Sets)หมายถงึ รายการท่เี กิดขน้ึ ซ้า ๆ โดยวนหาทงั้ หมดทกุ กรณที ส่ี ามารถเกดิ ขึ้นได้ และนบั ความถี่ที่พบ ตัวอย่างเช่น หากพิจารณารายการธุรกรรม ขายสินค้าของสินค้า 3 ชนิด A, B, C การค้นหาjmรายการที่เกดิ ขึ้นบ่อย จะต้องนับความถี่ของรายการขายสินค้าแต่ละชนิดเป็นลาดบั แรก จากน้ันจึงนับความถ่ีของรายการขายสินค้าที่พบสินค้า 2 ชนิดจับคู่กัน และนับความถ่ีของรายการขายสินค้าที่พบสินคา้ ทง้ั 3 ชนดิ ดังภาพ ภาพท่ี 6-4 ตัวอย่างการค้นหารายการทีเ่ กิดขน้ึ บ่อย (Frequent Item Sets)เหมืองข้อมูลเบ้ืองตน้

การทาเหมืองข้อมลู ความสมั พนั ธ์ 119 2) การค้นหากฎความสัมพันธ์ท่ีแข็งแกร่ง (Generate Strong Association Rules)จากรายการที่เกิดข้ึนบ่อย โดยกฎที่ได้มาน้ัน ต้องมีค่าสนับสนุน (Support: Supp.) มากกว่าค่าสนับสนุนข้ันต่า (Minimum Support: Min_Supp.) ท่ีถูกกาหนดไว้ และต้องมีค่าความเชื่อมั่น(Confidence) มากกว่า ค่าความเชือ่ มั่นข้นั ต่า (Minimum Confidence: Min_Conf.) ทไี่ ด้กาหนดไว้เรียกว่า ที่กาหนดไว้ด้วย โดยค่าสนับสนุนข้ันต่า และค่าความเช่ือมั่นข้ันต่า น้ัน คือ ค่าความคาดหวังข้ันต่าที่ยอมรับได้ สาหรับการวิเคราะห์ความสัมพันธ์ ว่ากฎความสัมพันธ์ที่พบน้ัน มีน้าหนักเพียงพอตอ่ ความคาดหวงั ในการนาไปใชป้ ระโยชนน์ น่ั เอง ตั ว อ ย่ า ง ก า ร วิ เ ค ร า ะ ห์ ค ว า ม สั ม พั น ธ์ ข อ ง สิ น ค้ า ใ น ร้ า น ข น ม ห ว า น แ ห่ ง ห น่ึ งหากพบรายการขายสินค้าของสินค้า ดังต่อไปน้ี หากกาหนดความคาดหวัง ค่าสนับสนุนขั้นต่าที่ร้อยละ 50 และ ค่าความเชือ่ มั่นขน้ั ต่า ร้อยละ 60ra.ac.thตารางที่ 6-1 ตารางขอ้ มูลรายการสงั่ สนิ คา้ Transaction-id Items Order 1001 Crape Cake, Choco Lava, Honey Toast k.chand2002 Crape Cake, Honey Toast 3003 Crape Cake, Vanilla Ice-cream jm4004 Choco Lava, Green Tea, Strawberry Chesse Cake เริม่ จากข้นั ที่ 1 การคน้ หารายการสง่ั สนิ ค้าทเ่ี กดิ ขน้ึ รอบที่ 1 นับความถีข่ องแต่ละ Items ภาพที่ 6-5 การนบั ความถ่ีของแต่ละ Items ทเ่ี กิดขนึ้ เหมอื งขอ้ มูลเบื้องตน้

120 การทาเหมืองข้อมูลความสัมพนั ธ์ตารางท่ี 6-2 การนับความถร่ี ายการสินค้าแตล่ ะรายการ Items Frequent Supp. Crape Cake 3 3/4 = 0.75 Choco Lava 2 2/4 = 0.50 Honey Toast 2 2/4 = 0.50 Vanilla Ice-cream 1 1/4 = 0.25 Green Tea 1 1/4 = 0.25 Strawberry chesses Cake 1 1/4 = 0.25 พจิ ารณาคัดเลือกเฉพาะขอ้ มลู ที่มีค่าสนับสนนุ ทย่ี อมรบั ได้ คือ ไม่น้อยกว่าค่าสนับสนุนข้ันต่าท่ีได้กาหนด คือ ร้อยละ 50 ดังน้ันรายการสินค้าท่ีผ่านการคัดเลือกจึงได้แก่ Crape Cake ChocoLava และ Honey Toast jmk.chandra.ac.thรอบท่ี 2 นบั ความถ่ีของแตล่ ะ Item Sets ทีจับค่กู ัน ภาพที่ 6-6 พจิ ารณานับความถ่ีเฉพาะ Items ทีผ่ า่ นการคัดเลือกตารางท่ี 6-3 การนบั ความถ่ีรายการสินคา้ แบบจบั คู่รายการFrequent Item Sets Frequent Supp. Conf.Crape Cake, Choco Lava 1 1/4 = 0.25 0.25/0.75 = 0.33Crape Cake, Honey Toast 2 2/4 = 0.50 0.50/0.75 = 0.66Choco Lava, Crape Cake 1 1/4 = 0.25 0.25/0.50 = 0.50Choco Lava, Honey Toast 1 1/4 = 0.25 0.25/0.50 = 0.50Honey Toast, Crape Cake 2 2/4 = 0.50 0.50/0.50 = 1.00Honey Toast, Choco Lava 1 1/4 = 0.25 0.25/0.50 = 0.50เหมอื งขอ้ มูลเบ้อื งต้น

การทาเหมืองข้อมูลความสมั พนั ธ์ 121 จาก Item Sets ข้อมูลที่คัดเลือกเฉพาะข้อมูล ท่ีมีค่าสนับสนุนที่ยอมรับได้ ท้ัง 3 ค่านามาจับคู่พิจารณานับความถ่ีที่เกิดขึ้นพร้อม ๆ กัน และคัดเลือกเฉพาะ Item ที่มีค่าสนับสนุน และค่าความเชื่อมั่นที่ยอมรับได้ คือ Crape Cake, Honey Toast (Supp. = 0.50, Conf. = 0.66) และHoney Toast, Crape Cake (Supp. = 0.50, Conf. = 1.00) รอบที่ 3 นับความถี่ของแต่ละ Item Sets ท้ัง 3 ค่าที่ผ่านการคัดเลือก ซึ่งในกรณีตัวอย่างน้ีพบ Items ที่รายการสั่งสินค้า ท่ีผ่านการคัดเลือกเพียง 2 รายการเท่านั้น จึงไม่ต้องพิจารณาในถัดไปหากแตเ่ พื่อทาความเขา้ ใจจงึ อธิบายวิธกี ารพิจารณาดงั นี้jmk.chandra.ac.thภาพท่ี 6-7 พจิ ารณานบั ความถ่เี ฉพาะ Items ทผี่ า่ นการคัดเลอื กตารางที่ 6-4 การนบั ความถ่รี ายการสนิ คา้ 3 รายการที่ผ่านการคดั เลือกFrequent Item Sets Frequent Supp. Conf.Crape Cake, Choco Lava, Honey Toast 1 1/4 = 0.25 0.25/0.75 = 0.33Choco Lava, Crape Cake, Honey Toast 1 1/4 = 0.25 0.25/0.50 = 0.50Honey Toast, Crape Cake, Choco Lava 1 1/4 = 0.25 0.25/0.50 = 0.50 จากรอบนี้ จะเหน็ ว่าทง้ั 3 Items มีคา่ สนับสนนุ ไม่อยใู่ นเกณฑ์การยอมรับได้ จึงวา่ ไม่ผ่านการคดั เลือก ตามภาพทีอ่ ธบิ ายในตอนตน้ เหมืองข้อมลู เบอื้ งต้น

122 การทาเหมืองข้อมลู ความสัมพันธ์ ดังนั้นเพื่อพิจารณากฎความสัมพันธ์ที่ผ่านการคัดเลือกนั้น จะมี Item sets ที่มีค่าสนับสนุนอยู่ในเกณฑท์ ่ียอมรบั ได้ คือ ผ่านเกณฑ์ค่าสนับสนนุ และค่าความเชอ่ื ม่ันข้ันต่าที่กาหนด โดยเมื่อนามาจัดเรียงตามลาดับความสาคัญ ( Precedence) โดยอาศัยค่าความเชื่อม่ันเป็นสาคัญน้ันจะได้กฏความสัมพันธ์ ดงั ตอ่ ไปน้ีตารางที่ 6-5 รูปแบบรายการสั่งสินค้าที่ยอมรับได้Frequent Item Sets Frequent Supp. Conf.Honey Toast, Crape Cake 2 2/4 = 0.50 0.50/0.50 = 1.00Crape Cake, Honey Toast 2 2/4 = 0.50 0.50/0.75 = 0.66 จากกฎความสัมพันธ์ท่ีค้นพบ สามารถนามาเขียนให้อยู่ในรูปแบบของกฎความสัมพันธ์ และแปลความได้วา่ ra.ac.thกฎที่ 1 : HoneyToast  CrapeCake [Supp.  0.50,Conf . 1.00] k.chandลู ก ค้ า ท่ี เ ริ่ ม ส่ั ง เ ม นู Honey Toast มั ก จ ะ สั่ ง เ ม นู Crape Cake ไ ป ด้ ว ย jmโดยมีสนับสนุนร้อยละ 50 และบนความเชอื่ มั่นรอ้ ยละ 100 กฎที่ 2 : CrapeCake  HoneyToast [Supp.  0.50,Conf .  0.66] ลูกค้าท่ีสั่งเมนู Crape Cake ก่อนมักจะสั่งเมนู Honey Toast ควบคู่ไปด้วย โดยมคี ่าสนับสนนุ ร้อยละ 50 และบนความเช่ือมนั่ รอ้ ยละ 66 ภาพท่ี 6-8 กฎความสัมพันธ์ท่ีผา่ นการคดั เลือก จากกฎความสัมพันธ์ทั้ง 2 ที่พบนั้น ซ่ึงสะท้อนให้เห็นว่าความสัมพันธ์ระหว่าง Item ใดๆทคี่ ้นพบน้ัน หากพิจารณาถึงลาดับก่อนหลังอาจอยู่บนความเชอ่ื ม่ันท่แี ตกตา่ งกนั ได้ ดังน้ันในกรณีท่ีได้กฎความสมั พนั ธ์ ท่ผี ่านการพิจารณาค่าสนับสนนุ และค่าความเชือ่ มน่ั มาแลว้ อาจตอ้ งนามาตรวจสอบยนื ยันความถูกตอ้ งของกฎความสมั พนั ธ์ก่อนนาไปใชป้ ระโยชน์เหมอื งข้อมูลเบือ้ งตน้

การทาเหมืองขอ้ มลู ความสัมพันธ์ 123 4. การตรวจสอบยืนยนั ความถูกตอ้ งของกฎความสัมพันธ์ ในบางกรณีกฎความสัมพันธ์ท่ีได้อาจไม่สะท้อนความเป็นจริง (Misleading) ดังเช่นท่ีปรากฎในตัวอย่างข้างต้น ท่ีค้นพบความสัมพันธ์ระหว่างเมนูอาหาร 2 เมนู เป็นกฎความสัมพันธ์ 2 กฎการยืนยันความถูกต้องของกฎ จะเป็นตัวช่วยยืนยันความแข็งแกร่งของกฎความสัมพันธ์ท่ีได้นั้นวา่ มคี วามถกู ตอ้ งสะท้อนความเปน็ จรงิ เพอื่ นาไปใชป้ ระโยชน์ การตรวจสอบยืนยันความถูกต้องของกฎความสัมพันธ์ ทาได้โดยอาศัยวิธีการเช่น การวิเคราะห์สหสัมพันธ์ (Correlation Analysis) หรือวิธีมาตรวัดความแข็งแกร่งของความสัมพันธ์ หรือค่าความแข็งแกร่ง ( Lift ) จะได้ สมการ หาคา่ ความแข็งแกรง่ ( Lift ) ดังน้ีjmk.chandra.ac.thLift(Item1Item2)Supp.(Item1  Item2 ) Supp.(Item1)  Supp.(Item2 )โดยหากคา่ ความแขง็ แกรง่ ท่คี านวณหาค่าได้ มคี ่า มากกวา่ (>) 1 หมายถึง การท่เี กดิ Item1 ส่งเสรมิ Item2 อย่างแท้จริง น้อยกว่า (<) 1 หมายถงึ การทเี่ กดิ Item1 ไม่ส่งเสริม Item2 อย่างแทจ้ รงิ เท่ากบั (=) 1 หมายถงึ การท่ีเกิด Item1 และ Item2 ไม่ส่งเสริมซ่ึงกันและหรือ คอื เป็นอสิ ระกนั ตัวอย่าง การหาค่าความแข็งแกร่งของความสัมพันธ์ เพ่ือตรวจสอบยืนยันความถูกต้องของกฎความสัมพันธ์ จากกฎข้อมูลทีค่ น้ พบ HoneyToast  CrapeCake [Supp.  0.50,Conf .  1.00] CrapeCake  HoneyToast [Supp.  0.50,Conf .  0.66] สามารถคานวณหาค่าความแข็งแกรง่ ไดด้ ังนี้ เหมอื งขอ้ มูลเบื้องตน้

124 การทาเหมืองข้อมูลความสมั พันธ์กฎที่ 1 : HoneyToast  CrapeCake [Supp.  0.50,Conf .  1.00]Lift ( HoneyToastCrapeCake)  Supp.(HoneyToast  CrapeCake) Supp.(HoneyToast)  Supp.(CrapeCake)Lift ( HoneyToastCrapeCake)  0.50  1.333 0.75  0.50ซงึ่ แปลความได้ว่าเมนู Honey Toast นัน้ สง่ เสริม Crape Cake อย่างแทจ้ ริงกฎท่ี 2 : CrapeCake  HoneyToast [Supp.  0.50,Conf .  0.66] Supp.(CrapeCake  HoneyToast) Supp.(HoneyToast)  Supp.(CrapeCake)ra.ac.thLift(CrapeCakeHoneyToast)Lift(CrapeCakeHoneyToast) 0.50 0.50  0.75k.chandซง่ึ แปลความไดว้ า่ เมนู Crape Cake นั้น สง่ เสรมิ Honey Toast อย่างแทจ้ ริงเชน่ กัน 1.333jmและจากการหาค่าความแขง็ แกรง่ สามารถนามาเขียนใหอ้ ยู่ในรูปแบบตารางได้ว่าตารางท่ี 6-6 ตารางรปู แบบความสัมพนั ธข์ องการสัง่ สนิ คา้ ที่ยอมรับได้ Frequent Item Sets Frequent Supp. Conf. Lift Honey Toast, Crape Cake 2 0.50 1.00 1.33 Crape Cake, Honey Toast 2 0.50 0.66 1.33 นอกจากการประยุกต์ใช้การวิเคราะห์ความสัมพันธ์เพื่อสร้างกฎความสัมพันธ์เพื่อนาไปใช้ประโยชน์แล้ว กฎความสัมพันธ์ยังสามารถประยุกต์ใช้ในลักษณะของการจาแนกประเภทข้อมูลได้อีกด้วย โดยในกรณีการวิเคราะห์ความสัมพันธ์เพื่อประยุกตใ์ ช้สาหรับการจาแนกประเภทนั้น สามารถทาได้โดยเรียกวา่ การสร้างกฎจาแนกประเภทเชงิ ความสัมพันธ์ (Class Association Rules: CARs)เหมอื งข้อมลู เบอื้ งต้น

การทาเหมืองข้อมูลความสัมพนั ธ์ 125ขั้นตอนวิธีการทาเหมอื งข้อมลู ความสัมพันธด์ ้วย WEKA สาหรับเครื่องมือวิเคราะห์ความสัมพันธ์ใน WEKA นั้น จะอยู่ในส่วนของ Associateซึง่ จะตอ้ งนาเข้าข้อมลู ในส่วนของ Preprocess ก่อน สว่ นการทางานของ Associate จึงจะสามารถใช้งานได้ jmk.chandra.ac.th ภาพที่ 6-8 แสดงหนา้ ตา่ งสว่ นการทางาน Associate สาหรับเทคนิควิธีเหมืองข้อมูลความสัมพันธ์ ในท่ีน้ี เลือกใช้วิธี Apriori ที่เป็นเทคนิคท่ีได้รับความนยิ มที่สดุ ในการทาเหมืองข้อมูลความสัมพันธ์ โดยมขี ั้นตอนการหาด้วยวธิ ี Apriori คือ 1. การนาเขา้ ขอ้ มูล การนาเข้าข้อมูล (Input) ซ่ึงมักจะเป็นข้อมูลจากฐานข้อมูลเชิงธุรกรม หรือท่ีเรียกว่าTransactions โดยนาเข้าข้อมูลจากส่วนการทางาน Preprocess ในที่น้ี จะใช้ข้อมูลตัวอย่างจากไฟล์ market.arff จากชุดขอ้ มูลตัวอย่างที่มากับซอฟต์แวร์ WEKA ซึ่งมีรายละเอยี ดข้อมูลรายการขายสินค้า 9 รายการ หรือ ใบเสร็จ และพฤติกรรมการซ้ือสินค้า 5 ชนิด (I1 – I5) ที่ได้ผ่านการจดั รปู แบบข้อมลู ให้พรอ้ มสาหรับการวิเคราะห์ขอ้ มลู แล้ว เพอื่ ใช้เป็นตัวอยา่ งในการวิเคราะห์ข้อมูล เหมืองข้อมลู เบื้องต้น

126 การทาเหมอื งข้อมลู ความสมั พนั ธ์ ภาพท่ี 6-9 แสดงรายละเอียดข้อมูลในไฟล์ market.arff 2. การวิเคราะห์ความสมั พนั ธ์ ra.ac.thหลังจากจัดเตรียมข้อมูล และนาเข้าข้อมูลแล้ว สามารถวิเคราะห์ความสัมพันธ์ได้โดยขั้นตอนดงั น้ี 1) เลือกแท็บ Associate เพ่ือเข้าสู่ส่วนการทางานเหมืองข้อมูลความสัมพันธ์k.chandและเลือกเทคนิควิธีท่ีใช้ในการวิเคราะห์ความสัมพันธ์ โดยเลือกปุ่ม Choose จากส่วนการทางานjmAssociator เลอื กวิธี Apriori ภาพที่ 6-10 แสดงการเลือกวธิ ีการวิเคราะห์ความสมั พันธ์เหมืองข้อมูลเบอ้ื งต้น

การทาเหมืองข้อมูลความสมั พนั ธ์ 127 2) คลิ๊กที่แถบข้อความเทคนิควิธีที่เลือกไว้ (หลังปุ่ม Choose) จะปรากฏหน้าจอการกาหนดค่าเบ้ืองต้นกาหนดค่า โดยค่าท่ีจาเป็นต้องกาหนดคือ ค่าสนับสนุนขั้นต่าที่ ยอมรับได้(min_sup) และคา่ ความเชื่อม่นั ขั้นต่าท่ียอมรับได้ (min_sup) จากนัน้ กด OK jmk.chandra.ac.th ภาพที่ 6-11 แสดงการกาหนดคา่ min_sup และ min_conf 3) เม่ือกาหนดค่าเรียบร้อยแล้ว ทาการวิเคราะห์ข้อมูล โดยกดที่ปุ่ม Start จะได้ผลลัพธ์ (Output) คือ item ท่ีเกิดข้ึนบ่อยจากฐานข้อมูล ในส่วนการทางาน Associator outputแสดงเปน็ ลกั ษณะของกฎความสมั พนั ธ์ (Association Rule) เหมืองข้อมลู เบ้ืองต้น

128 การทาเหมอื งข้อมูลความสมั พันธ์ ra.ac.thภาพท่ี 6-12 แสดงผลการทาเหมืองข้อมูลความสมั พันธ์ k.chandจากผลลัพธ์ท่ีได้จากการวิเคราะห์ข้อมลู จะได้กฎความสัมพนั ธ์ 10 กฎ ได้แก่ 1. I5=y 2 ==> I1=y 2 conf:(1) 2. I4=y 2 ==> I2=y 2 conf:(1) 3. I5=y 2 ==> I2=y 2 conf:(1) jm4. I2=y I5=y 2 ==> I1=y 2 conf:(1) 5. I1=y I5=y 2 ==> I2=y 2 conf:(1) 6. I5=y 2 ==> I1=y I2=y 2 conf:(1) 7. tid=T100 1 ==> I1=y 1 conf:(1) 8. tid=T100 1 ==> I2=y 1 conf:(1) 9. tid=T100 1 ==> I5=y 1 conf:(1) 10. tid=T200 1 ==> I2=y 1 conf:(1) ภาพที่ 6-13 แสดงกฎความสัมพันธ์ท่ไี ด้จากการวิเคราะห์ความสมั พนั ธ์ ซ่งึ แปลความหมายได้ เชน่ กฎที่ 1. หมายถึง รายการใบเสร็จที่ซ้ือสินค้า I5 จะซื้อสินค้า I1 ด้วยความ เชอ่ื ม่ัน 100% หรือ กฎที่ 2. หมายถึง รายการใบเสร็จทซ่ี ื้อสินค้า I4 จะซื้อสินค้า I2 ด้วย ด้วยความ เชอื่ ม่ัน 100% เป็นตน้เหมืองขอ้ มูลเบือ้ งต้น

การทาเหมืองข้อมูลความสัมพนั ธ์ 129 สาหรับผลการวิเคราะห์ข้อมูลสามารถบันทึกผลไว้ใช้ในภ ายหลังได้โ ดยการคล๊ิกปุ่มเมาส์ขวา (Right-Click) บนรายการเทคนิค Apriori ในส่วนการทางาน Result-list แล้วเลือกSave result buffer ไวเ้ ป็นไฟล์ .txt ได้ jmk.chandra.ac.thภาพท่ี 6-14 แสดงการบันทึกผลการวเิ คราะห์ขอ้ มลู เหมอื งข้อมูลเบ้อื งตน้

130 การทาเหมอื งข้อมูลความสมั พนั ธ์บทสรุป การทาเหมืองข้อมูลความสัมพันธ์ (Association Mining) เป็นเทคนิคหน่ึงในกรรมวิธีเหมืองข้อมูล ท่ไี ดร้ ับความนยิ มอยา่ งกวา้ งขวางในการวิจยั เชิงประยุกต์ใช้เหมืองข้อมูล โดยมีวิธกี ารคือการค้นหาความสัมพันธ์ของข้อมูลท่ีเรียกว่า กฎความสัมพันธ์ (Association Rules) ซ่ึงคือ การค้นหาความสัมพันธ์ที่เกิดขึ้นซ้า ๆ จากชุดข้อมูลท่ีนาเข้ามาเพ่ือการเรียนรู้ เพ่ือให้ได้ผลลัพธ์เป็นรูปแบบความสมั พนั ธ์ท่แี ข็งแกร่ง เพอ่ื นามาใชป้ ระโยชน์ในการวางแผนการตลาด เช่น รายการส่งเสริมการขายเป็นต้น สาหรับหลักการพ้ืนฐานในการค้นหากฎความสัมพันธ์นั้น เป็นการค้นหารูปแบบรายการที่มีความถี่ในเกิดข้ึน (Frequency items set) ซ่ึงหมายถึงเป็นรายการท่ีมีการเกิดขึ้นบ่อยครั้งโดยรายการเหล่าน้นั จะต้องอยู่ภายใตค้ ่าสนบั สนนุ หรือคา่ ท่ียอมรับได้ (Support) และค่าความเชื่อม่ันรวมถึง ความเป็นไปได้ ของแต่ละปัจจัยที่นามาพิจารณา (Confidence) จึงจะสามารถนามาสร้างให้ra.ac.thอยใู่ นรปู แบบกฎความสัมพันธ์ใชป้ ระโยชน์ไดต้ อ่ ไปk.chandเอกสารอ้างอิงกฤษณะ ไวยมัย และ ธีระวัฒน์ พงษ์ศิริปรีดา. “การใช้เทคนิค Association Rule Discovery เพ่ือ jmการจัดสรรกฎหมายในการพิจารณาคดีความ.” NECTEC Technical Journal. ปีท่ี 3 ฉบับที่ 11, (2544) : 143 - 52.ชนวัฒน์ ศรีสอ้าน. ฐานข้อมูล คลังข้อมูล และเหมืองข้อมูล. ปทุมธานี: สานักพิมพ์ มหาวิทยาลัย รังสติ , 2550.ชิดชนก สง่ ศริ ิ, ธนาวนิ ท์ รักธรรมานนท์ และ กฤษณะ ไวยมยั . “การใชเ้ ทคนคิ ดาตา้ ไมน์นงิ เพอื่ พฒั นา คุณภาพการศึกษาคณะวิศวกรรมศาสตร์.” NECTEC Technical Journal. ปีท่ี 11 ฉบบั ท่ี 3, 2545 : 134-42.อ ดุ ล ย์ ยิ้ ม ง า ม . ก า ร ท า เ ห มื อ ง ข้ อ มู ล Data Mining [อ อ น ไ ล น์ ]. เ ข้ า ถึ ง ไ ด้ จ า ก : http://compcenter.bu.ac.th/index.php?option=com_content&task=view&id=7 5&Itemid=172. (วันทีค่ น้ ขอ้ มลู : 17 มิถุนายน 2554)เ อ ก สิ ท ธ์ิ พั ช ร ว ง ศ์ ศั ก ด า . An Introduction to Data Mining Techniques. ก รุ ง เ ท พ : บรษิ ทั เอเชยี ดิจิตอลการพมิ พ์ จากดั , 2557.เหมอื งข้อมลู เบือ้ งต้น

การทาเหมืองขอ้ มูลความสมั พันธ์ 131Agrawal, R., et al. Parallel mining of association rules. IEEE Transactions on Know ledge and Data Engineering 8(6). 1996.Bing, L., Wynne, H. and Yiming, M. “Mining Association Rules with Multiple Minimum Supports.” Proceeding of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Diego, 1999.D. J. Hand, H. Mannila, and P. Smyth, Principles of Data Mining. MIT Press, 2001.Linoff, G. and Berry, M. Data Mining Techniques. John Wiley & Sons. , 1997.M. Bramer, Principles of Data Mining. Springer, 2013.Mahapatra, I. and Bose, R. K. Business Data Mining - a Machine Learning Perspective. Information and Management. 39, 2001 : 211-25.WEKA Wiki, Frequently Asked Questions. [อ อ น ไ ล น์ ]. เ ข้ า ถึ ง ไ ด้ จ า ก : ra.ac.thhttp://weka.wikispaces.com. (วนั ที่คน้ ข้อมลู : 17 มิถนุ ายน 2554)k.chandคาถามทบทวน1. การทาเหมอื งข้อมูลความสมั พนั ธน์ ัน้ นิยมนาไปประยกุ ต์ใช้ เพื่องานด้านใด จงยกตวั อย่างjm2. Frequent Item Set หมายถงึ3. หากร้านกาแฟร้านหนึ่งมีชุดข้อมูล ที่ต้องการวิเคราะห์ความสัมพันธ์ โดยมีความคาดหวังค่า สนับสนุนขั้นต่าท่ีร้อยละ 50 และ ค่าความเช่ือมั่นที่ร้อยละ 50 จงวิเคราะห์ความสัมพันธ์ เพือ่ คน้ หากฎความสัมพันธ์ ของชุดขอ้ มลู ต่อไปน้ีTransactionID Items Cappuccino Thai Tea Sandwich Burberry Pie Espresso10 Y YY20 YY Y30 Y Y Y Y40 Y Y50 Y Y เหมืองข้อมูลเบื้องตน้

132 การทาเหมอื งข้อมลู ความสัมพันธ์ jmk.chandra.ac.thเหมืองขอ้ มลู เบ้ืองต้น

7 การทาเหมอื งขอ้ มูลจาแนกประเภท ra.ac.thในการทาเหมืองข้อมูลจาแนกประเภทน้ัน เป็นอีกงานหน่ึง ซึ่งถือได้ว่าเป็นการประยุกต์ใช้k.chandเหมืองข้อมูล วิเคราะห์ข้อมูลท่ีได้รวบรวมมา เพื่อค้นหารูปแบบ แพทเทิร์น ท่ีใช้ในการจาแนกข้อมูลออกเป็นประเภทต่าง ๆ ตามความต้องการ เพ่ือนาไปใช้ในการคาดการณ์ พยากรณ์ หรือ ทานายเพ่อื จาแนกประเภทกบั ขอ้ มลู ชดุ ใหม่ หรอื ส่ิงท่ีกาลังจะเกดิ ขึน้ jmดังน้ันเนื้อหาในบทน้ีจะเป็นการอธิบายเพื่อให้ผู้อ่านได้ทาความเข้าใจถึง การทาเหมืองข้อมูลจาแนกประเภท หลักการพื้นฐานของการทาเหมืองข้อมูลจาแนกประเภท และข้ันตอนและวิธีการทาเหมืองข้อมูลจาแนกประเภทดว้ ย WEKA โดยแบง่ เน้ือหาภายในบทเปน็ หวั ข้อดงั น้ี 1. เหมอื งขอ้ มูลจาแนกประเภท 2. หลกั การพ้นื ฐานของการทาเหมอื งข้อมูลจาแนกประเภท 3. ข้นั ตอนวธิ ีการทาเหมอื งข้อมูลจาแนกประเภทดว้ ย WEKA 1) ต้นไม้ตัดสินใจ 2) การเรยี นร้แู บบเบย์ 3) โครงข่ายประสาทเทยี ม เหมอื งขอ้ มูลเบอ้ื งต้น

134 การทาเหมืองข้อมลู จาแนกประเภทเหมืองขอ้ มลู จำแนกประเภท เหมืองข้อมูลจาแนกประเภท (Classification Mining) คือ ขั้นตอนการวิเคราะห์ข้อมูลเพื่อสร้างตัวแบบสาหรับจาแนกประเภทข้อมูล (Data Classification Model) ไว้ใช้ในการทานายประเภท หรือ กลุ่มของข้อมูลใหม่ (Unseen data) ซึ่งมักถูกประยุกต์ใช้ประโยชน์ในเชิงธุรกิจ เช่นการจาแนกประเภท หรอื กลุ่มของลูกค้าท่ีซอ้ื สมารท์ โฟน หรือ แท็ปเลต กลุ่มของลูกค้าท่ีฐานะดี-ปานกลาง-แย่ กลุ่มของการผลิตสินค้าผ่านเกณฑ์คุณภาพ หรือ กลุ่มพรีเมี่ยม หรือ การจัดระดับดาวของโรงแรม รีสอร์ต เป็นต้น ในที่น้ีคาว่าการแบ่งประเภท หรือ กลุ่มข้อมูล จะเรียกว่า class ของข้อมูลซึ่งใน class เดียวกันน้ันจะต้องมีคุณลักษณะข้อมลู หรือ รูปแบบ ลักษณะ แพทเทิร์น์ที่มีความเหมือนหรอื คลา้ ยคลงึ กนั มากกวา่ ข้อมูลทีอ่ ยใู่ น class ทแ่ี ตกตา่ งกนั 1. วัตถปุ ระสงค์ของการทาเหมอื งข้อมูลจาแนกประเภท การทาเหมืองข้อมูลจาแนกประเภทนั้นมีวัตถุประสงค์เพื่อวิเคราะห์และจาแนกชุดข้อมูลra.ac.thออกเป็นกลุ่มๆ ตามความต้องการ โดยการค้นหารูปแบบ แพทเทิร์น คุณลักษณะท่ีสามารถจาแนกกลุ่ มข้ อ มูล อ อก เป็ น ป ร ะเ ภ ทต่ าง ๆ จา กชุ ด ข้อ มู ลที่ ไ ด้เ ก็บ ร ว บ ร ว ม เอ า ไว้ ใ นอ ดี ตเพ่ือนาเอารปู แบบทีค่ ้นพบนน้ั นาไปใช้เปน็ ตวั แบบในการจาแนกข้อมลู ตอ่ ไป k.chand2. ลกั ษณะของข้อมลู สาหรบั การทาเหมืองข้อมลู จาแนกประเภท ลักษณะของข้อมูลที่เหมาะสมสาหรับการทาเหมืองข้อมูลจาแนกประเภทนั้น สามารถใช้jmข้อมูลท่ีมีลักษณะเป็นค่าต่อเนื่อง (Continuous) คือข้อมูลตัวเลข จานวนจริง (Numeric Data) หรือข้อมูลที่มลี กั ษณะเปน็ กลมุ่ ข้อมลู (Categorical) คอื ข้อมลู นามบัญญตั ิ (Nominal Data) กไ็ ด้ 3. การประยุกต์ใช้เหมอื งข้อมูลจาแนกประเภท การประยุกต์ใช้งานเหมืองข้อมูลจาแนกประเภทน้ัน มักพบการประยุกต์ใช้ในแวดวงต่าง ๆท้ังธุรกิจการเงิน การธนาคาร เช่น การอนุมัติคาขอมีบัตรเครดิต (Credit Approval) หรือในงานด้านการตลาด เช่น การจาแนกกลุ่มลูกค้า เพ่ือการทาตลาดลูกค้ากลุ่มเป้าหมาย (Target marketing)รวมไปถึงด้านการแพทย์ เช่น การตรวจวินิจฉัยทางการแพทย์ (Medical Diagnosis) และการวิเคราะห์ประสิทธิผลการรักษา (Treatment effectiveness analysis) เป็นต้นเหมืองข้อมลู เบอื้ งตน้

การทาเหมืองขอ้ มลู จาแนกประเภท 135หลักการพืน้ ฐานของการทาเหมืองขอ้ มูลจาแนกประเภท การทาเหมืองข้อมูลเพ่ือจาแนกประเภทน้ัน จัดเป็นการทาเหมืองข้อมูลแบบมีผู้สอน(Supervise Training) หมายถึง จาเป็นจะต้องมีชุดข้อมูลตัวอย่าง เพื่อนามาใช้ในการเรียนรู้เพื่อสร้างตัวแบบสาหรับจาแนกข้อมูล ชุดข้อมูลดังกล่าวเรียกว่า ชุดข้อมูลสาหรับการเรียนรู้(Training Data Sets) ซ่ึงจะต้องมีการระบุการจาแนกกลุ่มอย่างชัดเจนมาด้วย โดยข้อมูลดังกล่าวจะต้องเป็นข้อมูลที่มีลักษณะเป็นกลุ่มข้อมูล (Categorical) และหากมีปริมาณของชุดข้อมูลสาหรับการเรียนรู้ย่ิงมากเพียงใด ย่ิงส่งผลให้ตัวแบบมีประสิทธิภาพในการจาแนกกลุ่มได้อย่างถูกต้องมากย่งิ ขึ้น และต้องมีชดุ ข้อมลู สาหรบั การทดสอบ (Testing Data Sets) ไว้เป็นข้อมูลสาหรบั การทดสอบเพอ่ื ยืนยันประสิทธิภาพผลการจาแนกของตวั แบบ ดังนั้นขั้นตอนสาคัญนอกเหนือจากการจัดเตรียมข้อมูลน้ัน ก่อนเริ่มการทาเหมืองข้อมูลจาแนกประเภทน้ัน จาเป็นต้องมีการแบ่งส่วนข้อมูลให้เหมาะสม สาหรับการทาหน้าที่เป็นชุดข้อมูลra.ac.thสาหรบั การเรยี นรู้ (Training Data Sets) และ ชุดข้อมลู สาหรบั การทดสอบ (Testing Data Sets) 1. การแบ่งส่วนขอ้ มลู สาหรับการทาเหมอื งขอ้ มลู จาแนกประเภท การแบ่งส่วนข้อมูล สาหรับทาหน้าท่ีเป็นชุดข้อมูลสาหรับการเรียนรู้ และ ชุดข้อมูลสาหรับk.chandการทดสอบนั้น ก็เพ่ือรองรับข้ันตอนการทาเหมืองข้อมูลจาแนกประเภทท่ีจะต้องมีการตรวจสอบประเมินประสิทธิภาพของตัวแบบก่อนนาไปใช้งาน ดังน้ันวัตถุประสงค์สาคัญของการแบ่งส่วนข้อมูลก็เพ่ือให้ได้ตัวแบบจาแนกประเภทข้อมูลท่ีมีประสิทธิภาพพร้อมนาไปใช้งานน่ันเอง โดยการแบ่งjmส่วนขอ้ มูลสามารถพจิ ารณาไดโ้ ดยวิธีการดงั ต่อไปน้ี 1) วิธีการไม่แบง่ สว่ นข้อมูล วิธีการไม่แบ่งส่วนข้อมูล หรือ วิธีใช้ข้อมูลเดียวกันในการทดสอบ (Self-ConsistencyTest) จัดเป็นวิธีการที่ง่ายท่ีสุด กล่าวคือ เป็นการใช้ชุดข้อมูลที่รวบรวมจัดเตรียมมา นามาเป็นทั้งข้อมูลสาหรับการเรียนรู้ และข้อมูลสาหรับการทดสอบ ในชุดเดียวกัน ซ่ึงหากพิจารณาในเร่ืองการประเมินประสิทธิภาพของตัวแบบนั้น ในกรณีน้ีอาจไม่เหมาะสมต่อการนาไปใช้ เนื่องจากประสิทธิภาพที่วัดประเมินได้น้ัน จะมีค่าสูงมากเพราะใช้ข้อมูลชุดเดียวกันในการทดสอบ ซึ่งอาจไม่สะท้อนตอ่ ความเป็นจริงในการประยุกต์ใช้งาน จึงไม่เหมาะสมโดยเฉพาะอย่างยง่ิ ในการวิจยั ที่ต้องการประสทิ ธิภาพ และความแมน่ ยาสงู เหมืองข้อมูลเบอ้ื งตน้

136 การทาเหมอื งข้อมูลจาแนกประเภท ภาพท่ี 7-1 วิธีใชข้ อ้ มูลเดียวกันในการทดสอบ (Self-Consistency Test) 2) วิธกี ารแบ่งสว่ นขอ้ มลู ดว้ ยการสมุ่ วิธีการแบ่งส่วนข้อมูลด้วยการสุ่ม (Split Test) เป็นการแบ่งส่วนข้อมูลออกเป็น 2 ส่วนra.ac.thด้วยการสุ่ม โดยอาจพิจารณาเป็นสัดส่วนร้อยละ เช่น กาหนดให้ชุดข้อมูลสาหรับการเรียนรู้มีสัดส่วนร้อยละ 70 และชุดข้อมูลสาหรับการทดสอบมีสัดส่วนร้อยละ 30 สาหรับการแบ่งส่วนข้อมูลวิธีการน้ีจุดเด่นคือ เหมาะสาหรับการวิเคราะห์ข้อมูลจาแนกประเภทท่ีมีปริมาณชุดข้อมูลมาก ใช้เวลาในการk.chandสร้างตัวแบบได้อย่างรวดเร็ว หากแต่มีข้อพิจารณาสาหรับการนาไปใช้ กล่าวคือ การแบ่งส่วนข้อมูลด้วยการสุ่มน้ี เป็นการแบ่งข้อมูลเพียงคร้ังเดียว แล้วนาข้อมูลส่วนหนึ่งมาใช้สร้างตัวแบบ และอีกส่วนใช้ทดสอบ ซ่ึงหากชุดข้อมูลท่ีสุ่มมาใช้สาหรับการทดสอบมีลักษณะใกล้เคียงกับข้อมูลที่ใช้jmในการสร้างตัวแบบ จะส่งผลให้ผลการประเมินประสิทธิภาพออกมาในเชิงตัวแบบมีประสิทธิภาพสูงมาก ในขณะที่หากชุดข้อมูลท่ีสุ่มมาสาหรบั การทดสอบมีความแตกต่างกบั ชดุ ข้อมลู ที่สร้างตัวแบบมากก็จะส่งผลในทางกลบั กันคอื ประสทิ ธิภาพของตัวแบบอาจไมม่ ีเท่าที่ควร ภาพที่ 7-2 วธิ กี ารแบ่งส่วนข้อมูลดว้ ยการสมุ่ (Split Test)เหมืองข้อมลู เบือ้ งต้น

การทาเหมืองข้อมลู จาแนกประเภท 137 3) วธิ ีการแบง่ ส่วนขอ้ มลู แบบไขว้ วิธีการแบ่งส่วนข้อมูลแบบไขว้ (Cross-Validation Test) เป็นวิธีการแบ่งส่วนข้อมูลโดยแบ่งข้อมูลออกแบบส่วน ๆ หลายส่วน เท่า ๆ กัน และนาเอาชุดข้อมูลท่ีได้แบ่งเป็นส่วน ๆ ไว้แบ่งไปใช้ทาหน้าท่ีท้ังในการสร้างตัวแบบ และการทดสอบตัวแบบ เวียนกันไปจนครบทุกส่วนข้อมูลการกาหนดจานวนส่วนของชุดข้อมูล มักกาหนดเป็นค่า k บ่อยคร้ังจึงพบเรียกวิธีการน้ีว่า“ k folds Cross-Validation” โดยมีตัวอย่างการแบ่งส่วน เช่น แบ่งชุดข้อมูลออกเป็น 5 ส่วนจะเรียกว่า 5 folds Cross-Validation หรือ แบ่งชุดข้อมูลออกเป็น 10 ส่วน จะเรียกว่า10 folds Cross-Validation ซึ่งวิธีการแบ่งส่วนข้อมูลแบบไขว้น้ี ถือเป็นวิธีการท่ีนิยมใช้ เนื่องจากมีจุดเดน่ คอื มีความนา่ เชอ่ื ถอื ในการวัดประสิทธิภาพของตวั แบบ jmk.chandra.ac.th ภาพที่ 7-3 ตวั อยา่ งการแบง่ ส่วนขอ้ มูลแบบไขว้ แบบ 5 สว่ น (5 folds Cross-Validation Test) นอกจากการแบ่งส่วนกาหนดชุดข้อมูลที่รวบรวม คัดเลือก และจัดเตรียมมา เป็นชุดข้อมูลสาหรับการเรียนรู้ และ ชุดข้อมูลสาหรับการทดสอบแล้ว สิ่งท่ีต้องพึงระวังอีกประการหนึ่งคือปรากฎการณ์ท่ีตัวแบบที่ได้ มีความพอดีกับข้อมูลสาหรับการเรียนรู้มากเกินไป หรือท่ีเรียกว่าตัวแบบพอดีกับชุดข้อมูลที่สร้าง (Over Fitting) ส่งผลให้อาจนาไปใช้ได้เฉพาะกับข้อมูลท่ีมีลักษณะเดียวกันกับข้อมูลเรียนรู้เท่านั้น และอาจไม่สามารถนาไปใช้งานจริงได้ ซ่ึงสาเหตุเกิดมาจากชุดข้อมูลสาหรับการเรียนรู้มีความผิดปกติ หรือ ชุดข้อมูลมีน้อยเกินไป ดังนั้นจึงควรพิจารณาจัดเตรียม และแบ่งสดั สว่ นขอ้ มลู ใหเ้ หมาะสม กอ่ นเริ่มวิเคราะห์ข้อมูลจาแนกประเภทต่อไป เหมอื งขอ้ มูลเบ้อื งต้น

138 การทาเหมอื งข้อมลู จาแนกประเภท 2. ขน้ั ตอนการทาเหมอื งข้อมลู จาแนกประเภท สาหรับข้ันตอนการทาเหมืองข้อมูลจาแนกประเภท สามารถแบ่งเป็นข้ันตอนได้ 3 ข้ันตอนสาคัญ ได้แก่ 1) การสร้างตัวแบบ (Model Construction) คือข้ันตอนการสร้างตัวแบบด้วยการวิเคราะห์ชุดข้อมูลสาหรับการเรียนรู้ 2) การประเมินตัวแบบ (Model Evaluation) คือการนาตัวแบบที่ได้ มาวัดประเมินประสิทธิภาพการจาแนก ด้วยชุดข้อมูลสาหรับการทดสอบ และ 3) การจาแนกประเภทขอ้ มูล (Classification) คอื การนาเอาตัวแบบทไี่ ด้ไปใช้งาน jmk.chandra.ac.thภาพที่ 7-4 ขน้ั ตอนการทาเหมอื งข้อมลู จาแนกประเภท 1) การสร้างตัวแบบ การสร้างตัวแบบ (Model Construction) เป็นข้ันตอนการสร้างโมเดลจาแนกประเภทถือเป็นข้ันตอนแรกของการวิเคราะห์ข้อมูลเพื่อจาแนกประเภท โดยการใช้ชุดข้อมูลตัวอย่างท่ีได้รวบรวม นามาเป็นชุดข้อมูลเรียนรู้ (Training Data Set) เพื่อสร้างตัวแบบที่เป็นแบบจาลองสาหรับการจาแนกประเภท ซ่ึงข้อมูลตัวอย่างจะต้องผ่านขั้นตอนการจัดเตรียมข้อมูล ตามข้ันตอนพ้ืนฐานของการทาเหมืองข้อมูล จากน้นั จงึ นาชดุ ข้อมลู สาหรับการเรียนรู้นัน้ เข้าสู่กระบวนการวิเคราะห์ข้อมูลด้วยเทคนิควิธี อลั กอริทึมต่าง ๆ โดยเทคนิควิธี อัลกอริทึม เบอ้ื งตน้ ทีน่ ิยมใช้ในการสร้างตัวแบบ หรือโมเดล ได้แก่ ต้นไม้ตัดสินใจ (Decision Tree) การเรียนรู้แบบเบย์ (Naive Bayes) หรือ โครงข่ายประสาทเทียม (Neural Network) เปน็ ต้นเหมอื งข้อมูลเบ้ืองตน้

การทาเหมืองขอ้ มูลจาแนกประเภท 139 (1) ตน้ ไมต้ ัดสนิ ใจ ต้นไม้ตัดสินใจ (Decision Tree) จัดเป็นเทคนิควิธีในการสร้างตัวแบบจาแนกประเภทที่มีลักษณะคล้ายต้นไม้จริง แต่อยู่ในลักษณะกลับหัว โดยมีโหนดราก (Root Node) ปรากฎอยู่ด้านบนสุด และโหนดใบ (Leaf Node) ปรากฎอยู่ล่างสุดของต้นไม้ ในแต่ละโหนดบนต้นไม้จะมคี ณุ ลกั ษณะ (Attribute) เปน็ ตวั เลอื ก เงอ่ื นไข สาหรับพิจารณา ซ่งึ จะมีกงิ่ (Branch) แตล่ ะกง่ิ เป็นค่าท่ีเป็นไปได้ของคุณลักษณะ ( attribute value) ที่ถูกเลือกทดสอบไว้ และมีโหนดใบแสดงกล่มุ ประเภทต่าง ๆ (Class) ทกี่ าหนดไว้ ส่ิงสาคัญสาหรับการสร้างต้นไม้ตัดสินใจ ที่ส่งผลต่อจานวนกิ่ง (Branch) ของต้นไม้ตัดสินใจคือลกั ษณของขอ้ มูลสาหรับการตดั สินใจ ซึ่งสามารถแบง่ ออกเป็น แอตตริบิวต์แบบนามบัญญัติ (Nominal Attribute) ท่ีมีค่าของข้อมูลเป็นคาแทนความหมายเช่น เพศ ทม่ี ีค่าเป็น ชาย หรือ หญงิ แอตตริบิวต์แบบลาดับ (Ordinal Attribute) ที่ความหมายของค่าข้อมูลน้ันมีการเรียงลาดับra.ac.thกัน เช่น ระดับความนา่ เชื่อถือทางการเงิน เป็น น่าเชือ่ ถอื มาก ปานกลาง น้อย และ แอตตริบิวต์แบบต่อเน่ือง (Continuous Attribute) ท่ีมีความหมายของค่าข้อมูลเป็นช่วงท่ีมีjmk.chandความตอ่ เน่ืองกนั เชน่ ช่วงอายเุ ป็น ≤30 ปี 30-40 ปี หรอื >40 ปี เป็นต้น ภาพที่ 7-5 ตวั อยา่ งชนดิ ข้อมลู และรูปแบบกิ่งของตน้ ไมต้ ัดสนิ ใจ (Decision Tree) ดังนั้นสาหรับการวิเคราะห์ข้อมูลเพ่ือสร้างของต้นไม้ตัดสินใจ ที่จะประกอบด้วยโหนดรากโหนดใบ น้ัน จะมีจานวนก่ิงก้านข้ึนอยู่กับลักษณะของค่าในแอตตริบิวต์ข้อมูลท่ีนามาวิเคราะห์ซงึ่ อาจแตกออกเปน็ 2 กงิ่ (Binary / Two-way Split) หรอื แตกออกเปน็ หลายก่ิง (Multi-way Split)น่นั เอง เหมอื งขอ้ มลู เบอ้ื งตน้

140 การทาเหมอื งข้อมลู จาแนกประเภท ยกตัวอย่างเช่น จากข้อมูลตัวอย่างข้อมูลลูกค้าท่ีซ้ือแพคเกจสมาชิกศูนย์สุขภาพซึ่งประกอบไปด้วยแอตตริบิวต์แบบนามบัญญัติ แบบลาดับ และแบบต่อเนื่อง เมื่อนามาวิเคราะห์ขอ้ มูลแลว้ อาจสามารถสร้างเป็นตวั แบบต้นไมต้ ัดสนิ ใจ ไดด้ ังภาพที่ 7-5 ra.ac.thภาพที่ 7-6 ตัวอยา่ งต้นไมต้ ัดสินใจ (Decision Tree) k.chandลักษณะสาคัญอันเป็นจุดเด่นของการสร้างโมเดลด้วยเทคนิคต้นไม้ตัดสินใจ คือเป็นเทคนิคท่ีง่ายต่อการทาความเข้าใจ เห็นผลลัพธ์ชัดเจนในรูปภาพแผนภาพ โดยสามารถแปลงไปเป็นกฎ และ ชุดคาสั่งได้ง่าย รวมถึง สามารถนาไปประยุกต์ใช้กับการเขียนคาส่ัง SQL สาหรับการjmค้นหาขอ้ มูลไดโ้ ดยตรง โดยมคี วามแม่นยาสงู สาหรับขั้นตอนการสร้างตัวแบบต้นไม้ตัดสินใจ นั้นมีข้ันตอนโดยเริ่มจากการค้นหาและคัดเลือกแอตตริบิวต์ท่ีเหมาะสมจะเป็นหลัก ด้วยการโดยพิจารณาจากค่าของข้อมูลที่ปรากฎในAttribute ว่ามีความเหมือนกัน (Homogeneous) หรือ มีความแตกต่างกัน (Non-Homogeneous)เพื่อคัดเลือกเป็น Attribute สาหรับ Root Node และทาการค้นหา Attribute ที่เหมาะสมจะเป็นBranch ถัด ๆ ไป ด้วยการคานวณหาค่าบ่งช้ีคุณลักษณะท่ีอาจมีชื่อเรียก และวิธีการคานวณหาค่าแตกต่างกันไป ตามแต่ละเทคนิค พิจารณา Branch ของ Node ว่าต้องมี Node ย่อยอย่างไร และLeaf Node ไปจนกว่าจะพบว่าทุก Node น้ันมีค่าของ Attribute เหมือนกัน กล่าวคือ ถูกจัดอยู่ในประเภท (Class) เดียวกนั จึงจะเสรจ็ สน้ิ การสร้างตน้ ไม้ตัดสนิ ใจ โดยจะสิ้นสดุ ที่ Leaf Node เทคนิค หรือ อัลกอริทึม สาหรับการสร้างตัวแบบต้นไม้ตัดสินใจ ที่นิยมใช้ในปัจจุบันนั้นมหี ลากหลายเทคนคิ วิธดี ว้ ยกนั เชน่ ID3 C4.5 หรอื J48 ซึง่ ในบทนจ้ี ะขออธบิ ายรายละเอียดหลักการวิธีสร้างตัวแบบต้นไม้ตัดสินใจด้วยเทคนิค J48 และจะยกตัวอย่างด้วยวิธีการสร้างตัวแบบต้นไม้ตัดสนิ ใจดว้ ย J48 และ ID3 ดว้ ย WEKA ในสว่ นถัดไปเหมอื งข้อมูลเบอื้ งต้น

การทาเหมืองขอ้ มลู จาแนกประเภท 141 สาหรับเทคนิค J48 เป็นเทคนิคการสร้างตัวแบบต้นไม้ตัดสินใจ โดยการพิจารณาค่าบง่ ช้ีความเหมาะสมของ Attribute จะเรยี กวา่ Gini (Gini Index) ซึ่งสามารถคานวณไดจ้ าก n Gini(ti )  1  [ p(ti )]2 i 1เมือ่ Gini(ti) คือ ค่าบง่ ชี้ความเหมาะสมของคา่ ใน Attribute ti คอื คา่ ใน Attribute n คอื จานวนค่าแบง่ ประเภทขอ้ มลู ท่ีพบรว่ มกบั คา่ ใน Attribute p(ti) คือ ความถี่ของประเภทขอ้ มลู ทพี่ บร่วมกบั ค่าใน Attribute และ คานวณหาค่าตัวบ่งช้ีในการจาแนกประเภทของชุดข้อมูล หรือ GiniSplitโดย Attribute ท่มี ีคา่ นอ้ ยทส่ี ดุ ถือวา่ มีอานาจในการจาแนกประเภทได้ดที ่ีสดุ ซง่ึ คานวณได้จากjmk.chandra.ac.thGiniSplit(T)N1Gini(t1) N2Gini(t2 )  ... NkGini(tk ) N N Nเมื่อ Ginisplit(T ) คอื คา่ ตัวบ่งช้ีในการจาแนกประเภทของ Attribute Gini(ti) คือ ค่าบง่ ชี้ความเหมาะสมของค่าใน Attribute N1..k คอื จานวนค่าแบง่ ประเภทขอ้ มลู ท่พี บร่วมกบั ค่าใน Attribute N คือ จานวนคา่ ทง้ั หมดที่พบในชดุ ข้อมูลตัวอย่างที่ 7-1 การวิเคราะห์ข้อมูลลูกค้าท่ีซื้อแพคเกจของศูนย์สุขภาพ เพ่ือค้นหาคุณลกั ษณะในการจาแนกประเภทลูกค้าท่ีคาดว่าจะซื้อแพคเกจ และ ไม่ซ้อื แพจเกจ ดว้ ยเทคนิค J48ตารางท่ี 7-1 ข้อมูลลกู ค้าท่ซี ้ือแพคเกจของศูนยส์ ุขภาพAge Gender Income Credit_Rating Buys_Package≤ 30 Female High Fair No≤ 30 Female High Excellent No31-40 Female High Yes >40 Female Medium Fair Yes >40 Low Fair Yes >40 Male Low Fair No31-40 Male Low Excellent Yes≤ 30 Male Medium Excellent No≤ 30 Female Low Fair Yes >40 Male Medium Fair Yes≤ 30 Male Medium Fair Yes31-40 Male Medium Excellent Yes31-40 Female High Excellent Yes >40 Male Medium Fair No Female Excellent เหมอื งขอ้ มูลเบื้องต้น

142 การทาเหมืองข้อมูลจาแนกประเภท จากข้อมูลข้างต้น ทาการคานวณหาค่า Gini (Gini Index) และ GiniSplit ของแต่ละAttribute เพ่ือคดั เลอื ก Attribute ทเี่ หมาะสมจะเปน็ Root Node โดยคานวณดังนี้ k.chandra.ac.thภาพท่ี 7-7 ตัวอย่างการคานวณหาคา่ Gini (Gini Index) และ GiniSplit ของเทคนคิ J48 jmจากภาพเม่ือพิจารณาค่า GiniSplit ของแต่ละ Attribute พบว่า Age เป็น Attribute ที่มีค่าGiniSplit น้อยที่สุด คือ 0.343 จึงเหมาะสมอย่างย่ิงที่จะเลือกเป็น Root Node และเม่ือพิจารณาค่าของ Attribute ซ่ึงเป็น Branch ของ Node ท้ัง 3 ค่านั้น พบว่าที่ช่วงอายุ 31-40 ปี มีค่าจาแนกประเภทไม่แตกต่างกันคือ ซ้ือแพคเกจท้ังหมด (Buys_Package มีค่าเป็น Yes) จึงสามารถระบุ LeafNode ของค่าชว่ งอายุ 31-40 ปี ไดเ้ ป็น Yes ทาให้เหลือเพยี ง 2 Branch ท่ีต้องพิจารณาตอ่ ภาพที่ 7-8 การคัดเลือก Age เปน็ Root Node และสร้าง Leaf Node ใหแ้ กช่ ุดข้อมลูเหมอื งขอ้ มูลเบอื้ งตน้


Like this book? You can publish your book online for free in a few minutes!
Create your own flipbook