Important Announcement
PubHTML5 Scheduled Server Maintenance on (GMT) Sunday, June 26th, 2:00 am - 8:00 am.
PubHTML5 site will be inoperative during the times indicated!

Home Explore IntroductiontoDataMining (Edition 2015)

IntroductiontoDataMining (Edition 2015)

Published by Jamornkul Laokietkul, 2016-02-25 07:39:05

Description: IntroductiontoDataMining

Keywords: Data mining

Search

Read the Text Version

การทาเหมืองขอ้ มลู จาแนกประเภท 143 จากนั้นทาการพิจารณาหา Node ที่เหมาะสมจะต่อจาก Branch โดยพิจารณาไปทีละ Branch โดยจับคู่กับ Attributes ที่เหลืออยู่ เพื่อคานวณหาค่า Gini (Gini Index) และGiniSplit ทเ่ี หมาะสมทีส่ ดุ อกี ครงั้ เรม่ิ จาก Branch : ≤30 jmk.chandra.ac.thภาพที่ 7-9 การคัดเลือก Attribute ต่อจาก Branch: ≤30 ของ Node: Age เมื่อพิจารณาค่า GiniSplit ท่ีเหมาะสมต่อจาก Branch: ≤30 พบว่า Gender มีค่าน้อยที่สุด(0) และเม่ือพิจารณาค่าในแต่ละ Branch ของ Gender พบว่ามีค่าจาแนกประเภทเหมือนกัน คือFemale จะไม่ซื้อแพคเกจ (No) และ Male จะซ้ือแพคเกจ (Yes) ดังน้ันจึงสามารถระบุเป็นLeaf Node ได้เลย ภาพท่ี 7-10 การระบุ Leaf Node ตอ่ จาก Branch: ≤30 ของ Node: Gender เหมอื งขอ้ มูลเบอ้ื งตน้

144 การทาเหมืองข้อมลู จาแนกประเภท คานวณหาค่า Gini (Gini Index) และ GiniSplit ที่เหมาะสมที่สุดอีกครั้ง เพ่ือพิจารณาBranch ถดั ไปของ Age คือ >40 jmk.chandra.ac.thภาพที่ 7-11 การคัดเลือก Attribute ตอ่ จาก Branch: >40 ของ Node: Age เมือ่ พจิ ารณาค่า GiniSplit ทเ่ี หมาะสมต่อจาก Branch: >40 พบว่า Credit มคี ่าน้อยที่สดุ (0)และเมื่อพิจารณาค่าในแต่ละ Branch ของ Credit พบว่ามีค่าจาแนกประเภทไม่แตกต่างกัน คือCredit: Excellent จะไม่ซื้อแพคเกจ (No) และ หาก Credit: Fair จะซ้ือแพคเกจ (Yes) ดังนั้นจึงสามารถระบุเป็น Leaf Node ได้เลย และเมอ่ื ทุกกง่ิ มกี ารระบุ Leaf Node ทง้ั หมดแล้วจึงเสรจ็ สน้ิ การสรา้ งต้นไม้ตัดสนิ ใจ จากตวั แบบตน้ ไม้ตดั สินใจที่ได้ สามารถนาไปใช้ในการทานายลกู คา้ รายใหม่ ทจี่ ะเข้ามาสมัครเป็นสมาชิกศูนย์สุขภาพได้ต่อไป โดยอาจนามาแปลงเป็นกฎ หรือ ต่อยอด สร้างเป็นชุดคาสั่งของซอฟต์แวร์เพ่ือแนะนาแพคเกจแก่ลูกค้าท่ีคาดวา่ จะสมัครสมาชกิ ไดต้ อ่ ไปเหมอื งขอ้ มูลเบ้อื งตน้

การทาเหมืองข้อมลู จาแนกประเภท 145 ภาพท่ี 7-12 ตัวแบบต้นไมต้ ัดสนิ ใจของการเลอื กซ้ือแพคเกจของศนู ยส์ ุขภาพ นอกจากเทคนิค J48 ท่ีได้ยกตัวอย่างแล้ว ยังมีเทคนิค ID3 หรือ C4.5 ที่ได้รับความนิยมในการสร้างต้นไม้ตดั สนิ ใจ โดยการคานวณหาค่าความยงุ่ เหยิงของชุดขอ้ มลู หรือ Entopy จากสมการ n ra.ac.thEntopy(ti) 1 [ p(ti)]log2 p(ti) i0 เม่ือ Entopy(ti) คือ ค่าความยงุ่ เหยิงของชุดขอ้ มูล k.chandti คือ Attribute และ n คอื จานวนค่าแบ่งประเภทข้อมูลทพ่ี บในชุดข้อมูล และอาศัยหลักการพิจารณา Root Node Branch และ Leaf Node เฉกเช่นเดียวกันกับjmเทคนิค J48 ซง่ึ สาหรับวธิ ีการสรา้ งตัวแบบต้นไมต้ ัดสินใจด้วย WEKA โดยใชเ้ ทคนิค ID3 นี้ จะอธบิ ายข้ันตอนวธิ ีการในสว่ นถัดไป และนอกจากตัวแบบต้นไม้ตัดสินใจแล้ว การทาเหมืองข้อมูลจาแนกประเภทน้ัน ยังมีเทคนิคท่มี ีผูค้ ดิ คน้ ขึ้นโดยประยุกต์ทฤษฎหี ลักการทางคณติ ศาสตร์ สถิติ หรอื วิธกี ารอื่น ๆ อีกมากมาย เชน่ (2) การเรียนรแู้ บบเบย์ การเรียนรู้แบบเบย์ หรือ นาอีฟ เบย์ (Naive Bayes) เป็นที่รู้จักกันว่า ทฤษฏีของเบย์(Bayesian Theory) หรือ ทฤษฎีความน่าจะเป็นแบบเบยส์ ( Bayesian Probability Theory)เป็นเทคนิควิธีอาศัยหลักการความน่าจะเป็นในการจาแนกชุดข้อมูล ซึ่งตามหลักการของเบย์ เชื่อว่าการหาความน่าจะเป็นของเหตุการณ์ที่สนใจเม่ือทราบข้อมูลเพ่ิมเติม ซึ่งก็คือ ความน่าจะเป็นท่ีมีเงื่อนไข โดยท่ัวไปความน่าจะเป็นที่มีเง่ือนไขสามารถประยุกต์ใช้กับปัญหาต่างๆ ได้ เช่น ผู้ลงทุนในตลาดหลักทรัพย์ได้แบ่งสรรเงินลงทุนของเขาในกิจการต่างๆ ไว้ด้วยความน่าจะเป็นที่แตกต่างกันดังน้ัน ผู้ลงทุนรายน้ีอาจจะมีการเปลี่ยนแปลงการแบ่งสรรเงินลงทุนต่างๆ ด้วยความน่าจะเป็นท่ีเปลย่ี นไป ถ้าเขาทราบวา่ ราคาห้นุ ในตลาดโลกมรี าคาลดลงมาก เป็นต้น เหมืองขอ้ มูลเบอ้ื งต้น

146 การทาเหมอื งข้อมลู จาแนกประเภท โดย ทฤษฎขี องเบย์ กาหนดให้ B1, B2, B3,... แทนเหตกุ ารณ์ที่จะเกิดข้นึ ในเหตุการณ์ท้งั หมดและถา้ A เป็นเหตุการณใ์ ดๆ ที่ P(A)  0 (หมายความวา่ เหตกุ ารณ์ A จะตอ้ งเกดิ ขน้ึ เสมอ)P(Bi | A)  P(Bi )P( A | Bi )   P(Bj )P( A | Bj ) j 1เมื่อ P(Bi) แทนความน่าจะเป็นของเหตุการณ์ท่ีเป็นไปได้ก่อนทราบ ข้อมูล (Prior probability)P(Bi' A) แทนความน่าจะเป็นของเหตุการณ์ท่ีเป็นไปได้หลังทราบข้อมูล หรือ ความน่าจะเปน็ โดยประสบการณ์ (posterior probability) และ P(A'Bi) แทนความนา่ จะเป็นของเหตุการณ์ A ภายใตข้ ้อสมมติวา่ ส่วนยอ่ ย Bi ได้ เกิดขน้ึ จากทฤษฎีของเบย์ข้างต้นนั้น เม่ือนามาพิจารณากับการวิเคราะห์ทาเหมืองข้อมูลกับชุดข้อมูลra.ac.thสาหรับการเรียนรู้นั้น แต่ละเหตุการณ์ คือ ค่าใน Attribute ท่ีจะเกิดข้ึนน้ันมีความเป็นอิสระต่อกันดงั นน้ั จงึ วิเคราะห์กระทงั่ ได้สมการสาหรับการเรยี นรูแ้ บบเบย์ เป็น 2 กรณี คอื k.chandP(A | B)  P(A1 | B) P(A2 | B)... P(Am | B) jmP(B | A)  P(A1 | B)  P(A2 | B) ... P(Am | B)  P(B) ตัวอย่างท่ี 7-2 การวิเคราะห์ข้อมูลลูกค้าที่ซื้อแพคเกจของศูนย์สุขภาพ ด้วยเทคนิคการเรยี นรู้แบบเบย์ (จากข้อมลู ลกู ค้าศูนย์สขุ ภาพในตารางที่ 7-1)เริม่ จากการคานวณคา่ ความนา่ จะเปน็ ในการซ้ือแพคเกจ (YES) และ ไม่ซอ้ื แพคเกจ ภาพที่ 7-13 การหาความนา่ จะเป็นของการเลือกซื้อแพคเกจของศนู ย์สขุ ภาพเหมอื งข้อมลู เบ้อื งต้น

การทาเหมืองขอ้ มูลจาแนกประเภท 147 จากนั้นทาการคานวณค่าความน่าจะเป็นของค่าในแต่ละ Attribute ได้แก่ Age GenderIncome และ Credit Rating กับการซ้อื แพคเกจ (YES) และ ไมซ่ อื้ แพคเกจ ตามลาดับ jmk.chandra.ac.th ภาพท่ี 7-14 การหาความน่าจะเปน็ ของ Attributes กบั การเลือกซื้อแพคเกจของศนู ยส์ ุขภาพ เหมืองขอ้ มลู เบื้องต้น

148 การทาเหมอื งข้อมูลจาแนกประเภท จากค่าความน่าจะเป็นท่ีคานวณได้นามาสรุปภาพรวม และคานวณเป็นตัวแบบจาแนกประเภทการซอื้ แพคเกจ ดว้ ยเทคนคิ การเรียนร้แู บบเบย์ เพอื่ นาไปใชท้ านายข้อมลู ชุดใหม่ ได้ดังภาพ k.chandra.ac.thภาพที่ 7-15 ตัวแบบการเรียนรูแ้ บบเบย์สาหรบั ทานายการเลือกซ้ือแพคเกจของศนู ยส์ ุขภาพ jmจากภาพหากต้องการทานายลูกค้าคนใหม่ว่าจะซ้ือแพคเกจหรือไม่ หากลูกค้าคนใหม่อายุ 28 ปี (≤30) เพศ ชาย (Male) รายได้ ปานกลาง (Medium) ความน่าเช่ือถือเครดิตปานกลาง (Fair) หากทานายด้วยตัวแบบ โดยแทนค่าความน่าจะเป็นของแต่ละ Attribute ลงในสมการจะได้ P( X | BuyYES )  0.22  0.67  0.44  0.67  0.0435 P( X | Buyno)  0.60  0.20  0.40  0.40  0.0192 ซึ่งทานายได้ว่าลูกค้ามีโอกาสจะซ้ือแพคเกจ เน่ืองจากมีค่าผลลัพธ์จากตัวแบบ (0.0435)มากกวา่ การไม่ซือ้ แพคแกจ (0.0192) น่นั เองเหมอื งข้อมลู เบือ้ งต้น

การทาเหมืองข้อมลู จาแนกประเภท 149 (3) โครงขา่ ยประสาทเทยี ม โครงข่ายประสาทเทียม (Neural Network) เป็นเทคนิควิธีอาศัยหลักการความน่าจะเป็น ผนวกรวมกับหลักการของโครงข่ายประสาทของมนุษย์ ในการเรียนรู้และจดจาโดยนามาประยกุ ต์ใช้ในการจาแนกชดุ ข้อมลู โครงข่ายประสาทเทียม เป็นถอื เป็นแนวคิดในการควบคุมการทางานของคอมพิวเตอร์ ให้ทางานในเลียนแบบลักษณะสั่งการของสมอง และระบบประสาทของมนุษย์ โดยปรับเปลี่ยนแนวคิดหลักการจากการประมวลผลตามลาดับ (SequentialProcessing) ใหเ้ ปน็ การประมวลผลแบบคขู่ นาน (Parallel Processing) รปู แบบของตัวแบบโครงขา่ ยประสาทเทียม ท่ีเป็นท่ีนิยมในการวิเคราะห์ทาเหมืองข้อมูล คือโครงข่ายประสาทเทียมแบบลาดับชั้น (Layered Perceptron) โดยจะมีลักษณะเป็นโครงสร้างกลุ่มของ Node ท่ีเชื่อมโยงถึงกันในแต่ละระดับช้ัน (Layer) โดยแบ่งเป็น 3 ระดับชั้นได้แก่ 1) ระดับภายนอก หรือ ระดับข้อมลู นาเขา้ (Input Layer) ซงึ่ ประกอบไปดว้ ยโหนด (Node) ที่แทน Attributeของชุดข้อมูลสาหรับการเรียนรู้ ท่ีนาเข้าสู่กระบวนการวิเคราะห์ 2) ระดับภายใน (Hidden Layer)ra.ac.thท่ปี ระกอบดว้ ย Node จานวนเทา่ กบั Attribute ทั้งหมด (นับรวม Attribute สาหรบั จาแนกประเภท)หารด้วย 2 และ 3) ระดับผลลัพธ์ (Output Layer) คือ Node ท่ีจาแนกประเภทข้อมูล หมายถึงในระดับผลลัพธ์จะมีเพียง Node เดียวเท่านั้น โดยมีเส้นเช่ือมโยงระหว่างโหนดในแต่ละลาดับช้ันเข้าjmk.chandดว้ ยกันในรูปแบบจากภายนอก ส่ภู ายใน และผลลัพธ์ ตามลาดบั ภาพที่ 7-17 แสดงตวั อย่างโครงขา่ ยประสาทของมนุษยแ์ ละโครงขา่ ยประสาทเทียม เหมอื งขอ้ มูลเบอ้ื งต้น

150 การทาเหมืองข้อมูลจาแนกประเภท หลักการทางานของโครงข่ายประสาทเทียม จะเริ่มกระบวนการโดยกาหนดให้แต่ละส่วนประมวลผล (Process) ทาหน้าท่ีรับค่าข้อมูล (Input) เข้าสู่กระบวนการคานวณ ประมวลผล โดยการเชื่อมโยงและพิจารณาลาดับความสาคัญของค่าข้อมูลท่ีรับเข้า ท่ีอาจมีระดับความสาคัญแตกต่างกัน และทาการสร้างผลลัพธ์ (Output) ซึ่งค่าของผลลัพธ์ท่ีได้จากการเชื่อมโยงกันน้ี จะถูกนามาเปรียบเทียบกับผลลัพธ์ท่ีแท้จริง เพ่ือตรวจสอบประมาณความคลาดเคล่ือน และนาไปสู่การปรับค่าหรอื น้าหนกั (weight) ของคา่ ขอ้ มลู นาเขา้ จนกว่าจะอยใู่ นเกณฑ์ที่ยอมรบั ได้การสร้างตัวแบบจากวิธีโครงข่ายประสาทเทียมน้ี ทาได้โดยการคานวณค่าผลรวม (Sum)ของ Input ท่ีเข้าสู่ Node ต่าง ๆ ในแต่ละ Layer รวมถึงคานวณหาค่าผลลัพธ์ (Active Function)ตามลาดับ จากน้ันจึงคานวณหาค่าความคลาดเคล่ือน (Error) ของผลลัพธ์ท่ีได้ เพื่อพิจารณาปรับคา่ น้าหนักระหว่าง Node ในระดับ Layer ตา่ ง ๆ ให้มีความคาดเคล่ือนในการทานายนอ้ ยทสี่ ุด หรือให้อยู่ในเกณฑ์ท่ียอมรับได้ ซ่ึงเป็นวิธีการที่เรียกว่าการพิจารณาย้อนกลับ หรือ Back Propagationk.chandra.ac.thเมอื่ Xi Wij jmajซงึ่ อาจทาไดโ้ ดยการคานวณคา่ ผลรวม (Sum) ของ Input ทีเ่ ขา้ สู่ Node ไดด้ ังสมการ n X i  Wija j  Wclass i 1 แทนค่าผลรวมของชุดข้อมูล Input แทนค่าน้าหนกั ทกี่ าหนดขนึ้ ในการเชอื่ มโยงแต่ละ Node และ แทนค่าของ Node (Attribute) คานวณค่าผลลัพธ์จาก Node ใน Hidden Layer (Active Function) ที่อยู่ในลักษณะSigmoid function ไดจ้ ากสมการ f ( X i )  1 1 x  eเม่ือ Xi แทนค่าผลรวมของชดุ ขอ้ มูล Input ทีค่ านวณได้เหมืองข้อมลู เบอ้ื งต้น

การทาเหมืองข้อมูลจาแนกประเภท 151 จากน้ัน จะต้องทาการคานวณค่าความคลาดเคล่ือน เพ่ือนาไปพิจารณาปรับค่าน้าหนักระหว่าง Node ไปจนกวา่ จะมคี วามคาดเคลอ่ื นนอ้ ยทีส่ ุด หรอื อยู่ในระดบั ที่ยอมรับได้ โดยสมการ Errori  Outputi (1  Outputi )(Actuali  Outputi ) เม่อื Errori แทนค่าความคลาดเคลอื่ นของ Output ท่ีได้จาก Output Node Outputi แทนคา่ Output ท่ีไดจ้ าก Output Node และ Actuali แทนคา่ ข้อมูลจริง และทาการปรับค่าน้าหนักระหว่าง Node ไปจนกว่าจะมีความคาดเคลื่อนน้อยที่สุด หรืออยู่ในระดบั ท่ียอมรับได้ โดยสมการเม่อื Wij jmk.chandra.ac.thWij  wij  L Errorj Outputi แทนค่านา้ หนักระหวา่ ง Node (i และ j) หลงั ปรบั คา่ wij แทนคา่ น้าหนกั เดมิ ระหวา่ ง Node (i และ j) L แทนคา่ คงที่ ท่ีกาหนดเพื่อปรบั คา่ นา้ หนัก (Learning Rate)Errori แทนคา่ ความคลาดเคลอ่ื นของ Output ทไี่ ดจ้ าก Output NodeOutputi แทนคา่ Output ทไ่ี ด้จาก Output Node1.1.1 ตัวอย่างท่ี 7-3 การวิเคราะห์ข้อมูลลูกค้าท่ีซ้ือแพคเกจของศูนย์ สุขภาพ (ข้อมูลผ่านข้ันตอนการจัดเตรียม และปรับรูปแบบให้เป็นNumeric มคี ่าระหวา่ ง 0-1) ดว้ ยโครงข่ายประสาทเทยี มภาพที่ 7-18 แสดงชุดขอ้ มลู และคา่ น้าหนักสาหรบั วิเคราะหข์ อ้ มูลด้วยโครงข่ายประสาทเทยี ม เหมืองขอ้ มูลเบ้อื งต้น

152 การทาเหมืองข้อมูลจาแนกประเภท จากชุดข้อมูล และค่าน้าหนักที่กาหนดไว้ นามาแทนค่าเพ่ือคานวณหาค่า Sum ของ Inputแต่ละชุดท่ีเข้าสู่แต่ละ Node ใน Hidden Layer และหาค่า Active Function ซ่ึงเป็นค่า Outputของแตล่ ะ Node ใน Hidden Layer ไดด้ ังปรากฎในภาพ k.chandra.ac.thภาพที่ 7-19 แสดงการคานวณหาคา่ Sum และ Active Function ของ Hidden Node 1 jmหลงั จากได้ค่า Active Function ซ่ึงเปน็ คา่ Output จากแต่ละ Hidden Node แลว้ จึงนาไปเป็น Input สาหรบั Output Layer เพอื่ ทาการคานวณหาคา่ ผลลัพธ์จาก Output Node ต่อไป ภาพท่ี 7-20 แสดงการคานวณหาคา่ Sum และ Active Function ของ Hidden Node 1เหมืองขอ้ มลู เบอื้ งต้น

การทาเหมืองข้อมลู จาแนกประเภท 153 หลังจากได้ค่า Active Function ซึ่งเป็นค่า Output ของ Output Layer แล้ว จากนั้นจึงนามาคานวณหาค่า Error เพ่ือหาค่าความคลาดเคล่ือนจากความเป็นจริง และคานวณเพื่อทาการปรับค่าน้าหนัก ตามค่าคงท่ี ท่ีได้กาหนดไว้เพ่ือการเรียนรู้ ดังเช่น ในตัวอย่างนี้ หากกาหนดคา่ Learning Rate ไว้ที่ 0.2 จะสามารถคานวณหาค่าน้าหนกั ใหมไ่ ด้ดงั ภาพ jmk.chandra.ac.thภาพท่ี 7-21 แสดงการคานวณหาคา่ ความคลาดเคลอ่ื น และการปรบั ค่านา้ หนัก แบบย้อนกลับ ภายหลังจาก ดาเนนิ การปรับคา่ น้าหนักแล้ว จงึ ทาการ วนซ้ากลบั ไป เพอื่ คานวณหาค่า Sumสาหรบั Input และ Active Function สาหรบั Output ของแตล่ ะ Node ในแต่ละ Layer อกี คร้งัโดยจะเป็นการดาเนินการแบบ Back Propagation ซง่ึ ในท้ายทส่ี ุดจงึ จะได้ตวั แบบทีม่ กี ารกาหนดคา่ น้าหนกั ระหว่าง Node ตามเกณฑท์ ่ียอมรบั ได้ เพอื่ นาไปประยุกตใ์ ชใ้ นการคาดการณ์ ทานายข้อมูลชดุ ใหมไ่ ด้ต่อไป โดยมตี วั อยา่ งของตัวแบบโครงข่ายประสาทเทียมสาหรับจาแนกประเภทผู้ซ้ือแพคเกจ ดังภาพ เหมอื งข้อมลู เบือ้ งตน้

154 การทาเหมอื งข้อมลู จาแนกประเภท ภาพที่ 7-22 แสดงตัวอยา่ งตัวแบบท่ไี ด้จากเทคนิคโครงข่ายประสาทเทียม ra.ac.thนอกเหนือจากทั้ง 3 เทคนิควิธีการสร้างตัวแบบพื้นฐาน ที่ได้กล่าวถึงไปแล้วน้ัน ในปัจจุบันยังมีวิธีการสร้างตัวแบบสาหรับการวิเคราะห์ทาเหมืองข้อมูลจาแนกประเภท ที่มีผู้วิจัยคิดค้นข้ึนk.chandอกี มากมาย 2) การประเมินตัวแบบ jmการประเมินตัวแบบ (Model Evaluation) เป็นขั้นตอนตรวจสอบความถูกต้องโดยอาศัยชุดข้อมูลสาหรับทดสอบ (Testing Data Sets) ซึ่งเป็นชุดข้อมูลท่ีได้ถูกรวบรวมมา และกันเอาไว้ใช้สาหรับการทดสอบ โดยนามาเปรียบเทียบกับประเภทข้อมูล ท่ีได้ผลลัพธ์จาแนกจากตัวแบบ หรือ โมเดล ว่าสามารถจัดกลุ่มประเภทข้อมูลได้อย่างถูกต้องมากน้อยเพียงใด โดยวิธีการวัดประเมินประสิทธิภาพ เช่น การคานวณหาค่าความแม่นยา (accuracy) และทาการปรับปรุงโมเดลจาแนกประเภทจนกว่าจะได้ค่าความถูกต้องอยู่ในระดับทย่ี อมรับได้ วธิ ีการประเมินและการวดั ประสทิ ธภิ าพตัวแบบนัน้ สามารถทาไดห้ ลายวิธี ได้แก่ (1) Confusion Matrix คือการประเมินผลลัพธ์การทานาย ท่ีได้จากการสร้างตัวแบบนามาเปรียบเทียบกับผลลัพธ์จริงๆ ในรูปแบบของตาราง ซ่ึงประกอบด้วย แถว และ คอลัมน์ตามค่าประเภทของข้อมูล (Class) ถือเป็นข้ันตอนเบื้องต้นในการเปรียบเทียบผลลัพธ์ของการทานายกบั ข้อเท็จจรงิ เพื่อประเมินตัวแบบเหมอื งข้อมูลเบือ้ งตน้

การทาเหมืองขอ้ มูลจาแนกประเภท 155ตารางที่ 7-2 รปู แบบ Confusion MatrixActual ClassPredicted Class Class1 Class2 … Class1 Class2 TP FN FP TN … โดยมีนยิ ามดงั น้ี TP : True Positive หมายถึง จานวนชุดข้อมูลที่ตัวแบบทานายถูก คือ ระบุว่าจัดอยู่ในค่า ประเภทขอ้ มลู ซง่ึ ตรงกบั ผลของความเป็นจรงิ TN : True Negative หมายถึง จานวนชุดข้อมูลที่ตัวแบบทานายถูก คือ ระบุว่าไมจ่ ัดอยู่ใน คา่ ประเภทขอ้ มลู ซ่ึงตรงกบั ผลของความเปน็ จริง ra.ac.thFP : False Positive หมายถึง จานวนชุดข้อมูลท่ีตัวแบบทานายไม่ถกู คือ ระบุว่าจัดอยู่ใน คา่ ประเภทขอ้ มลู ทไ่ี มต่ รงกบั ผลของความเปน็ จรงิ FN : False Negative จานวนชุดข้อมูลที่ตัวแบบทานายไม่ถูก คือ ระบุว่าไม่จัดอยู่ในค่า k.chandประเภทขอ้ มลู ทไ่ี มต่ รงกับผลของความเป็นจรงิ (2) Accuracy คือ วิธีการประเมินผลลัพธ์การทานายของตัวแบบ ด้วยการวัดค่าjmความถูกตอ้ ง ด้วยการนับจานวนคร้งั ท่ีตัวแบบทานายค่าประเภทขอ้ มูลถูก คือ ระบุค่าจาแนกประเภทได้ตรงกับความเป็นจริง เปรียบเทียบกับจานวนข้อมูลที่ทดสอบท้ังหมด คิดเป็นค่าร้อยละของความถูกต้อง ซ่ึงสามารถเขยี นเปน็ สมการ Accuracy  (TP  TN ) (TP  TNFP FN ) (3) Precision คือ วิธีการวัดความแม่นยาของตัวแบบ โดยพิจารณาแต่ละค่าจาแนกประเภท Pr ecision  TP (TP FP) เหมอื งขอ้ มูลเบื้องต้น

Actual Class156 การทาเหมอื งข้อมลู จาแนกประเภท (4) Recall หรือ Sensitivity คือ วิธีการวัดความถูกต้องของตัวแบบ โดยพิจารณาว่าตัวแบบนั้นมีความสามารถในการทานายค่าแต่ละประเภทได้ถูกต้อง (TP ) เป็นอัตราส่วนเท่าไรของคา่ จริงทงั้ หมด ซ่งึ จะต้องพิจารณาแตล่ ะคา่ จาแนกประเภทเช่นกนั Re call  TP (TP FN ) (5) Specificity คือ วิธีการวัดความถูกต้องของตัวแบบ ลักษณะเฉกเช่นเดียวกับRecall หากแต่จะพิจารณาจานวนชุดข้อมูลท่ีตัวแบบทานายถูก ในลักษณะท่ี ระบุว่าไม่จัดอยู่ในค่าประเภทข้อมูล ซึ่งตรงกับผลของความเป็นจริง (TN ) เปรียบเทียบกับจานวนชุดข้อมูลท่ีเป็นค่าจริงทงั้ หมด Specificity  TN (TN FP) ra.ac.th(6) F-Measure คือ วิธีการวัดความถูกต้องของตัวแบบ โดยพิจารณาค่า Precisionและ Recall ร่วมกนั k.chandF  Measure  2 Precision Recall Pr ecision  Recall จากตัวอย่างข้อมูลการซ้ือแพคเกจของสมาชิกศูนย์สุขภาพ เมื่อนามาประเมินความถูกต้องjmของตวั แบบอาจไดผ้ ลลพั ธ์ดงั นี้ ตัวอย่างท่ี 7-4 หากต้องการประเมินตัวแบบสาหรับการทานายการซื้อแพคเกจของลูกค้าศูนย์สุขภาพ ว่ามีประสิทธิภาพอย่างไร โดยใช้ชุดข้อมูลทดสอบจานวน 8,000 ชุด ทาการทดสอบผลการทานายของตัวแบบเปรียบเทียบกบั ชดุ ขอ้ มลู จรงิ โดยมีผลดงั ปรากฏในตารางตารางท่ี 7-3 ตวั อย่าง Confusion Matrix ท่ีไดจ้ ากตวั แบบเหมอื งขอ้ มลู จาแนกประเภท Predicted Class Buy_Package YES (Class1) NO (Class2) Total YES (Class1) 5,946 (TP ) 54 ( FN ) 6,000 NO (Class2) 488 ( FP ) 1,512 (TN ) 2,000 Total 6,434 1,566 8,000เหมอื งขอ้ มูลเบ้อื งต้น

การทาเหมืองขอ้ มลู จาแนกประเภท 157 ทาการประเมินตัวแบบ ว่ามีประสิทธิภาพในการทานายการซ้ือแพคเกจ ได้โดยคานวณค่าต่างๆ ได้ดงั น้ี Accuracy  7,458  0.932 8,000 หมายถงึ ประสิทธิภาพความถกู ต้องในการทานายการซ้ือแพคเกจคิดเป็นร้อยละ 93.2 Pr ecision  5,946  0.924 6,434 หมายถงึ ประสิทธิภาพความถูกตอ้ งในการทานายวา่ ลูกคา้ ซ้ือแพคเกจ (YES) เทา่ กบั 0.924 jmk.chandra.ac.thRecall  5,946  0.991 6,000 หมายถงึ ประสิทธิภาพความถกู ต้องในการทานายวา่ ลกู คา้ ซ้ือแพคเกจ (YES) เทา่ กับ 0.756 Specificity  1,512  0.756 2,000 หมายถึง ประสทิ ธิภาพในการทานายลูกค้าทีจ่ ะไม่ซ้อื แพคเกจ (NO) เท่ากบั 0.756 F  Measure  2  0.924  0.991  1.831  0.956 0.924  0.991 1.915 หมายถงึ ประสิทธิภาพความถกู ตอ้ งในการทานายการซ้ือแพคเกจเทา่ กบั 0.956 3) การใช้งานตัวแบบ การใช้งานตัวแบบ (Classification) เป็นขั้นตอนการนาตัวแบบ หรือ โมเดลจาแนกประเภทที่สร้างขึ้นมา ทาการแปลงแบบจาลองท่ีได้ ไปอยู่ในรูปแบบของกฎ หรือ ชุดคาส่ังของโปรแกรม หรือแม้กระทั่ง การนาไปพัฒนาเป็นแอพพลิเคชันส์ ซอฟต์แวร์ สาหรับนามาใช้เพื่อการทานาย และ กาหนดกลมุ่ ประเภทข้อมูล ใหก้ บั ชุดขอ้ มลู ท่ไี ม่เคยพบมาก่อน (Unseen Data) เหมืองข้อมูลเบอ้ื งตน้

158 การทาเหมืองข้อมูลจาแนกประเภทขน้ั ตอนวธิ ีการทาเหมอื งข้อมูลจาแนกประเภทดว้ ย WEKA สาหรับเครื่องมือวิเคราะห์ความสัมพันธ์ใน WEKA นั้น จะอยู่ในส่วนของ Classifyซึ่งจะต้องนาเข้าข้อมูลในส่วนของ Preprocess ก่อน ส่วนการทางานของ Classify จึงจะสามารถใช้งานได้ 1. ตน้ ไมต้ ัดสนิ ใจ ต้นไม้ตัดสินใจ (Decision Tree) เป็นเทคนิควิธี ท่ีได้รับความนิยม ในการทาเหมืองข้อมูลจาแนกประเภท ตัวแบบต้นไม้ตัดสินใจท่ีค้นพบน้ัน จะทาให้ทราบว่าคุณลักษณะใด ท่ีเป็นตัวกาหนดและมีความสมั พันธ์ส่งผลต่อการจาแนกประเภท ซึง่ จะทาให้สามารถใช้คณุ ลักษณะเหล่านั้นในการจาแนกประเภทได้ เทคนิคสาหรับการสร้างตัวแบบต้นไม้ตัดสินใจท่ีได้รับความนิยมใน WEKAได้แก่ J48 และ ID3 1) การใช้งานเทคนิค J48 ใน WEKA ra.ac.thในส่วนของการใช้งานเทคนิค J48 ใน WEKA น้ัน มีขั้นตอนเหมือนการทาเหมืองขอ้ มลู ดว้ ยวธิ ีการอ่ืนๆ โดย (1) เริ่มจากการนาเข้าข้อมูล ในท่ีนี้ใช้ข้อมูลตัวอย่าง WeatherNominal.arffk.chandซึ่งได้ผ่านการปรับค่าของชุดข้อมูลให้มีลักษณะเป็นกลุ่มข้อมูล (Categorical) ก่อนทาการวิเคราะห์jmข้อมลู ไว้แล้ว ดงั ภาพ (สาหรบั การนาเข้าข้อมูลใน WEKA นน้ั ได้กล่าวถงึ ไวใ้ นบทที่ 5) ภาพที่ 7-23 แสดงชุดขอ้ มูลตัวอย่าง WeatherNominal.arffเหมืองข้อมูลเบอ้ื งต้น

การทาเหมืองขอ้ มูลจาแนกประเภท 159 (2) เร่ิมทาการวิเคราะห์ข้อมูลโดยเลือกที่ส่วนการทางาน Classify และกดปุ่มChoose ในส่วนของ Classify เพื่อเลอื กเทคนคิ Trees แบบ J48 jmk.chandra.ac.thภาพท่ี 7-24 แสดงการเลือกเทคนิควิเคราะหข์ ้อมลู J48 (3) กาหนดวิธีการทดสอบชุดข้อมูลว่าต้องการทดสอบแบบใด ในส่วนของ TestOptions ในที่นยี้ กตัวอยา่ งกาหนดให้ทดสอบแบบ Use training set ภาพที่ 7-25 แสดงการเลอื กวธิ ีการทดสอบชดุ ข้อมูลแบบ Use training set เหมืองขอ้ มูลเบ้ืองต้น

160 การทาเหมืองข้อมลู จาแนกประเภท (4) กดปุ่ม Start เพ่ือทาการวิเคราะห์จาแนกประเภทข้อมูล จะปรากฏผลในส่วนClassifier Output k.chandra.ac.thภาพท่ี 7-26 แสดงผลการวิเคราะห์จาแนกประเภทข้อมูลด้วย J48 นอกจากนี้ยังสามารถเรียกดู Decision Tree ได้โดยการคลิ๊กปุ่มขวา (Right-Click) ที่รายการjmใน Result list แล้วเลือกเมนู Visualize tree จะปรากฏ Decision Tree ของขอ้ มลู ภาพท่ี 7-27 แสดงการเลอื กเมนู Visualize tree เพื่อแสดง Decision treeเหมอื งขอ้ มลู เบอ้ื งตน้

การทาเหมืองข้อมลู จาแนกประเภท 161 jmk.chandra.ac.thภาพท่ี 7-28 แสดง Decision tree ทีไ่ ด้จากการวเิ คราะห์ขอ้ มลู 2) การใช้งานเทคนคิ ID3 ใน WEKA ในส่วนของการใชง้ านเทคนคิ ID3 ใน WEKA นน้ั มีขั้นตอนเช่นเดียวกันกบั J48 คอื (1) น า เ ข้ า ข้ อ มู ล เ ริ่ ม จ า ก ก า ร น า เ ข้ า ข้ อ มู ล ใ น ท่ี น้ี ใ ช้ ข้ อ มู ล ตั ว อ ย่ า งWeatherNominal.arff แลว้ (2) จากนั้นเร่ิมทาการวิเคราะห์ข้อมูลโดยเลือกที่ส่วนการทางาน Classify และกดปุ่ม Choose ในส่วนของ Classify เพ่อื เลอื กเทคนิค Trees แบบ ID3 เหมืองขอ้ มูลเบ้ืองต้น

162 การทาเหมืองข้อมูลจาแนกประเภท ra.ac.thภาพท่ี 7-29 แสดงการเลอื กเคร่อื งมือ Classify และเทคนิค ID3 (3) กาหนดวิธีการทดสอบชุดข้อมูลว่าต้องการทดสอบแบบใด ในส่วนของk.chandTest Options ในที่นี้ยกตัวอย่างกาหนดให้ทดสอบแบบ Cross-validation โดยกาหนดจานวนรอบjmหรอื Folds ไว้ที่ 10 รอบ ภาพที่ 7-30 แสดงการกาหนดวิธีการทดสอบชุดข้อมูลเหมอื งข้อมลู เบื้องตน้

การทาเหมืองข้อมลู จาแนกประเภท 163 (4) กดปุ่ม Start เพื่อทาการวิเคราะห์จาแนกประเภทข้อมูล จะปรากฏผลในส่วนClassifier Output โดยแสดงรายละเอียดค่าช้ีวัดความถูกต้องในการจาแนกประเภทขอ้ มูล ไดแ้ ก่ FP,Precision, Recall และ F-Measure เป็นต้น jmk.chandra.ac.thภาพท่ี 7-31 แสดงผลการวเิ คราะหจ์ าแนกประเภทข้อมลู ดว้ ย ID3 2. การเรยี นร้แู บบของเบย์ ในส่วนของการใช้งานเทคนิค Bayes ใน WEKA น้ัน มีข้ันตอนเหมือนการทาเหมืองข้อมูลด้ว ยวิธีการอื่นๆ โดยเร่ิมจากการนาเข้าข้อมูล ในท่ีน้ีใช้ข้อมูลตัวอย่างWeatherNominal.arff ซงึ่ ไดป้ รับค่าของชุดข้อมลู ให้มีลักษณะเป็นกลมุ่ ข้อมลู (Categorical) ก่อนทาการวิเคราะห์ขอ้ มูลไวแ้ ลว้ (1) เร่ิมทาการวิเคราะห์ข้อมูลโดยเลือกที่ส่วนการทางาน Classify และกดปุ่มChoose ในส่วนของ Classify เพือ่ เลอื กเทคนคิ bayes แบบ NaïveBayesSimple เหมืองข้อมลู เบือ้ งตน้

164 การทาเหมืองข้อมลู จาแนกประเภท ra.ac.thภาพท่ี 7-32 แสดงการเลอื กเครือ่ งมือ Classify และเทคนิค NaïveBayesSimple k.chand(2) กาหนดวิธีการทดสอบชุดข้อมูลว่าต้องการทดสอบแบบใด ในส่วนของ TestjmOptions ในที่นีย้ กตวั อย่างกาหนดใหท้ ดสอบแบบ Use training set ภาพที่ 7-33 แสดงการเลือกวธิ ีการทดสอบชดุ ข้อมลู แบบ Use training setเหมืองขอ้ มลู เบอื้ งตน้

การทาเหมืองขอ้ มลู จาแนกประเภท 165 (3) กดปุ่ม Start เพื่อทาการวิเคราะห์จาแนกประเภทข้อมูล จะปรากฏผลในส่วนClassifier Output jmk.chandra.ac.thภาพที่ 3-34 แสดงผลการวิเคราะห์จาแนกประเภทข้อมูลดว้ ย NaïveBayesSimple ก า ร น า ผ ล ก า ร วิ เ ค ร า ะ ห์ ข้ อ มู ล ไ ป ป ร ะ ยุ ก ต์ ใ ช้ จ า ก ผ ล ที่ ไ ด้ พ บ ว่ า ตั ว แ บ บ ข อ งNaïveBayesSimple มีการจาแนกข้อมูลถูกต้อง คิดเป็น 92.8571% โดยมีการจาแนกข้อมูลผดิ พลาดเพยี ง 1 ตวั อย่างเท่านนั้ 3. โครงข่ายประสาทเทียม 1) การใชง้ านเทคนิค Neural Network ใน WEKA ในส่วนของการใช้งานเทคนิค Neural Network ใน WEKA นั้น มีขั้นตอนเหมือนการทาเหมืองข้อมูลด้วยวิธีการอื่นๆ โดย เริ่มจากการนาเข้าข้อมูล ในที่นี้ใช้ข้อมูลตัวอย่างWeather.arff ซึ่งเป็นข้อมูลที่ยังไม่ ปรับค่าของชุดข้อมูล โดยมีข้อมูลอุณหภูมิ (Temparature) และความช้ืน (Humidity) เป็น Numeric เหมืองขอ้ มูลเบอื้ งต้น

166 การทาเหมืองข้อมูลจาแนกประเภท ภาพท่ี 3-35 แสดงชดุ ข้อมลู ตัวอย่าง Weather.arff (1) เร่ิมทาการวิเคราะห์ข้อมูลโดยเลือกที่ส่วนการทางาน Classify และกดปุ่มjmk.chandra.ac.thChoose ในส่วนของ Classify เพ่อื เลือกเทคนคิ function แบบ MultilayerPerceptron ภาพที่ 3-36 แสดงการเลอื กเครือ่ งมอื Classify และเทคนิค MultilayerPerceptronเหมืองข้อมลู เบ้ืองต้น

การทาเหมืองข้อมูลจาแนกประเภท 167 (2) กาหนดวิธีการทดสอบชุดข้อมูลว่าต้องการทดสอบแบบใด ในส่วนของ TestOptions ในทน่ี ้ยี กตัวอย่างกาหนดให้ทดสอบแบบ Use training set ภาพท่ี 3-37 แสดงการเลอื กวธิ ีการทดสอบชดุ ข้อมลู แบบ Use training set jmk.chandra.ac.th(3) กาหนดวิธีการค่าอัตราการเรียน จานวน hidden node และวิธีการแสดงผลโดยคลก๊ิ เลือกทชี่ ือ่ เทคนคิ MultilayerPerceptron เพ่ือกาหนดคา่ คณุ ลกั ษณะ GUI = True เพอ่ื แสดงผล กำหนดจำนวน hidden node กำหนดอตั รำกำรเรยี นรู้ ภาพที่ 3-38 แสดงการคุณลกั ษณะสาหรบั การทดสอบ เหมืองขอ้ มูลเบอ้ื งตน้

168 การทาเหมอื งข้อมลู จาแนกประเภท (4) กดปุ่ม Start เพ่ือทาการวิเคราะห์จาแนกประเภทข้อมูล จะปรากฏผลในส่วนClassifier Output ra.ac.thภาพที่ 3-39 แสดงผลการวิเคราะหจ์ าแนกประเภทขอ้ มลู ด้วย MultilayerPerceptron k.chand2) การใช้งานผลการวิเคราะห์ขอ้ มูลดว้ ย Neural Network ไปประยกุ ตใ์ ช้ การนาผลการวิเคราะห์ข้อมูลด้วยวิธีโครงข่ายประสาทเทียมไปใช้ทานายข้อมูลน้ันjmประยุกต์ใช้ได้โดยจะต้องทาการบันทึกผลการเรียนรู้เพ่ือสร้างโมเดลท่ีได้ก่อน โดยคล๊ิกปุ่มเมาส์ขวา(Right-Click) ทีส่ ่วนการทางาน Result list แล้วเลอื ก save default buffer ตัง้ ชอื่ ไฟล์ท่ตี ้องการ ภาพที่ 3-40 การบันทึกผลการวเิ คราะห์ข้อมูลเพอ่ื นาไปใช้เหมืองข้อมูลเบ้ืองตน้

การทาเหมืองขอ้ มลู จาแนกประเภท 169 เมื่อทาการ Save file โมเดลไว้แล้ว จะสามารถนามาใช้เมื่อมีชุดข้อมูลใหม่ท่ีต้องการทาการวิเคราะห์ ให้นาเข้าชุดข้อมูลในส่วนการทา Preprocess จากน้ัน เลือกส่วนการทางาน Classifyคลิ๊กปุ่มเมาส์ขวา (Right-Click) ที่ส่วนการทางาน Result list แล้วเลือก Load model เลือกไฟล์ที่บันทึกไว้ ra.ac.thภาพที่ 3-41 การเลือกใช้โมเดลท่ี Save ไว้มาใชว้ เิ คราะห์ข้อมลู k.chandจากน้ันกาหนดวิธีการทดสอบชุดข้อมูลวา่ ต้องการทดสอบแบบใด ในส่วนของ Test Optionsในทีน่ ย้ี กตัวอย่างกาหนดใหท้ ดสอบแบบ Supplied test set และ กดทป่ี มุ่ Start เพอื่ ทาการวิเคราะห์jmขอ้ มูล ภาพที่ 9-9 การเลือกใช้โมเดลมาใช้วเิ คราะหข์ ้อมลู เหมอื งขอ้ มลู เบื้องตน้

170 การทาเหมอื งข้อมูลจาแนกประเภทบทสรปุ การทาเหมืองข้อมูลจาแนกประเภท มีวัตถุประสงค์เพื่อวิเคราะห์และจาแนกชุดข้อมูลออกเป็นกลุ่มๆ ตามความต้องการ โดยการค้นหารูปแบบ แพทเทิร์น คุณลักษณะท่ีสามารถจาแนกกลุ่ มข้ อ มูล อ อก เป็ น ป ร ะเ ภ ทต่ าง ๆ จา กชุ ด ข้อ มู ลท่ี ไ ด้เ ก็บ ร ว บ ร ว ม เอ า ไว้ ใ นอ ดี ตเพื่อนาเอารูปแบบที่ค้นพบน้ัน นาไปใช้เป็นตัวแบบในการจาแนกข้อมูล ไว้ใช้ในการทานายประเภท หรือ กลุ่มของข้อมลู ใหม่ (Unseen data) ซงึ่ มักถกู ประยกุ ต์ใช้ประโยชนใ์ นเชิงธุรกิจ ในแวดวงต่าง ๆ ทั้งธุรกิจการเงิน การธนาคาร เช่น การอนุมัติคาขอมีบัตรเครดิต (Credit Approval) หรือในงานด้านการตลาด เช่น การจาแนกกลุ่มลูกค้า เพ่ือการทาตลาดลูกค้ากลุ่มเป้าหมาย (Targetmarketing) รวมไปถึงด้านการแพทย์ เช่น การตรวจวินิจฉัยทางการแพทย์ (Medical Diagnosis)และ การวเิ คราะห์ประสิทธผิ ลการรักษา (Treatment effectiveness analysis) เป็นต้น การทาเหมืองข้อมูลเพื่อจาแนกประเภทน้ัน จัดเป็นการทาเหมืองข้อมูลแบบมีผู้สอนra.ac.th(Supervise Training) หมายถึง จาเป็นจะต้องมีชุดข้อมูลตวั อย่าง เพ่อื นามาแบ่งส่วนขอ้ มลู ด้วยวธิ กี ารต่าง ๆ เช่น วิธีการแบ่งส่วนข้อมูลด้วยการสุ่ม หรือ วิธีการแบ่งส่วนข้อมูลแบบไขว้ เพื่อ ใช้เป็นชุดข้อมูลสาหรับการเรียนรู้ (Training Data Sets) และต้องมีชุดข้อมูลสาหรับการทดสอบk.chand(Testing Data Sets) ไว้เป็นข้อมูลสาหรับการทดสอบ เพื่อยืนยันประสิทธิภาพผลการจาแนกของตัวแบบ โดยลักษณะของข้อมูลที่เหมาะสมสาหรับการทาเหมืองข้อมูลจาแนกประเภทน้ัน สามารถใช้ข้อมูลที่มีลักษณะเป็นค่าต่อเนื่อง (Continuous) คือข้อมูลตัวเลข จานวนจริง (Numeric Data) หรือjmขอ้ มลู ที่มลี กั ษณะเป็นกลุ่มขอ้ มลู (Categorical) คอื ข้อมูลนามบญั ญตั ิ (Nominal Data) ก็ได้ ขั้นตอนการทาเหมืองข้อมูลจาแนกประเภทสามารถแบ่งเป็น 3 ขั้นตอน สาคัญ ได้แก่1) การสร้างตัวแบบ (Model Construction) คือข้ันตอนการสร้างตัวแบบด้วยการวิเคราะห์ชุดข้อมูลสาหรับการเรียนรู้ โดยมีเทคนิคท่ีพื้นฐานนิยมใช้ได้แก่ ต้นไม้ตัดสินใจ การเรียนรู้แบบเบย์ และโครงข่ายประสาทเทียม เป็นต้น 2) การประเมนิ ตัวแบบ (Model Evaluation) คือการนาตวั แบบที่ได้มาวดั ประเมินประสทิ ธภิ าพการจาแนก ดว้ ยชุดข้อมูลสาหรบั การทดสอบ และ 3) การจาแนกประเภทข้อมูล (Classification) คือ การนาเอาตวั แบบทีไ่ ด้ไปใช้งานเหมอื งข้อมูลเบ้ืองตน้

การทาเหมืองข้อมูลจาแนกประเภท 171เอกสารอา้ งอิงกฤษณะ ไวยมัย และ ธีระวัฒน์ พงษ์ศิริปรีดา. “การใช้เทคนิค Association Rule Discovery เพ่ือ การจัดสรรกฎหมายในการพิจารณาคดีความ.” NECTEC Technical Journal. ปีท่ี 3 ฉบบั ที่ 11, (2544) : 143 - 52.ชนวัฒน์ ศรีสอ้าน. ฐานข้อมูล คลังข้อมูล และเหมืองข้อมูล. ปทุมธานี: สานักพิมพ์ มหาวิทยาลัย รงั สิต, 2550.ชิดชนก ส่งศริ ิ, ธนาวินท์ รักธรรมานนท์ และ กฤษณะ ไวยมยั . “การใช้เทคนิคดาต้าไมนน์ ิงเพ่อื พฒั นา คุณภาพการศึกษาคณะวิศวกรรมศาสตร์.” NECTEC Technical Journal. ปีที่ 11 ฉบับที่ 3, 2545 : 134-42.ชินพัฒน์ แก้วชินพร, การจาแนกประเภทข้อมูลด้วยเทคนิคต้นไม้ตัดสินใจและการจัดกลุ่ม. ปริญญานิพนธ์ สาขาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์ สถาบันเทคโนโลยีพระจอม ra.ac.thเกลา้ เจ้าคณุ ทหารลาดกระบงั , 2553อ ดุ ล ย์ ยิ้ ม ง า ม . ก า ร ท า เ ห มื อ ง ข้ อ มู ล Data Mining [อ อ น ไ ล น์ ]. เ ข้ า ถึ ง ไ ด้ จ า ก : k.chandhttp://compcenter.bu.ac.th/index.php?option=com_content&task=view&id=7 5&Itemid=172. (วนั ที่ค้นข้อมูล : 17 มิถนุ ายน 2554)เ อ ก สิ ท ธ์ิ พั ช ร ว ง ศ์ ศั ก ด า . An Introduction to Data Mining Techniques. ก รุ ง เ ท พ : jmบริษัท เอเชีย ดจิ ิตอลการพิมพ์ จากัด, 2557.Bing, L., Wynne, H. and Yiming, M. “Mining Association Rules with Multiple Minimum Supports.” Proceeding of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Diego, 1999.D. J. Hand, H. Mannila, and P. Smyth, Principles of Data Mining. MIT Press, 2001.Linoff, G. and Berry, M. Data Mining Techniques. John Wiley & Sons. , 1997.M. Bramer, Principles of Data Mining. Springer, 2013.Mahapatra, I. and Bose, R. K. Business Data Mining - a Machine Learning Perspective. Information and Management. 39, 2001 : 211-25.WEKA Wiki, Frequently Asked Questions. [อ อ น ไ ล น์ ]. เ ข้ า ถึ ง ไ ด้ จ า ก : http://weka.wikispaces.com. (วนั ทีค่ น้ ขอ้ มลู : 17 มิถนุ ายน 2554) เหมืองข้อมลู เบือ้ งตน้

172 การทาเหมอื งข้อมูลจาแนกประเภทคาถามทบทวน1. การทาเหมอื งขอ้ มูลจาแนกประเภท หมายถงึ2. วิธกี ารแบ่งส่วนขอ้ มลู มกี ี่วธิ ี อะไรบา้ ง3. ขนั้ ตอนการทาเหมืองข้อมูลจาแนกประเภทมีกี่ข้ันตอน อะไรบา้ ง4. จงยกตัวอย่างเทคนคิ สาหรับการทาเหมืองข้อมลู จาแนกประเภท5. การทาเหมืองข้อมูลจาแนกประเภทสามารถนาไปประยุกต์ใช้ประโยชน์ในด้านใดได้บ้างจง ยกตัวอย่าง jmk.chandra.ac.thเหมืองขอ้ มูลเบ้อื งต้น

8 การทาเหมอื งขอ้ มูลจดั กลุ่ม ra.ac.thในการทาเหมืองข้อมูลจัดกลุ่ม ถือเป็นอีกวิธีการท่ีได้รับความนิยม ในการใช้ประโยชน์ข้อมูลk.chandในลักษณะของการวิเคราะห์จัดกลุ่ม เพื่อนาไปใช้ประโยชน์ในเชิงธุรกิจโดยใช้ประโยชน์จากข้อมูลน้ันการทาเหมืองข้อมูลจัดกลุ่มนั้น เป็นการวิเคราะห์ข้อมูล ในลักษณะของการพิจารณาความใกล้เคียงและแตกต่างกันของชุดข้อมูล เพื่อทาการจัดกลุ่มชุดข้อมูลท่ีมีความคล้ายคลึง ใกล้เคียงกันเป็นกลุ่มjmเดียวกัน และจัดใหช้ ุดขอ้ มูลที่มีความแตกตา่ งกนั เปน็ คนละกล่มุ กนั ดังน้ันเน้ือหาในบทน้ีจะเป็นการอธิบายเพื่อให้ผู้อ่านได้ทาความเข้าใจถึง การวิเคราะห์กลุ่มข้อมลู ขัน้ ตอนวธิ ีการทาเหมอื งขอ้ มลู จดั กลมุ่ โดยแบ่งเน้อื หาภายในบทเป็นหวั ข้อดังนี้ 1. การวเิ คราะหจ์ ัดกล่มุ ข้อมูล 2. หลักการพ้ืนฐานของการทาเหมอื งขอ้ มลู จดั กลุ่ม 3. ขัน้ ตอนวิธีการทาเหมอื งข้อมูลจัดกลุม่ ดว้ ย WEKA เหมอื งขอ้ มลู เบ้ืองต้น

174 การทาเหมืองข้อมลู จัดกลุ่มการวิเคราะห์จดั กลมุ่ ข้อมูล การจัดกลุ่ม (Clustering) หรอื การจาแนกกลุ่ม เป็นการรวมกลุ่มขอ้ มูลท่ีมีลักษณะเหมือนกันรูปแบบหรือแนวโน้มที่จะเหมือนกัน สาหรับการวิเคราะห์กลุ่มข้อมูลนั้น จะไม่มีผลลัพธ์ (Output)ไม่มีตัวแปรอิสระ (Independent Variable) ไม่มีการจัดโครงร่างของวัตถุ เราจะเรียกเทคนิคของการวิเคราะห์จัดกลุ่มข้อมูล ว่าเป็นแบบเรียนรู้ข้อมูลโดยไม่ต้องอาศัยผู้สอน (UnsupervisedLearning) Clustering ถือเป็นการวิเคราะห์ข้อมูล บนพ้ืนฐานของข้อมูลในอดีต ที่แตกต่างจากการแบ่งจาแนกประเภทข้อมูล (Classification) โดยจะพิจารณาจัดกลุ่มข้อมูล จากความคล้าย โดยไม่มีการกาหนดประเภทข้อมูลข้อมูลไว้ก่อนหรือไม่ระบุจานวนกลุ่มล่วงหน้า ถือได้ว่าการจัดกลุ่มน้ัน เป็นการเรียนรแู้ บบไมม่ ผี ้สู อน (Unsupervised Classification) 1. การวิเคราะหจ์ ัดกลมุ่ การวิเคราะห์จัดกลุ่ม (Cluster Analysis) เป็นเทคนิค วิธีการท่ีใช้สาหรับการจาแนกra.ac.thหรือแบ่ง วัตถุ หรือ ส่ิงใด ๆ เช่น คน สัตว์ สิ่งของ หรือ องค์กร เป็นต้น หรือหมายถึงการพิจารณาแบง่ ตวั แปรออกเป็นกล่มุ ยอ่ ย ๆ ต้งั แต่ 2 กลมุ่ ขน้ึ ไป โดยมีนิยามอันเป็นข้อพิจารณาคือ สิ่งท่ีอยู่ในกลุ่มk.chandเดียวกันจะมีลักษณะที่เหมือนกันหรือคล้ายกัน ส่วน ส่ิงที่อยู่ต่างกลุ่มกัน จะมีลักษณะท่ีแตกต่างกันดังนน้ั การพิจารณาคดั เลือกคุณลักษณะหรอื ตวั แปรท่ีจะนามาใชใ้ นการแบ่งกลุ่ม จงึ มคี วามสาคัญ อาจกล่าวโดยสรุปได้ว่า Cluster Analysis เป็นกระบวนการพิจารณาจัดให้ส่ิงต่าง ๆ อยู่ในjmกลุ่มที่เหมาะสม โดยคุณสมบัติของสิ่งท่ีอยู่ในกลุ่มเดียวกันจะมีความคล้ายคลึงกัน แต่ในขณะเดียวกันจะมคี วามแตกต่างจากวตั ถุ หรอื สง่ิ ที่ถกู จดั อยู่ในกลมุ่ อืน่ ๆ อย่างชดั เจน 2. วตั ถปุ ระสงค์ของการวเิ คราะหจ์ ดั กลุ่ม วัตถุประสงค์ของวิเคราะห์จัดกลุ่ม ก็เพื่อการลดขนาดข้อมูล (data reduction)ดว้ ยเทคนิคที่แม่นยาและมปี ระสิทธภิ าพเป็นอีกแนวทางหนึ่งเพ่ือจัด การกับปัญหาดังกลา่ ว หลักการที่สาคัญของการลดขนาดข้อมูลคือ การทาให้ข้อมูลต้ังต้นมีขนาดลดลงโดยสูญเสียลักษณะสาคัญของข้อมูลน้อยท่ีสุด เนื่องจากข้อมูลแต่ละตัวจะมีความสาคัญต่อการจัดกลุ่มข้อมูลไม่เท่ากัน ด้วยเทคนิคการเลือกข้อมูลท่ีดีจะ ทาให้สามารถเลือกข้อมูลที่มีความสาคัญและสามารถใช้เป็นตัวแทนของข้อมูลสว่ นใหญ่ได้ ขอ้ มูลที่มีการรวมกลุ่มกันอย่างหนาแน่นจะเปน็ ข้อมูลท่ีมีความสาคญั ต่อการจดั กลุ่มขอ้ มูลในอนาคตเหมอื งข้อมลู เบ้ืองต้น

การทาเหมืองขอ้ มลู จดั กล่มุ 175 3. ประเภทของการจัดกล่มุ ขอ้ มลู สาหรับการจัดกลุ่มข้อมูล สามารถแบ่งออกเป็น 2 ประเภทคือ 1) การจัดกลุ่มข้อมูลแ บ บ แ บ่ ง ส่ ว น ( Partition Clustering) แ ล ะ 2) ก า ร จั ด ก ลุ่ ม ข้ อ มู ล แ บ บ ล า ดั บ ชั้ น(Hierarchical Clustering) 1) การจดั กลุม่ ขอ้ มูลแบบแบ่งส่วน การจัดกลุ่มข้อมูลแบบแบ่งส่วน (Partition Clustering) คือ การพิจารณาแบ่งข้อมูลออกเป็นกลุ่ม ๆ โดยที่แต่ละกลุ่ม ไม่มีการทับซ้อนกัน ซ่ึงหมายถึง ข้อมูลจะต้องมีคุณลักษณะที่สามารถแบ่งชุดข้อมูลออกเป็นกลุ่มแยกออกจากกันอย่างชัดเจน โดยไม่มีข้อมูลใดท่เี ปน็ สมาชิกมากกวา่ 1 กลมุ่ ซง่ึ สามารถจาลองไดด้ ังภาพ jmk.chandra.ac.th ภาพที่ 8-1 การแบ่งกลุ่มแบบแบง่ ส่วน (Partition Clustering) 2) การจัดกลุ่มขอ้ มลู แบบลาดับชัน้ การจัดกลุ่มข้อมูลแบบลาดับช้ัน (Hierarchical Clustering) เป็นการพิจารณาจัดกลุ่มข้อมูล โดยชุดข้อมูลท่ีถูกจัดกลุ่มน้ันอาจมีความเกี่ยวโยงสัมพันธ์กันในแบบลาดับช้ัน เป็นกลุ่มใหญ่ และ กลุ่มย่อย ๆ ซ่ึงหมายถึง ข้อมูลอาจเป็นสมาชิกของกลุ่มย่อย โดยอยู่ภายใต้กลุ่มใหญ่ได้ซ่งึ สามารถนาเสนอได้เปน็ แผนภาพเดนโดรแกรม (Dendrogram) เหมอื งข้อมลู เบือ้ งต้น

176 การทาเหมืองข้อมลู จดั กลุ่ม ra.ac.thภาพที่ 8-2 การแบ่งกลุ่มแบบลาดบั ชั้น (Hierarchical Clustering) k.chand4. การวัดระยะห่างของชดุ ขอ้ มูล การวัดระยะห่างของชุดข้อมูล (Distance Measure) น้ัน ถือเป็นหัวใจสาคัญสาหรับjmการจัดกลุ่มข้อมูล โดยการวัดระยะห่างของชุดข้อมูล หรือตามหลักการทฤษฎีทางสถิติ หมายถึงความไมค่ ลา้ ยคลงึ (Dissimilarity) ซึ่งมีวิธกี ารวัดไดห้ ลายวิธี ในที่น้ีขอยกตัวอย่างวิธที ีไ่ ดร้ บั ความนิยม3 วิธี ได้แก่ 1) การวัดระยะหา่ งดว้ ยวิธีแมนฮัตตัน การวัดระยะห่างด้วยวิธีแมนฮัตตัน (Manhattan Distance) หรือ City Blockจัดเป็นวิธีการวัดระยะห่างท่ีได้รับความนิยมประยุกต์ใช้กับเทคนิคการทาเหมืองข้อมูลจัดกลุ่มโดยคานวณหาค่าระยะหา่ งได้ดงั สมการ n D  X i  Yi i1 เม่ือ D แทนคา่ ระยะห่างของชดุ ข้อมูล Xi และ Yi แทนค่าของ Attribute ท่ี 1 และ Attribute ท่ี 2 ทีน่ ามาพจิ ารณา n แทนจานวนของชดุ ข้อมูล (Instance)เหมอื งข้อมูลเบื้องต้น

การทาเหมืองข้อมลู จัดกลุม่ 177 2) การวัดระยะห่างด้วยวธิ ียคู ลิค วิธียูคลิค (Euclidean Distance) เป็นวิธีการหาค่าระยะห่างของชุดข้อมูลอีกวิธีการหน่ึงที่ได้รับความนิยมอย่างแพร่หลาย ซึ่งคานวณหาได้จาก รากที่สองของค่าผลต่างของคู่Attribute ที่นามาพิจารณา ดงั สมการ n D  ( X i  Yi )2 i1เมื่อ D แทนค่าระยะห่างของชดุ ขอ้ มลู Xi และ Yi แทนคา่ ของ Attribute ท่ี 1 และ Attribute ท่ี 2 ทีน่ ามาพจิ ารณา n แทนจานวนของชุดข้อมูล (Instance) 3) การวดั ระยะหา่ งดว้ ยวธิ ีการหาค่าสัมประสทิ ธแ์ิ จค๊ คารด์ ra.ac.thวิธีการหาค่าสัมประสิทธิ์แจ๊คคาร์ด (Jaccard Distance) เป็นวิธีการแทนค่าเลขฐานสอง (ค่า 0 และ 1) ให้กับชุดข้อมูล โดยพิจารณาตามลาดับความสาคัญของชุดข้อมูล โดยหาค่าสมั ประสทิ ธ์ริ ะยะหา่ งได้ดงั สมการk.chandn n X i (1 Yi )  Yi (1 X i )D  i1 i1jm i1 i1n n  X i  Yiเม่อื D แทนคา่ ระยะหา่ งของชุดข้อมูล Xi และ Yi แทนคา่ ของ Attribute ท่ี 1 และ Attribute ท่ี 2 ทนี่ ามาพจิ ารณา n แทนจานวนของชดุ ขอ้ มูล (Instance) นอกจากท้ัง 3 วิธีการหาค่าระยะห่างของชุดข้อมูลท่ีได้กล่าวไปข้างต้นน้ัน การวัดระยะห่างของชดุ ข้อมลู ยังมีวิธีการอีกหลายวิธี รวมถึงยงั สามารถวัดได้จากค่าความคลา้ ยคลงึ ข้อมลู (Similarity)ท่ีมีวิธีการหาค่าอีกหลายวิธีอีกด้วย โดยสามารถค้นคว้าหาข้อมูลเพิ่มเติมได้จากตาราทางสถิติซ่ึงสาหรับในหนังสือเล่มน้ีจะใช้กล่าวถึงการวัดระยะห่างของข้อมูลด้วยวิธีการแมนฮัตตัน สาหรับการยกตวั อย่างกบั เทคนิคการทาเหมืองข้อมลู จัดกล่มุ ท่ีจะได้กลา่ วถึงในหวั ข้อถัดไป เหมอื งข้อมูลเบือ้ งต้น

178 การทาเหมอื งข้อมูลจดั กลุ่มหลกั การพื้นฐานของการทาเหมืองขอ้ มูลจัดกลมุ่ การทาเหมืองข้อมูลจัดกลุม่ เป็นการวเิ คราะหข์ อ้ มูลท่ีไดร้ วบรวมมา เพ่อื จดั จาแนกเปน็ กลุ่มข้อมูล เพ่ือนาไปใช้ประโยชน์ในด้านต่าง ๆ เช่น การนาข้อมูลลูกค้า มาแบ่งกลุ่มเพื่อกาหนดกลุ่มเป้าหมายในการประชาสัมพันธ์ หรือ การทาการตลาดแบบมุ่งกลุ่มเป้าหมาย โดยอาจแบ่งกลุ่มลูกค้าเป็นกลุ่ม ๆ ตามจานวนท่ีต้องการ ซึ่งตามหลักการของการทาเหมืองข้อมูล การจัดกลุ่มข้อมูลจะมีข้อแตกต่างกับการแบ่งกลุ่มในเชงิ สถิติ เนื่องจากการแบ่งกลุ่มทางสถิติ จะหมายถงึ การทาการสุ่มข้อมูล (Sampling) โดยอาศัยข้อมูลตัวอย่างเพียงบางกลุ่มเท่าน้ัน ในขณะท่ีการทาเหมืองข้อมูลเพื่อวิเคราะห์จัดกลุ่มข้อมูล จะหมายถึง การจัดกลุ่ม โดยใช้ข้อมูลทั้งหมดท่ีมี นามาพิจารณาหาลักษณะสาคัญ ที่สามารถใช้จาแนกจัดกลุ่มได้อย่างชัดเจน ซ่ึงจัดเป็นลักษณะเฉพาะของกลุ่มนั้นๆ ดังน้ันอาจเรียกได้ว่าเป็นการวิเคราะห์จัดกลุ่ม หรือ Cluster Analysis ที่ต้องอาศัยเทคนิค วิธีในการวิเคราะห์ข้อมูลเพื่อค้นหาคุณลักษณะสาคัญท่ีโดดเด่นของชุดข้อมูล ที่สามารถนามาใช้แยกความแตกต่างและจดั กลุ่มได้ ra.ac.th1. ข้ันตอนการทาเหมอื งข้อมูลจัดกลุม่ สาหรับการทาเหมืองข้อมูล จัดกลุ่มนั้น เป็นการเรียนรู้แบบไม่มีผู้สอนk.chand(Unsupervised Learning) ซึ่งแตกต่างจากการทาเหมืองข้อมูลจาแนกประเภท กล่าวคือ เป็นการนาเอาชุดข้อมูลท่ีได้รวบรวมมา นามาวิเคราะห์เพื่อพิจารณาความเหมือน และความแตกต่างกันโดยอาศัยลักษณะสาคัญของชุดข้อมูล แล้วทาการแบ่งข้อมูลออกเป็นกลุ่ม ๆ ตามความต้องการเพื่อjmนาไปใช้ประโยชน์ต่อไป ซึ่งข้ันตอนของการทาเหมืองข้อมูลจัดกลุ่มนั้น อาจแบ่งออกเป็น 3 ขั้นตอนสาคญั ตามขั้นตอนการทาเหมอื งขอ้ มูล ไดแ้ ก่ 1) การจัดเตรียมข้อมูล และนาเข้าชุดมูล เพื่อนามาใช้ในการวิเคราะห์จัดกลุ่มข้อมูล โดยจัดเตรยี มขอ้ มูลตามหลกั การข้ันตอนการจดั เตรียมข้อมลู ท่ีไดก้ ล่าวถึงไว้ในบทท่ี 3 2) การวิเคราะห์จัดกลุ่มข้อมูล โดยใช้เทคนิควิธีการต่าง ๆ เพื่อพิจารณาลักษณะโดดเด่นของชุดข้อมูล เพื่อจาแนกแยกแยะความแตกต่างของชุดข้อมูลเป็นกลุ่ม ๆ ตามจานวนกลุ่มท่ีกาหนด 3) การนาเอาผลลัพธ์ไปใช้ประโยชน์ เป็นการนาเอาผลการจัดกลุ่มที่ได้ไปประยกุ ตใ์ ชป้ ระโยชน์ตามวัตถปุ ระสงค์ต่อไปเหมืองข้อมูลเบ้ืองตน้

การทาเหมืองข้อมูลจดั กลุ่ม 179 ภาพที่ 8-3 ข้นั ตอนการทาเหมืองข้อมูลจัดกลุม่ ra.ac.th2. เทคนิคทีใ่ ช้ในการทาเหมืองขอ้ มลู จัดกล่มุ เทคนิคการทาเหมืองข้อมูลจัดกลุ่ม มีหลากหลายเทคนิคด้วยกัน ทั้งการแบ่งกลุ่มตามประเภทการวิเคราะห์จัดกลุ่ม โดยเทคนิคพื้นฐานที่ได้รับความนิยม ซึ่งจัดเป็นการk.chandวิเคราะห์จัดกลุ่มแบบแบ่งส่วนข้อมูล คือ เทคนิคการจัดกลุ่มแบบ K-Means หรือ การจัดกลุ่มโดยค่าคงทเี่ ฉล่ีย และ การวิเคราะห์จดั กลมุ่ แบบลาดับขน้ั คือ เทคนิคการจัดกลมุ่ แบบ Agglomerative jm1) การจัดกล่มุ แบบ K-Means การจัดกลุ่มแบบ K-means จัดเป็นหน่ึงในอัลกอริทึมเทคนิคการวิเคราะห์จัดกลุ่มที่ง่ายท่ีสุด ท่ีรู้จักกันทั่วไป โดยวิธีการของ K-Means จะทาการตัดแบ่งส่วนของ (Partition)ชุดข้อมูลท่ีนามาวิเคราะห์ออกเป็นกลุ่มตามจานวนที่ต้องการ (K) โดยแทนแต่ละกลุ่มด้วยการใช้ค่าเฉล่ียของกลุ่มเป็นจุดศูนย์กลาง (centroid) และวัดระยะห่างของข้อมูลในกลุ่มเดียวกันซึ่งข้อมูลท่ีเหมาะสมต่อการพิจารณาจัดกลุ่มด้วยเทคนิคนี้ ควรเป็นชุดข้อมูลเชิงปริมาณ หรือ เชิงตวั เลข โดยมีข้ันตอนคอื ข้ันแรกของการจัดกลุ่มโดยการหาค่าคงท่ีเฉล่ีย คือ ต้องกาหนดจานวนกลุ่ม (K) ท่ีต้องการและทาการกาหนดจุดศูนยก์ ลาง (Centroid) เพอื่ เป็นจุดศนู ย์กลางเริ่มต้น ตามจานวนกลุ่มท่ีได้กาหนดไว้ ซ่ึงอาจทาได้โดยการสุ่มค่าใด ๆ ให้กระจายห่างจากจุดศูนย์กลางอื่นๆ เนื่องจากในการกาหนดค่าจุดศูนย์กลางเริ่มต้นของแต่ละกลุ่มน้ี มีความสาคัญอย่างย่ิง โดยหากตาแหน่งจุดศูนย์กลางเร่ิมต้นแตกต่างกัน จะส่งผลให้ผลลัพธ์สุดท้ายแตกต่างกันไปด้วย ดังน้ันควรพิจารณากาหนดจุดศูนย์กลางเร่ิมตน้ ให้สอดคล้องกับสภาพการณจ์ รงิ ให้มากทีส่ ุด เหมอื งขอ้ มลู เบอ้ื งต้น

180 การทาเหมอื งข้อมูลจัดกลุ่ม หลังจากกาหนดจุดศูนย์กลางเริ่มต้นแล้ว ในข้ันตอนต่อไป คือ การคานวณระยะห่างของแต่ละชุดข้อมูลพิจารณาเปรียบเทียบกับจุดศูนย์กลางเริ่มต้นที่กาหนดข้ึน เพ่ือสร้างกลุ่มข้อมูลและความสัมพันธ์กับจุดศูนย์กลางที่ใกล้มากท่ีสุด โดยแต่ละจุดจะถูกกาหนดไปยังจุดศูนย์กลางท่ีใกล้เคียงที่สุดจนครบหมดทุกจุด จากน้ันจึงทาการคานวณหาค่าจุดศูนย์กลางที่แท้จริงใหม่ โดยการหาค่าเฉลี่ยของค่าชุดข้อมูลที่ถูกจัดให้อยู่ในกลุ่ม โดยหากค่าจุดศูนย์กลางในแต่ละกลุ่มถูกเปล่ียนตาแหน่งจะได้จุดศูนย์กลางที่มีความสัมพันธ์กับกลุ่มใหม่และใกล้กับจุดศูนย์กลางใหม่ ทาซ้าไปเร่ือย ๆจนกระท่ังค่าของจุดศูนย์กลางไม่เปลี่ยนแปลง หมายถึงได้ค่าจุดศูนย์กลางของกลุ่มที่แท้จริงแล้วจงึ จะถอื ว่าสิน้ สดุ กระบวนการจดั กล่มุ ขอ้ มลู ตัวอย่างที่ 8-1 การวิเคราะห์จัดกลุ่มข้อมูลลูกค้าศูนย์สุขภาพ ออกเป็น 3 กลุ่มด้วยวิธี K-mean โดยทาการจัดเตรียมชุดข้อมูลสาหรับใช้ในการวิเคราะห์จัดกลุ่ม ทาการปรับค่าชุดขอ้ มลู เป็นตัวเลขฐานสบิ ซงึ่ ปรากฎการกระจายของชดุ ขอ้ มลู ดังภาพ jmk.chandra.ac.th ภาพท่ี 8-4 ขอ้ มลู ทผ่ี า่ นการปรบั คา่ สาหรับการวเิ คราะหจ์ ัดกล่มุ ข้อมูล จากชุดข้อมูลข้างต้น ทาการกาหนดค่าจุดศูนย์กลางเริ่มต้น จานวน 3 ค่า ตามจานวนกลุ่มที่ต้องการแบ่ง โดยสมุ่ กาหนดจากชดุ ขอ้ มลู ทม่ี ีอยู่ ในทน่ี ้ีกาหนดคา่ จดุ ศนู ยก์ ลางเริม่ ต้นเปน็ Centroid 1 (C1) : 2, 5 Centroid 2 (C2) : 4, 9 Centroid 3 (C3) : 7, 5เหมืองข้อมลู เบอ้ื งต้น

การทาเหมืองขอ้ มลู จดั กล่มุ 181 ภาพท่ี 8-5 สุม่ กาหนดค่าจุดศูนยก์ ลางเริม่ ต้นสาหรบั จดั กลมุ่ ข้อมูล ra.ac.thหลังจากกาหนดค่าจุดศูนย์กลางเริ่มต้นแล้ว จึงทาการคานวณหาค่าระยะห่างระหว่างชุดข้อมูลกับจุดศูนย์กลางที่กาหนดขึ้น โดยใช้วิธีการแมนฮัตตัน (Manhattan Distance) โดยได้jmk.chandคา่ ระยะห่างดังนี้ ภาพท่ี 8-6 คานวณคา่ ระยะห่างระหวา่ งชดุ ข้อมลู และจุดศูนย์กลางเรมิ่ ต้น เหมืองข้อมลู เบ้ืองตน้

182 การทาเหมอื งข้อมูลจดั กลมุ่ จากน้ันจึง ทาการคานวณหาค่า Centroid ท่ีแท้จริงของทั้ง 3 กลุ่ม โดยหาจากค่าเฉลี่ยของสมาชกิ ในกลุม่ ซึง่ จะได้จุดศูนยก์ ลางใหม่ของท้ัง 3 กล่มุ ดังภาพ Centroid 1 (C1) : 1.67, 5.33 Centroid 2 (C2) : 3.67, 9 Centroid 3 (C3) : 6.75, 4.75 jmk.chandra.ac.thภาพที่ 8-7 คานวณค่าเฉลีย่ ของกลุ่มเพื่อกาหนดจดุ ศนู ย์กลางของกลมุ่ และทาการคานวณหาค่าระยะห่างระหว่างชุดข้อมูลกับ Centroid ใหม่อีกคร้ัง เป็นรอบท่ี 2ซึง่ จะไดร้ ะยะห่างระหว่างชุดข้อมลู ดงั ภาพ ภาพท่ี 8-8 คานวณระยะหา่ งระหว่างชุดข้อมลู กับ Centroid ใหม่เหมอื งข้อมูลเบื้องต้น

การทาเหมืองขอ้ มลู จดั กลุม่ 183 จะเห็นได้ว่า จากรอบน้ี แม้ว่าค่าระยะห่างระหว่างชุดข้อมูลกับ Centroid ของกลุ่มจะเปล่ียนแปลงไป แต่เม่ือพิจารณาจัดกลุ่มแล้ว ชุดข้อมูลยังคงถูกจัดอยู่ในกลุ่มเดิม ดังน้ันเมื่อทาการคานวณหาค่าเฉลี่ยของสมาชิกในกลุ่ม เพื่อหาค่าจุดศูนย์กลางท่ีแท้จริง จึงได้จุดศูนย์กลางของท้ัง 3 กลุม่ เปน็ คา่ เดมิ คอื Centroid 1 (C1) : 1.67, 5.33 Centroid 2 (C2) : 3.67, 9 Centroid 3 (C3) : 6.75, 4.75 ซ่ึงถือว่าจุดศูนย์กลางไม่มีการเปลี่ยนแปลงแล้ว และเมื่อคานวณหาค่าระยะห่างระหว่างชุดข้อมูลกับ Centroid ก็ได้ค่าเดิมเช่นเดียวกัน เม่ือไม่มีการเปล่ียนแปลงใด ๆ แล้ว จึงถือวา่ การจัดกลุ่มเสร็จสน้ิ และไดก้ ลมุ่ ข้อมูลดังภาพ jmk.chandra.ac.th ภาพที่ 8-9 แสดงกลุ่มของข้อมูล 3 กลมุ่ ทผี่ ่านการจดั กลุ่มโดยเทคนคิ K-Means เหมืองข้อมลู เบอื้ งต้น

184 การทาเหมอื งข้อมูลจดั กลมุ่ 2) การจัดกลมุ่ แบบ Agglomerative Clustering การจัดกลุ่มแบบ Agglomerative Clustering จัดเป็นหน่ึงในอัลกอริทึมเทคนิคการวิเคราะห์จัดกลุ่มแบบลาดับชั้น ซึ่งพิจารณาจากระยะห่างระหว่างชุดข้อมูลโดยให้ความสาคัญกับข้อมูลที่มีระยะห่างระหว่างกันน้อยท่ีสุดก่อน ถือว่าจัดอยู่ในกลุ่มเดียวกันซ่งึ เม่ือพิจารณาระยะห่างจนกระทั่งมีการจัดกลุ่มเกดิ ข้ึนแล้ว จะต้องพิจารณาระยะห่างระหว่างกลุ่มท่ีสร้างขึ้นกับชุดข้อมูลอีกครั้ง โดยเลือกพิจารณาได้ 3 รูปแบบคือ พิจารณาระยะห่างระหว่างชุดข้อมูลแต่ละชุดกับระยะห่างท่ีใกล้ที่สุดในกลุ่ม (Single Linkage) พิจารณาระยะห่างระหว่างชุดข้อมูลกับชุดข้อมูลท่ีห่างที่สุดในกลุ่มเดียวกัน (Complete Linkage) และ พิจารณาระยะห่างระหว่างชุดข้อมูลกับค่าเฉล่ียระยะห่างของชุดข้อมูลในกลุ่ม (Average Linkage) ทาไปซ้า ๆ จนกระทั่งชุดข้อมูลทัง้ หมดทุกจดั กลุ่มจนหมด ตวั อย่างที่ 8-2 การวิเคราะห์จัดกลุ่มข้อมูลจากชุดข้อมูลในตัวอย่างท่ี 8-1 (ท่ีได้ผ่านขั้นตอนการจัดเตรียมชุดข้อมูลสาหรับใช้ในการวิเคราะห์จัดกลุ่ม ทาการปรับค่าชุดข้อมูลเป็นตัวเลขฐานสิบ)ra.ac.thแบง่ กลมุ่ ออกเป็น 3 กล่มุ ด้วยวิธี Agglomerative Clustering เริ่มจากการคานวณหาระยะห่างระหว่างชุดข้อมูลทั้ง 10 ชุด โดยใช้วิธีการวัดระยะห่างแบบk.chandยูคลิค (Euclidean Distance) ซ่ึงเม่ือแทนค่าลงในสมการแล้ว จะได้ผลลัพธ์ระยะห่างของแต่ละชุดjmขอ้ มลู ทนี่ ามาแสดงเปน็ Distance Matrix ไดด้ ังภาพ ภาพท่ี 8-10 Distance Matrix ผลลัพธ์ระยะห่างของแต่ละชดุ ขอ้ มูลเหมืองขอ้ มูลเบอื้ งต้น

การทาเหมืองข้อมลู จดั กลมุ่ 185 พิจารณาผลลัพธร์ ะยะห่างของแต่ละชุดข้อมูลท่ีมีค่านอ้ ยที่สดุ เพ่ือจัดกลมุ่ โดยจะเห็นได้ว่าค่าน้อยท่ีสุดคือ 1.41 ซึ่งสามารถจัดชุดข้อมูลเป็นกลุ่ม ๆ ได้แก่ กลุ่มท่ี 1 ชุดข้อมูลท่ี I1 I3 I6 และ I9กลุ่มที่ 2 ชุดข้อมูลที่ I2 และ I7 กลุ่มที่ 3 ชุดข้อมูล I4 และ I8 และเหลือชุดข้อมูลท่ีต้องพิจารณาในระดบั ขั้นถดั ไปคือ I5 และ I10 ดงั ภาพ ra.ac.thภาพที่ 8-11 การพจิ ารณาจัดกลุม่ ข้อมูลในรอบที่ 1 k.chandจากนั้นทาการพิจารณาจัดกลุ่ม กับชุดข้อมูลอื่น ๆ ที่เหลือ ด้วยการพิจารณาระยะห่างjmระหว่างกลุ่มที่ใกล้ท่ีสุด คือ มีค่าน้อยท่ีสุด ให้จัดอยู่ในกลุ่มเดียวกัน โดยตัวอย่างน้ี จะพิจารณาระยะห่างของกลุม่ ข้อมูลและชุดข้อมูลอ่ืน ๆ ท้ัง 3 แบบ เปรยี บเทียบไปพรอ้ ม ๆ กัน ดงั นี้ เ ม่ื อ พิ จ า ร ณ า โ ด ย ใ ช้ ค่ า ร ะ ย ะ ห่ า ง ที่ ใ ก ล้ ท่ี สุ ด ข อ ง ชุ ด ข้ อ มู ล ใ น ก ลุ่ ม กั บ ชุ ด ข้ อ มู ล อ่ื น ๆ(Single Linkage) จะได้ค่าระยะห่างระหว่างกลุ่ม C2 และ ชุดข้อมูล I10 มีค่าน้อยที่สุดคือ 2ซ่ึงส่งผลได้ชดุ ข้อมลู I10 ถกู จัดเป็นกลมุ่ เดียวกันกบั C2 ด้วย ใ น ข ณ ะ ที่ เ มื่ อ พิ จ า ร ณ า โ ด ย ใ ช้ ค่ า เ ฉ ลี่ ย ข อ ง ชุ ด ข้ อ มู ล ใ น ก ลุ่ ม พิ จ า ร ณ า กั บ ชุ ด ข้ อ มู ล อื่ น ๆ(Average Linkage) โดยหาค่าเฉล่ียของระยะห่างในกลุ่ม จะได้ค่าระยะห่างระหว่างกลุ่ม C2 และชดุ ข้อมลู I10 มคี า่ นอ้ ยท่สี ดุ คือ 2.58 ซ่งึ ส่งผลไดช้ ุดข้อมลู I10 ถูกจดั เปน็ กล่มุ เดียวกันกบั C2 ด้วย และเม่ือพิจารณาโดยใช้ค่าระยะห่างที่สุดของชุดข้อมูลในกลุ่ม นามาพิจารณาระยะห่างกับชุดข้อมูลอ่ืนๆ (Complete Linkage) จะได้ค่าระยะห่างระหว่างชุดข้อมูล I5 และ ชุดข้อมูล I10 มีค่านอ้ ยทสี่ ุดคอื 3 ซง่ึ สง่ ผลไดช้ ุดขอ้ มลู I5 ถูกจดั เป็นกลมุ่ เดยี วกันกบั I10 ดว้ ยดงั ภาพ เหมืองขอ้ มูลเบื้องตน้

186 การทาเหมืองข้อมลู จดั กลมุ่ ภาพที่ 8-12 การพิจารณาจัดกลมุ่ แบบ Single / Average / Complete Linkage จากนัน้ ทาการคานวณหาค่าระยะห่างทัง้ 3 แบบ เพือ่ จัดกลุ่มอีกครงั้ ra.ac.thซึ่ ง จ า ก ก า ร ร ว ม ข้ อ มู ล I10 เ ข้ า อ ยู่ ใ น ก ลุ่ ม C2 แ ล้ ว เ มื่ อ พิ จ า ร ณ า โ ด ย ใ ช้ค่าระยะห่างท่ีใกล้ที่สุดของชุดข้อมูลในกลุ่มกับชุดข้อมูลอ่ืนๆ (Single Linkage) จะได้ค่าระยะห่างระหว่างกลุ่ม C1 และ ชุดข้อมูล C2 มีค่าน้อยที่สุดคือ 2 ซึ่งส่งผลได้ชุดข้อมูล C2 ถูกจัดเป็นกลุ่มk.chandเดียวกนั กับ C1 และทาใหช้ ดุ ขอ้ มูลเหลอื 3 กลุม่ ในขณะท่ีจากการรวมข้อมูล I10 เข้าอยู่ในกลุ่ม C2 แล้ว เม่ือพิจารณาโดยใช้ค่าเฉลี่ยของชุดข้อมูลในกลุ่มพิจารณากับชุดข้อมูลอ่ืนๆ (Average Linkage) โดยหาค่าเฉล่ียของระยะห่างในกลุ่ม จะjmได้ค่าระยะห่างระหว่างกลุ่ม C3 และ ชุดข้อมูล I5 มีค่าน้อยท่ีสุดคือ 2.95 ซึ่งส่งผลได้ชุดข้อมูล I5 ถูกจัดเป็นกลมุ่ เดยี วกันกบั C3 ด้วย และเมื่อจากการรวมข้อมูล I5 และ I10 เป็นกลุ่มข้อมูล C4 แล้วพิจารณาโดยใช้ค่าระยะห่างที่สุดของชุดข้อมูลในกลุ่ม นามาพิจารณาระยะห่างกับชุดข้อมูลอื่นๆ (Complete Linkage) จะได้ค่าระยะห่างระหว่างชุดข้อมูล C3 และ ชุดข้อมูล C4 มีค่าน้อยที่สุดคือ 3.61 ซ่ึงส่งผลได้ชุดข้อมูล C3ถูกจดั เปน็ กลุม่ เดียวกนั กบั C4 ด้วย หลังจากพิจารณาระยะห่างระหว่างกลุ่มแล้วนั้น จะเห็นว่าชุดข้อมูลได้ถูกแบ่งออกตามกลุ่มของข้อมูลเปน็ 3 กล่มุ แตกตา่ งกันไปตามวิธกี ารทั้ง 3 แบบ ดงั ภาพเหมอื งขอ้ มูลเบอ้ื งตน้

การทาเหมืองข้อมลู จดั กล่มุ 187 ภาพท่ี 8-13 ผลการจัดกลุม่ แบบ Single / Average / Complete Linkagera.ac.thขนั้ ตอนวิธีการทาเหมอื งขอ้ มลู จัดกลมุ่ ด้วย WEKA k.chandในสว่ นของการใชง้ านเทคนิค Clustering ใน WEKA นนั้ มขี น้ั ตอนเหมือนการทาเหมอื งข้อมูลดว้ ยวิธีการอน่ื ๆ โดย jm1) เร่มิ จากการนาเขา้ ข้อมูล ในท่ีนี้ใช้ขอ้ มลู ตัวอยา่ ง Weather.arff ดังภาพ ภาพท่ี 8-14 แสดงชุดขอ้ มูลตัวอยา่ ง Weather.arff เหมืองข้อมูลเบอื้ งต้น

188 การทาเหมืองข้อมูลจัดกลมุ่ 2) จากน้ันเร่ิมทาการวิเคราะห์ข้อมูลโดยเลือกท่ีส่วนการทางาน Cluster และกดปุ่มChoose ในส่วนของ Clusterer เพ่อื เลือกเทคนคิ SimpleKMeans jmk.chandra.ac.thภาพที่ 8-15 แสดงการเลือกเครือ่ งมอื Classify และเทคนิค SimpleKMeans 3) กาหนดวิธีการทดสอบชุดข้อมูลว่าต้องการทดสอบแบบใด ในส่วนของTest Options ในทน่ี ้ยี กตัวอยา่ งกาหนดให้ทดสอบแบบ Use training set ภาพท่ี 8-16 แสดงการเลอื กวิธกี ารทดสอบชุดข้อมูลแบบ Use training setเหมืองข้อมูลเบือ้ งต้น

การทาเหมืองข้อมลู จดั กลุ่ม 189 4) กดปุ่ม Start เพื่อทาการวิเคราะห์จาแนกประเภทข้อมูล จะปรากฏผลในส่วนClusterer Output jmk.chandra.ac.thภาพท่ี 8-17 แสดงผลการวเิ คราะห์จาแนกประเภทข้อมูลดว้ ย SimpleKMeans 5) นอกจากน้ียังสามารถเรียกดูกราฟ ได้โดยการคลิ๊กปุ่มขวา (Right-Click) ที่รายการใน Result list แลว้ เลอื กเมนู Visualize tree จะปรากฏ Decision Tree ของข้อมลู ภาพที่ 8-18 การเลือก Visualize cluster assignment เพ่ือแสดงผล เหมอื งข้อมูลเบอื้ งตน้

190 การทาเหมอื งข้อมูลจัดกลมุ่ jmk.chandra.ac.thภาพที่ 8-19 การแสดงผล Visualize cluster assignmentเหมืองข้อมลู เบอ้ื งต้น

การทาเหมืองข้อมูลจดั กล่มุ 191บทสรปุ การจัดกลุ่ม (Clustering) หรือการจาแนกกลุ่ม ถือเป็นการวิเคราะห์ข้อมูล บนพื้นฐานของข้อมูลในอดีต โดยเป็นการรวมกลุ่มข้อมูลท่ีมีลักษณะเหมือนกัน รูปแบบหรือแนวโน้มท่ีจะเหมือนกันClustering แตกต่างจากการแบ่งจาแนกประเภทข้อมูล (Classification) โดยในการวิเคราะห์กลุ่มข้อมูลนั้น จะไม่มีผลลัพธ์ (Output) ไม่มีตัวแปรอิสระ (Independent Variable) ไม่มีการจัดโครงร่างของวัตถุ ถือเป็นแบบเรียนรู้ข้อมูลโดยไม่ต้องอาศัยผู้สอน (Unsupervised Learning)โดยจะพิจารณาจดั กลุ่มข้อมูล จากความคล้าย โดยไม่มีการกาหนดประเภทข้อมูลข้อมูลไวก้ ่อนหรือไม่ระบุจานวนกลุ่มล่วงหน้า ถือได้ว่าการจัดกลุ่มน้ัน เป็นการเรียนรู้แบบไม่มีผู้สอน (UnsupervisedClassification) อาจกล่าวโดยสรุปได้ว่า Cluster Analysis เป็นกระบวนการพิจารณาจัดให้ส่ิงต่าง ๆ อยู่ในกลุ่มท่ีเหมาะสม โดยคุณสมบัติของสิ่งท่ีอยู่ในกลุ่มเดียวกันจะมีความคล้ายคลึงกัน แต่ในขณะเดียวกันจะมีความแตกตา่ งจากวตั ถุ หรือสง่ิ ที่ถูกจดั อยใู่ นกลุม่ อนื่ ๆ อย่างชดั เจน ra.ac.thการจัดกลุ่มข้อมูล สามารถแบ่งออกได้เป็น 2 ประเภทคือ 1) การจัดกลุ่มข้อมูลแบบแบ่งส่วน(Partition Clustering) และ 2) การจัดกลุ่มข้อมูลแบบลาดับชั้น ( Hierarchical Clustering)k.chandซึ่งทั้ง 2 ประเภทมีกระบวนการสาคัญคือ การวัดระยะห่างข้อชุดข้อมูล ซึ่งมีวิธีที่ได้รับความนิยม เช่นการวัดระยะห่างด้วยวิธีแมนฮัตตัน (Manhattan Distance) หรืออีกชื่อหนึ่งคือ City Block การวัดระยะห่างด้วยวิธียูคลิค (Euclidean Distance) และ การวัดระยะห่างด้วยวิธีการหาค่าสัมประสิทธ์ิjmแจ๊คคารด์ (Jaccard Distance) เป็นตน้ ขั้นตอนของการทาเหมืองข้อมูลจัดกลุ่มน้ัน อาจแบ่งออกเป็น 3 ข้ันตอนสาคัญตามขั้นตอนการทาเหมืองข้อมูล ได้แก่ 1) การจัดเตรียมข้อมูล และนาเข้าชุดมูล เพื่อนามาใช้ในการวิเคราะห์จัดกลุ่มข้อมูล 2) การวิเคราะห์จัดกลุ่มข้อมูล โดยใช้เทคนิควิธีการต่าง ๆ เพื่อพิจารณาลักษณะโดดเด่นของชุดข้อมูล เพื่อจาแนกแยกแยะความแตกต่างของชุดข้อมูลเป็นกลุ่ม ๆ ตามจานวนกลุ่มที่กาหนด และ 3) การนาเอาผลลัพธ์ไปใช้ประโยชน์ เป็นการนาเอาผลการจัดกลุ่มท่ีได้ไปประยุกตใ์ ชป้ ระโยชนต์ ามวัตถปุ ระสงคต์ ่อไป เทคนิคพ้ืนฐานที่ใช้ในการทาเหมืองข้อมูลจัดกลุ่มที่ได้รับความนิยม ซ่ึงจัดเป็นการวิเคราะห์จัดกลุ่มแบบแบ่งส่วนข้อมูล คือ เทคนิคการจัดกลุ่มแบบ K-Means หรือ การจัดกลุ่มโดยค่าคงท่ีเฉล่ียและ การวเิ คราะหจ์ ดั กลมุ่ แบบลาดบั ขนั้ คอื เทคนคิ การจดั กลุ่มแบบ Agglomerative เหมืองขอ้ มูลเบ้อื งตน้

192 การทาเหมอื งข้อมูลจดั กล่มุเอกสารอา้ งองิชนวัฒน์ ศรีสอ้าน. ฐานข้อมูล คลังข้อมูล และเหมืองข้อมูล. ปทุมธานี: สานักพิมพ์ มหาวิทยาลัย รังสติ , 2550.อ ดุ ล ย์ ย้ิ ม ง า ม . ก า ร ท า เ ห มื อ ง ข้ อ มู ล Data Mining [อ อ น ไ ล น์ ]. เ ข้ า ถึ ง ไ ด้ จ า ก : http://compcenter.bu.ac.th/index.php?option=com_content&task=view&id=7 5&Itemid=172. (วันทีค่ ้นข้อมูล : 17 มถิ ุนายน 2554)อุไร ทองหัวไผ่. บทที่ 3 การแบ่งกลุ่มข้อมูลอัตโนมัติ. [ออนไลน์]. เข้าถึงได้จาก : http://e- book.ram.edu/e-book/c/CT477/CT477-3.pdf. (วันทค่ี น้ ขอ้ มูล : 20 กันยายน 2557)เ อ ก สิ ท ธ์ิ พั ช ร ว ง ศ์ ศั ก ด า . An Introduction to Data Mining Techniques. ก รุ ง เ ท พ : บรษิ ัท เอเชยี ดิจิตอลการพมิ พ์ จากัด, 2557.ra.ac.thBing, L., Wynne, H. and Yiming, M. “Mining Association Rules with Multiple Minimum Supports.” Proceeding of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Diego, 1999.k.chandD. J. Hand, H. Mannila, and P. Smyth, Principles of Data Mining. MIT Press, 2001.Linoff, G. and Berry, M. Data Mining Techniques. John Wiley & Sons. , 1997.jmM. Bramer, Principles of Data Mining. Springer, 2013.Mahapatra, I. and Bose, R. K. Business Data Mining - a Machine Learning Perspective. Information and Management. 39, 2001 : 211-25.WEKA Wiki, Frequently Asked Questions. [อ อ น ไ ล น์ ]. เ ข้ า ถึ ง ไ ด้ จ า ก : http://weka.wikispaces.com. (วันทีค่ น้ ขอ้ มลู : 17 มถิ ุนายน 2554)เหมอื งข้อมลู เบือ้ งตน้


Like this book? You can publish your book online for free in a few minutes!
Create your own flipbook