รหสั วชิ า EGTI616 ช่ือวชิ า ระเบียบวธิ ีการวจิ ยั (Research Methodology) ช่อง Missing ใชใ้ นกรณีที่คาดวา่ อาจจะมีขอ้ มูลของกลุ่มตวั อยา่ งบางคนไม่ สมบูรณ์ คือไม่ตอบมา หรือตอบมาไม่ชดั เจน ค่าสูญหายใน SPSS มี 2 ประเภท คอื o ค่าสูญหายของระบบ เซลว่างท่ีอยู่ในขอบเขตสี่เหลี่ยมของ ขอ้ มูลของตวั แปรเชิงตวั เลข SPSS จะถือวา่ เป็ นคา่ สูญหาย ของระบบซ่ึงแสดงดว้ ยจุด (.) ดงั รูป o ค่าสูญหายของผูใ้ ช้ ผูใ้ ชอ้ าจตอ้ งการกาํ หนดค่าแทนขอ้ มูลที่ สูญหาย เพ่ือจะไดท้ ราบวา่ ทาํ ไมขอ้ มูลถึงหาย ในท่ีน้ีกรณีเด็ก ที่เราไม่รู้เพศของเดก็ เราจะใหค้ ่าเป็น “ม” ยอ่ มาจากคาวา่ “ไม่ รู้” แลว้ คลิกป่ ุม “OK” ในกรณีขอ้ มูลเป็นคะแนนหรือตวั เลข 87
รหสั วชิ า EGTI616 ช่ือวชิ า ระเบียบวธิ ีการวจิ ยั (Research Methodology) อาจจะกาํ หนดวา่ คา่ missing เป็นเลข “9” หรือ “999” ข้ึนอยู่ กบั จาํ นวนหลกั ของขอ้ มูลในตวั แปรน้นั การกาํ หนดค่า Missing Values มีประโยชน์ตรงเราสามารถกาํ หนดกลุ่มตวั อยา่ ง ที่มี ความผดิ พลาดมาใชใ้ นการคาํ นวณหรือไม่ใชใ้ นการคาํ นวณกไ็ ด้ ช่อง Column คือช่องสาหรับกาํ หนดความกวา้ งของเซล โดยปกติจะต้งั ค่า เป็น 8 ตวั อกั ษรคือพิมพต์ วั อกั ษรหรือตวั เลขไดไ้ ม่เกิน 8 ตวั อกั ษร ซ่ึงค่าน้ีเราสามารถปรับให้ เพม่ิ ข้ึนหรือนอ้ ยลงกไ็ ด้ ช่อง Align สาหรับกาํ หนดตาํ แหน่งของขอ้ มูลในตวั แปร วา่ ตอ้ งการให้ จดั ชิดซา้ ย ชิดขวา หรือจดั กลางกไ็ ด้ ช่อง Measure สาหรับกาํ หนดมาตรการวดั ของตวั แปรวา่ จะเป็น Nominal หรือ Ordinal หรือ Scale (Interval และ Ratio) ต้งั ค่าในตวั แปร sex, age, year และ status โดยมีคุณลกั ษณะต่าง ๆ ดงั น้ี 88
รหสั วชิ า EGTI616 ชื่อวชิ า ระเบียบวธิ ีการวจิ ยั (Research Methodology) เม่ือต้งั คา่ คุณลกั ษณะของตวั แปรจนครบแลว้ ใหป้ ้ อนขอ้ มลู ของกลุ่มตัวอยา่ ง ท้งั หมดลง ในแต่ละตวั แปรจนครบ 20 คน เม่ือป้ อนขอ้ มูลครบ 20 คนแลว้ จะไดผ้ ลดงั น้ี 5) การบันทกึ แฟ้ มข้อมลู เมื่อป้ อนขอ้ มูลเรียบร้อยแลว้ (หรือยงั ไม่เรียบร้อยเน่ืองจากขอ้ มูลมีจาํ นวนมาก) เรา สามารถบนั ทึกขอ้ มูลที่ป้ อนเกบ็ ไวใ้ ช้ โดยเลือกเมนู File ------> Save as… จะปรากฏหนา้ ต่าง ดงั น้ี 89
รหสั วชิ า EGTI616 ช่ือวชิ า ระเบียบวธิ ีการวจิ ยั (Research Methodology) ผปู้ ้ อนขอ้ มูลอาจเลือกไดเรคทอร่ีท่ีตอ้ งการเกบ็ ขอ้ มูลโดยไปท่ี Save in: แลว้ เลอื ก Drive และ Directory ท่ีตอ้ งการแลว้ ต้งั ช่ือแฟ้ มขอ้ มูล โดยพิมพใ์ ส่ช่อง File Name : แลว้ คลิก OK โปรแกรมจะเติมนามสกลุ .sav ใหเ้ องโดยอตั โนมตั ิ 6) การเปิ ดแฟ้ มข้อมูล หากผวู้ เิ คราะห์ตอ้ งการเรียกแฟ้ มขอ้ มลู ท่ีมีอยแู่ ลว้ ออกมาแสดงเพ่อื ใช้ในการวเิ คราะห์ เลือกเมนู File ----> Open ------> Data… จะปรากฏหนา้ ต่างดงั น้ี จากน้นั ไปท่ี “Look in” เลือก Drive และ Directory ที่เกบ็ แฟ้ มขอ้ มูลที่ตอ้ งการเปิ ด และ คลิกเลือกแฟ้ มขอ้ มลู ท่ีตอ้ งการ เม่ือไดแ้ ลว้ ใหค้ ลิกป่ ุม “Open” กจ็ ะไดแ้ ฟ้ มขอ้ มลู ตามตอ้ งการ 7) การจดั การข้อมูล การกรอกข้อมูล เมื่อไดก้ าํ หนดตวั แปรทุกตวั แลว้ ก็สามารถป้ อนขอ้ มูล โดยขอ้ มูล 1 ชุด (case) โดยตอ้ ง เปล่ียนหนา้ จอเป็น Data View ก่อน แลว้ ทาํ การกรอกขอ้ มลู ต่อไปน้ี ตวั อยา่ งเช่น 90
รหสั วชิ า EGTI616 ช่ือวชิ า ระเบียบวธิ ีการวจิ ยั (Research Methodology) การปรับปรุงแก้ไขข้อมูล การดาํ เนินการปรับปรุงแกไ้ ขขอ้ มลู ในโปรแกรม SPSS สามารถดาํ เนินการแกไ้ ขในรูปแบบ และวธิ ีการเดียวกบั การใชง้ านใน Microsoft Excel เช่น การแกไ้ ขขอ้ มลู ใน cell - เลือก cell ที่จะแกไ้ ข - คลิกที่ค่าที่จะแกไ้ ข แลว้ ทาํ การแกไ้ ข - กด Enter การคดั ลอกขอ้ มลู - เลือกขอ้ มลู ที่ตอ้ งการคดั ลอกแลว้ ใชค้ าสง่ั Edit Copy - เลือกตาํ แหน่งท่ีจะวางขอ้ มูลท่ีคดั ลอก แลว้ ใชค้ าสงั่ Edit Paste การยา้ ยขอ้ มูล - เลือกขอ้ มูลท่ีตอ้ งการยา้ ยคา่ แลว้ ใชค้ าสง่ั Edit Cut 91
รหสั วชิ า EGTI616 ช่ือวชิ า ระเบียบวธิ ีการวจิ ยั (Research Methodology) - เลือกตาํ แหน่งท่ีจะวางขอ้ มูลท่ียา้ ย แลว้ ใชค้ าสงั่ Edit Paste การลบ case - เลือกท่ีหมายเลข case ของแต่ละแถว - ใชค้ าํ สงั่ Edit Clear การลบตวั แปร หรือ Column - เลือกชื่อตวั แปรซ่ึงอยทู่ ่ีหวั column - ใชค้ าสง่ั Edit Clear การคน้ หา Case - ใชค้ าสงั่ Data Go to Case… จะไดห้ นา้ จอ - ใส่หมายเลข case ท่ีตอ้ งการคน้ หา แลว้ เลือก การเลือกเซตยอ่ ยของ case - สามารถเลือกเซตยอ่ ยของ case ไดโ้ ดยการกาํ หนดเงื่อนไข โดยใชค้ าํ สง่ั Data Selected Case… จะปรากฏหนา้ จอดงั รูป 92
รหสั วชิ า EGTI616 ช่ือวชิ า ระเบียบวธิ ีการวจิ ยั (Research Methodology) - ถา้ ตอ้ งการเลือกโดยกาํ หนดเง่ือนไข คา่ ใชจ้ ่าย หรือ expense มากกวา่ 3,000 บาท โดยใชค้ าํ สงั่ If condition is satisfied เลือก if จะปรากฏหนา้ จอดงั รูป - ใส่เง่ือนไข โดยเลือก expense > 3000 เลือก Continue เลือก OK 93
รหสั วชิ า EGTI616 ช่ือวชิ า ระเบียบวธิ ีการวจิ ยั (Research Methodology) การแบ่งไฟลข์ อ้ มลู ออกเป็นกลุ่ม ๆ เพอื่ การวเิ คราะห์ โดยใชค้ าํ สงั่ Data Split File… จะไดห้ นา้ จอ การเปลี่ยนแปลงรูปแบบขอ้ มลู โดยใชค้ าํ สงั่ Transform คาํ สงั่ Transform มีคาํ สัง่ ยอ่ ย ดงั น้ี คาํ สงั่ Compute 94
รหสั วชิ า EGTI616 ช่ือวชิ า ระเบียบวธิ ีการวจิ ยั (Research Methodology) - ใชค้ าํ นวณค่าของตวั แปรชนิดตวั เลข - Target Variable ตอ้ งระบุช่ือตวั แปรใหม่ ซ่ึงเป็นตวั แปรที่รับค่าท่ีไดจ้ ากการ คาํ นวณโดยใชค้ าสงั่ Compute - Numeric Expression เป็นคาสง่ั ที่กาํ หนดค่าให้ Target Variable เช่น สมมติวา่ ตอ้ งการคาํ นวณ รายรับ รายจ่าย โดยตอ้ งใส่ขอ้ มูลรายได้ (income) ก่อน แลว้ คาํ นวณคา่ โดยหาจาก รายได้ (income) – ค่าใชจ้ ่าย (expense) ดงั น้นั o ช่อง Target Variable อาจใส่ตวั แปร sume o ช่อง Numeric Expression ใส่ค่า income – expense เคร่ืองจะทาํ การคาํ นวณคา่ ของรายรับ รายจ่ายให้ โดยอยใู่ นชื่อตวั แปร sume - นอกจากน้ีสามารถคาํ นวณโดยใชฟ้ ังก์ชนั ทางคณิตศาสตร์อื่น ๆ ได้ เช่น ABS(numexpr) เป็นคา่ absolute ของตวั แปร , LG10(numexpr) เป็น log ฐาน 10 , SQRT(numexpr) เป็นคา่ รากที่สอง เป็นตน้ 95
รหสั วชิ า EGTI616 ช่ือวชิ า ระเบียบวธิ ีการวจิ ยั (Research Methodology) คาํ สง่ั Recode - เป็นคาํ ส่ังท่ีใชใ้ นการเปล่ียนค่าของขอ้ มูล เช่น ตอ้ งการหาคา่ ใชจ้ ่ายเฉล่ียของผทู้ ี่ ไดเ้ กรดเฉล่ียต้งั แต่ 3.00 ข้ึนไป จะตอ้ งกาํ หนดค่าของตวั แปร expense ใหม่ - Recode into Same Variables เป็นการเปล่ียนค่าของตวั แปรเดิม หรือใหค้ า่ ของตวั แปรเดิมเปลี่ยนไป - Recode into Different Variables เป็นการสร้างตวั แปรใหม่เพ่ือเก็บค่าของตวั แปร ที่เปล่ียนไป โดยตวั แปรเดิมยงั มีค่าคงเดิม คาํ สง่ั Rank Cases - เป็นคาํ สั่งท่ีใชส้ าหรับจดั เรียงขอ้ มูลของตวั แปรแบบ numeric variable แปลง ขอ้ มูลใหม้ ีอนั ดบั ต่าง ๆ จากนอ้ ยไปมากหรือจากมากไปนอ้ ย ภายใตร้ ูปแบบของ การใชค้ ะแนนมาจดั อนั ดบั ดว้ ยแบบต่าง ๆ ที่เรียกวา่ Rank Type และรูปแบบ ของการจดั อนั ดบั ของขอ้ มูลท่ีมีค่าซ้าํ กนั ดว้ ยแบบต่างๆ ที่เรียกวา่ Rank Ties โดย ใชค้ าํ สงั่ Transform Rank Cases… 96
รหสั วชิ า EGTI616 ช่ือวชิ า ระเบียบวธิ ีการวจิ ยั (Research Methodology) คาํ สง่ั Count - เป็นคาํ สงั่ ท่ีใชส้ าหรับนบั ค่าของตวั แปรท่ีสนใจกาํ หนดคา่ ใหน้ บั วา่ ในแตล่ ะ case มีคา่ ดงั กล่าวหรือไม่ ถา้ มีหรือไม่มีเครื่องจะทาํ เคร่ืองหมายเช่น 1 หรือ 0 ไว้ และ เราสามารถหาผลรวมของ case ที่มีเครื่องหมาย 1 ต่อไปได้ โดยใชค้ าํ สง่ั Transform Count… 97
รหสั วชิ า EGTI616 ช่ือวชิ า ระเบียบวธิ ีการวจิ ยั (Research Methodology) 8) การวเิ คราะห์ข้อมูล เม่ือไดข้ อ้ มูลแลว้ เราก็มาเร่ิมตน้ วิเคราะห์ขอ้ มูลไดโ้ ดยใชเ้ มนูหลกั Analyze จะปรากฏ เมนูรองชุดของสถิติให้เลือกมากมาย ในแต่ละเมนูรองก็จะมีเมนูย่อยของแต่ละชุดสถิติให้ วเิ คราะห์ดงั รูป เลือกเมนูรอง “Descriptive Statistics” เมนูยอ่ ย “ Descriptive” จะปรากฏหนา้ ต่าง 98
รหสั วชิ า EGTI616 ช่ือวชิ า ระเบียบวธิ ีการวจิ ยั (Research Methodology) เลือกสถิติท่ีตอ้ งการไดแ้ ลว้ คลิกป่ ุม “Continue” และคลิกป่ ุม “OK” โปรแกรมจะ ประมวลผลแสดงในหนา้ ต่าง Output ผลที่ไดจ้ ะเป็นตารางสถิติพ้นื ฐานของตวั แปรเพศ อายุ และช้นั ปี 9) การปิ ดโปรแกรม เมื่อสิ้นสุดการใชง้ านใหป้ ิ ดโปรแกรม โดยการคลิกที่เมนหู ลกั “File” และเมนูรอง “Exit” โปรแกรมจะถูกปิ ดลง 8.3 การวเิ คราะห์ค่าสถติ เิ บอื้ งต้น การคาํ นวณค่าสถติ เิ บอื้ งต้น หลงั จากท่ีเก็บรวบรวมขอ้ มูลและสร้างแฟ้ มขอ้ มูลเรียบร้อยแลว้ ผูว้ ิจยั จะตอ้ งทาํ การ วเิ คราะห์ขอ้ มูล เพื่อสรุปผลของการวจิ ยั ตามวตั ถุประสงคข์ องงานวจิ ยั ซ่ึงจาํ เป็นตอ้ งใชว้ ิธีการ ทางสถิติช่วยในการวเิ คราะห์ ซ่ึงสามารถแบ่งออกเป็น 2 ประเภท ดงั น้ี 1) สถติ เิ ชิงพรรณนา (Descriptive Statistics) ซ่ึงเป็นการนาํ เสนอข้อมูลที่เก็บรวบรวม มาโดยนาํ มาบรรยายถึงลกั ษณะของขอ้ มูลที่เก็บมาได้ ท้งั ในรูปแบบของตาราง ขอ้ ความ แผนภูมิ หรือกราฟต่างๆ และคา่ สถิติตา่ งๆ 99
รหสั วชิ า EGTI616 ชื่อวชิ า ระเบียบวธิ ีการวจิ ยั (Research Methodology) 2) สถิตเิ ชิงอนุมาน (Inference Statistics) หมายถึงการวเิ คราะห์ขอ้ มูลตวั อยา่ ง แลว้ นาํ ผลการวิเคราะห์น้นั อา้ งอิงถึงลกั ษณะที่สาํ คญั ของประชากร โดยใชห้ ลกั เกณฑข์ องความน่าจะ เป็ น และสถิติเชิงอนุมานจะประกอบดว้ ย การประมาณค่า การทดสอบสมมติฐานท่ีใช้ พารามิเตอร์ และท่ีไม่ใชพ้ ารามิเตอร์ เป็นตน้ สถติ เิ ชิงพรรณนา (Descriptive Statistics) เป็นการนาํ เสนอขอ้ มูลท่ีเก็บรวบรวมมาโดยนามาบรรยายถึงลกั ษณะของขอ้ มูลท่ีเก็บมา ได้ ท้งั ในรูปแบบของตาราง ขอ้ ความ แผนภูมิ หรือกราฟต่างๆ หลกั สาํ คญั ของสถิติเชิงพรรณนา น้ี คือ เกบ็ ขอ้ มูลชนิดใดมาไดก้ ็จะอธิบายไดเ้ ฉพาะขอ้ มูลชนิดน้นั ไม่สามารถนาํ ไปใชอ้ า้ งอิงถึง ขอ้ มูลในส่วนอ่ืนๆ ได้ เช่น เกบ็ ขอ้ มูลจากกลุ่มตวั อยา่ ง จาํ นวน 600 คน จากประชากรท้งั หมด 1,000 คน การบรรยายลกั ษณะของขอ้ มูลตลอดจนการวิเคราะห์และแปลผลจะเป็ นเฉพาะใน ส่วนของขอ้ มูลจากกลุ่มตวั อยา่ ง 600 คนเท่าน้นั ผวู้ ิจยั ไม่สามารถนาํ ไปใชอ้ า้ งอิงแทนประชากร ท้งั หมด 1,000 คนได้ จึงเป็นการสรุปเฉพาะลกั ษณะท่ีสาํ คญั ของขอ้ มูลท่ีศึกษาเท่าน้นั และสถิติ พรรณนาประกอบดว้ ยเน้ือหา ดงั ต่อไปน้ี 1) การนําเสนอข้อมูล ซ่ึงประกอบดว้ ย - การนาํ เสนอในรูปบทความเช่น สถิติของคนไทยแยกตามเพศ - การนาํ เสนอในรูปตาราง หรือร้อยละ ซ่ึงอาจเป็ นตารางจาํ แนกทางเดียวหรือ หลายทาง - การนาํ เสนอในรูปกราฟ เช่นกราฟเส้น กราฟแท่ง กราฟวงกลม 2) การแจกแจงความถี่ การแจกแจงความถี่ เป็นการแสดงค่าความถ่ีของขอ้ มลู ท่ีเกบ็ มาได้ โดยแสดงเป็น จาํ นวนและร้อยละ (%) เช่น จาํ นวนและเปอร์เซ็นตข์ องอาจารย์ แยกตามวฒุ ิการศึกษาและตาม เพศ (รายละเอียดของสมการอยใู่ นภาคผนวก ข) 3) การวดั แนวโน้มเข้าสู่ส่วนกลาง เป็นการหาคา่ กลางของขอ้ มลู เพอ่ื ใชเ้ ป็นตวั แทนของขอ้ มูลท้งั หมด เพอื่ เป็น ประโยชน์ในการเปรียบเทียบ ขอ้ มูลแต่ละชุด โดยไม่จาํ เป็นตอ้ งพิจารณาขอ้ มูลท้งั หมดของแต่ ละชุด สถิติของการวดั แนวโนม้ เขา้ สู่ส่วนกลางที่นิยมใช้ คือ (รายละเอียดของสมการอยใู่ น ภาคผนวก ค) 100
รหสั วชิ า EGTI616 ชื่อวชิ า ระเบียบวธิ ีการวจิ ยั (Research Methodology) - ค่าเฉลี่ย (Mean) ประกอบดว้ ย ค่าเฉลี่ยเลขคณิต มชั ฌิมเรขาคณิต มชั ฌิมฮาร์โม นิก - คา่ มธั ยฐาน (Medain) - ค่าฐานนิยม (Mode) - ค่าเปอร์เซนตไ์ ทล์ (Percentile) - ค่าเดไซล์ (Decile) - ควอไทล์ (Quatile) 4) การวดั การกระจายของข้อมูล การวดั การกระจายของขอ้ มลู เป็นการอธิบายวา่ ขอ้ มูลแต่ละค่าน้นั มีคา่ ท่ีห่างกนั มากนอ้ ยเพียงใด สถิติของการ วดั การกระจายของขอ้ มลู ที่นิยมใช้ คือ (รายละเอียดของสมการอยู่ ในภาคผนวก ง) - พิสยั (Range) - ส่วนเบี่ยงเบนควอไทล์ (QuatileDeviation) - ส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation) - ค่าแปรปรวน (Variance) - สมั ประสิทธ์ิความแปรผนั (Coefficient of Variance) 8.4 ตวั อย่างการวเิ คราะห์ค่าสถติ เิ บอื้ งต้นด้วยโปรแกรม SPSS สาํ หรับคาํ ส่ังที่ใชใ้ นการหาค่าสถิติเบ้ืองตน้ ของ Program SPSS มี 2 คาํ ส่ัง คือ Frequencies และ Descriptive ซ่ึงผใู้ ชส้ ามารถเลือกคาํ ส่ังใดคาํ สั่งหน่ึง ซ่ึงผลลพั ธ์ท่ีไดจ้ ะใหผ้ ล เหมือนกนั 1. คาํ ส่ัง Frequencies ซ่ึงมีข้นั ตอนการหาดงั น้ี 1) เปิ ดแฟ้ มขอ้ มูล เลอื ก menu Analyze Descriptive Statistics Frequencies 101
รหสั วชิ า EGTI616 ช่ือวชิ า ระเบียบวธิ ีการวจิ ยั (Research Methodology) จะปรากฏหนา้ จอ ดงั น้ี 2) เลือกตวั แปรท่ีเราสนใจจะศึกษาเขา้ สู่ช่อง Variable 3) เลือก Statistics เพื่อใชใ้ นการวเิ คราะห์คา่ สถิติต่าง ๆ 102
รหสั วชิ า EGTI616 ชื่อวชิ า ระเบียบวธิ ีการวจิ ยั (Research Methodology) จากรูป จะประกอบดว้ ยส่วนต่างๆ ดงั น้ี Percentile Values : ผใู้ ชส้ ามารถเลือกทางเลือกต่อไปน้ีไดห้ ลายทางเลือก คือ - Quatile ซ่ึงจะแสดงเป็นค่าของเปอร์เซ็นตไ์ ทลท์ ่ี 25 , 50 , 75 - Cut points for equal group จะแสดงเปอร์เซ็นตไ์ ทลซ์ ่ึงเป็นค่าท่ีแบ่งขอ้ มูลออกเป็นกลุ่ม ยอ่ ยๆ โดยแต่ละกลุ่มยอ่ ยมีขนาดเท่ากนั (จาํ นวน case เท่ากนั ) ผใู้ ชส้ ามารถระบุค่าใน ช่องสี่เหลี่ยมเป็นเลขจาํ นวนเตม็ บวกท่ีมีค่าระหวา่ ง 2 และ 100 - Percentile (s) ผใู้ ชส้ ามารถระบุค่าเปอร์เซ็นตไ์ ทลท์ ่ีตอ้ งการไดห้ ลายค่า ซ่ึงมีค่าระหวา่ ง 0 ถึง 100 โดยจะตอ้ งระบุทีละค่า แลว้ เลือก Add ถา้ ตอ้ งการลบใชแ้ ถบดาํ เปอร์เซ็นตไ์ ทลท์ ่ี ตอ้ งการลบแลว้ ทาํ การ Remove ออก แต่ถา้ ตอ้ งการเปล่ียนแปลงใหเ้ ลือก Change Central Tendency : เป็นสถิตทิ ่ีแสดงค่าการของขอ้ มลู ประกอบดว้ ย - Mean คา่ เฉลี่ย - Median ค่ามธั ยฐาน - Mode คา่ ฐานนิยม - Sum ผลบวกของขอ้ มลู 103
รหสั วชิ า EGTI616 ชื่อวชิ า ระเบียบวธิ ีการวจิ ยั (Research Methodology) Dispersion : เป็นสถิติที่ใชว้ ดั การกระจายของขอ้ มลู ประกอบดว้ ย - Std.Deviation คา่ ส่วนเบ่ียงเบนมาตรฐานของขอ้ มูล - Variance ค่าความแปรปรวน - Range พิสยั - Minimum ค่าต่าํ สุดของขอ้ มูล - Maximum ค่าสูงสุดของขอ้ มลู - S.E.mean คา่ ความคลาดเคล่ือนมาตรฐานกบั คา่ เฉล่ียตวั อยา่ ง Distribution : คา่ สถิติท่ีแสดงการแจกแจงของขอ้ มูล - Skewness คา่ ความเนน้ ของการแจกแจงที่ไมส่ มมาตร - Kurtosis ค่าความโด่งของการแจกแจงของขอ้ มูล ถา้ นกั ศึกษาสนใจจะศึกษาสถิติใด ก็ใหเ้ ลือกในช่องขา้ งหนา้ ของสถิติในแต่ละตวั แต่สาํ หรับ เบ้ืองตน้ น้ี ทาํ การเลือกใชส้ ถิติ Mean Median Mode Std.Deviation Variance Range 4) เลือก Continue และ OK 5) แลว้ หนา้ จอ Output จะปรากฏ 104
รหสั วชิ า EGTI616 ช่ือวชิ า ระเบียบวธิ ีการวจิ ยั (Research Methodology) 2. คาสั่ง Descriptive ซ่ึงมีข้นั ตอนการหาดงั น้ี 1) เปิ ดแฟ้ มขอ้ มูล เลือก menu Analyze Descriptive Statistics Descriptive จะปรากฏหนา้ จอ ดงั น้ี 105
รหสั วชิ า EGTI616 ช่ือวชิ า ระเบียบวธิ ีการวจิ ยั (Research Methodology) 2) ทาํ การเลือกตวั แปรท่ีเราจะศึกษาเขา้ สู่ช่อง Variable(s) 3) เลือก Options เพื่อเลือกสถิติท่ีจะใชว้ เิ คราะห์ จะปรากฏหนา้ จอ ถา้ นกั ศึกษาสนใจจะศึกษาสถิติใด ก็ใหเ้ ลือกในช่องขา้ งหนา้ ของสถิติในแต่ละตวั แต่ สาํ หรับเบ้ืองตน้ น้ี ทาํ การเลือกใชส้ ถิติ Mean Median Mode Std.Deviation Variance Range 4) เลือก Continue และ OK 5) แลว้ หนา้ จอ Output จะปรากฏ 106
รหสั วชิ า EGTI616 ช่ือวชิ า ระเบียบวธิ ีการวจิ ยั (Research Methodology) การเลอื กใช้ค่าการวดั แนวโน้มเข้าสู่ส่วนกลางและการวดั การกระจายทเี่ หมาะสมในการ อธิบายข้อมูล มีปัจจยั ควรพจิ ารณาดงั น้ี 1. ระดบั การวดั ตวั ของขอ้ มูล - ระดบั นามบญั ญตั ิ (Nominal scale) นิยมใช้ ฐานนิยม - ระดบั ลาดบั ข้นั (Ordinal scale)นิยมใช้ มธั ยฐาน พสิ ยั และส่วนเบี่ยงเบนควอไทล์ - ระดบั อนั ตรภาค (Interval scale) และระดบั อตั รภาค (Ratio scale) นิยมใช้ ค่าเฉลี่ย ค่าส่วนเบี่ยงเบนมาตรฐาน และความแปรปรวน 2. รูปแบบการกระจายของขอ้ มลู 3. วตั ถุประสงคข์ องการวจิ ยั ตวั อย่างแบบฝึ กหัดและการคาํ นวณค่าสถติ พิ นื้ ฐาน โดยใช้ Program SPSS - ความสูง (เซนติเมตร) ของผเู้ ขา้ ร่วมอบรมการใชโ้ ปรแกรม SPSS จานวน 45 คน เป็นดงั น้ีคือ 146 148 140 150 152 156 148 149 149 150 163 142 180 160 160 140 160 168 160 152 141 150 180 128 132 162 158 162 146 139 148 172 138 138 150 147 182 147 144 136 150 158 150 130 143 จงหา 1) คา่ เฉลี่ยเลขคณิต มธั ยฐาน ฐานนิยม 2) ส่วนเบี่ยงเบนมาตรฐาน ส่วนเบี่ยงเบนควอไทล์ พิสยั ความแปรปรวน วธิ ีทาํ 1. เปิ ดโปรแกรม SPSS 2. เลือกหนา้ จอ Variable View และประกาศตวั แปร แลว้ ใส่ขอ้ มลู 3. เลือกหนา้ จอ Data View ทาํ การใส่ขอ้ มลู ความสูงลงไป และเลือกเมนู Analyze เพื่อ วเิ คราะห์ขอ้ มลู ดงั รูป 107
รหสั วชิ า EGTI616 ช่ือวชิ า ระเบียบวธิ ีการวจิ ยั (Research Methodology) 4. จะปรากฏหนา้ จอ Frequency ทาํ การเลือกตวั แปรท่ีเราสนใจ เขา้ สู่ช่อง Variable(s) แลว้ เลือก เมนู Statistics เพื่อเลือกคา่ สถิติท่ีจะวเิ คราะห์ 5. จะปรากฏหนา้ จอ Frequencies : Statistics แลว้ ใหน้ กั ศึกษาทาํ การเลือกค่าสถติ ิที่ ตอ้ งการ 108
รหสั วชิ า EGTI616 ชื่อวชิ า ระเบียบวธิ ีการวจิ ยั (Research Methodology) 6. เลือก Continue และกด OK จะปรากฏหนา้ จอ Out-Put ดงั รูป 109
รหสั วชิ า EGTI616 ช่ือวชิ า ระเบียบวธิ ีการวจิ ยั (Research Methodology) จากตาราง Out-Put สามารถตอบคาํ ถามจากโจทย์ คือ ผเู้ ขา้ สมั มนาจะมีความสูงเฉล่ีย ค่ามธั ยฐาน ค่าฐานนิยม เท่ากบั 151.20 , 150.00 , 150.00 cm ตามลาํ ดับ และจะมีค่าส่วน เบ่ียงเบนมาตรฐาน ค่าพิสยั ค่าความแปรปรวน เท่ากบั 12.53 , 54 , 156.90 ตามลาํ ดบั แต่สาํ หรับ ค่าส่วนเบี่ยงเบนควอไทลน์ ้นั สามารถคาํ นวณไดจ้ าก QD = (Q3-Q1)/2 = (160.00-142.5)/2 = 8.75 แบบฝึ กหัดบทท่ี 8 1. ขอ้ มูลการใชบ้ ริการศูนยค์ อมพิวเตอร์ของนกั ศึกษาระดบั บณั ฑิตศึกษาจาํ นวน 160 คน ในภาคการศึกษาท่ี 2 / 2549 จงหา 1.1 คา่ เฉลี่ยเลขคณิต มธั ยฐาน ฐานนิยม 1.2 ส่วนเบี่ยงเบนมาตรฐาน ส่วนเบี่ยงเบนควอไทล์ ความแปรปรวน 2. ผลสมั ฤทธ์ิทางการเรียนในการทดสอบประจาํ บทเร่ือง ปริมาณสารสมั พนั ธ์ ของ นกั เรียนช้นั มธั ยมปีท่ี 5 ของนกั เรียนโรงเรียนแห่งหน่งึ 110
รหสั วชิ า EGTI616 ช่ือวชิ า ระเบียบวธิ ีการวจิ ยั (Research Methodology) จงหา 2.1 จงหาแนวโนม้ เขา้ สู่ส่วนกลางของขอ้ มลู ชุดน้ี โดยใชค้ า่ เฉลี่ยเลขคณิต มธั ยฐาน ฐานนิยม 2.2 ส่วนเบี่ยงเบนมาตรฐาน ส่วนเบ่ียงเบนควอไทล์ ความแปรปรวน 3. ผลของการทดสอบ ในการวา่ ยน้าํ ระยะทาง 200 เมตร ของนกั เรียนช้นั มธั ยมศึกษาปี ที่ 6 ของโรงเรียนแห่งหน่ึงจาํ นวน 3 หอ้ ง (นาที) หอ้ งที่ 1 8 12 13 7 7 12 7 9 หอ้ งที่ 2 10 8 9 10 15 8 7 11 8 15 10 12 15 8 10 หอ้ งที่ 3 12 10 8 15 10 10 11 9 9 7 13 10 12 14 10 3.1 จงหาเวลาเฉล่ียของแต่ละห้อง และเวลาเฉล่ียรวมของการวา่ ยน้าํ คร้ังน้ี 3.2 จงหาการกระจายของคะแนนสอบแตล่ ะหอ้ งโดยใช้ ส่วนเบ่ียงเบนมาตรฐาน (Standard Deviation) Hint: ใชค้ าํ สงั่ Analyze ตามดว้ ยเมนู Compare Mean และ Mean เพราะจะเป็นการ วเิ คราะห์ขอ้ มลู ภายในกลุม่ และระหวา่ งกลุ่ม 111
ภาคผนวก ก ตวั อยา่ งการตอบคาํ ถามแบบฝึกหดั ทา้ ยบทจากการอา่ นบทความวจิ ยั 112
94 IEEE TRANSACTIONS ON NANOBIOSCIENCE, VOL. 2, NO. 2, JUNE 2003 On the Accurate Counting of Tumor Cells Bin Fang*, Wynne Hsu, and Mong Li Lee Abstract—Quantitative analysis of tumor cells is fundamental ตัวอย่างบทความวิจัย Automatic segmentation methods are typically based on local to pathological studies. Current practices are mostly manual, image information such as pixel intensity, discontinuity of inten- time-consuming, and tedious, yielding subjective and imprecise sity, histogram, or clusters. These techniques can be categorized results. To understand the behavior of tumor cells, it is critical into two classes: region-finding algorithms versus contour-de- to have an objective way to count these cells. In addition, these tection algorithms. Region-finding algorithms [3]–[6] are com- counts must be reproducible and independent of the person putationally expensive because they partition the gray level his- performing the count. In this work, we propose a two-stage tumor togram to find thresholds for segmentation. Contour-detection cell identification strategy. In the first stage, potential tumor cells algorithms rely on the discontinuity of image intensities or tex- are segmented automatically using local adaptive thresholding ture at the object boundaries [7], [8], which perform poorly in and dynamic water immersion techniques. Unfortunately, due to noisy images. histological noise in the images, a large number of false identifi- cations are obtained. To improve the accuracy of the identified Many cell segmentation methods have employed image tumor cells, a second stage of feature rules mining is initiated. processing techniques to deal with domain-specific problems Experiment results show that image processing techniques alone [9]–[16]. Reference [9] used a multiresolution method in- are unable to give accurate results for tumor cell counting. volving quadtree smoothing, lowest level classification, and However, with the use of features rules, we are able to achieve an boundary reestimation by water immersion. Reference [10] identification accuracy of 94.3%. used spatial adaptive filter, watershed, and refining of labeled images. Reference [11] presented a parametric fitting algorithm Index Terms—Dynamic water immersion, features mining, local for the segmentation of single cervical and breast cell images adaptive thresholding, tumor cell identification. from cytology smears by incorporating a priori knowledge of the objects to be identified as elliptical curves. Thresholding I. INTRODUCTION methods based on statistical information such as gray-level histogram and morphological operations have also been used T HE mechanism of tumor cell metastasis has been the for segmentation. Reference [12] used intensity histogram for subject of research for many years in pathology [1], [2]. color images. Reference [13] utilized a combination of mul- Tumor cells first migrate from the primary tumor, penetrate tiple thresholding, dilation morphology operation and region into the circulation, and eventually colonize distant sites. growing methods to perform cell segmentation. Reference [14] Knowledge regarding the dissemination of tumor cells is very employed median filter, local histogram, and morphology filter important in clinical studies of pathology. The quantitative with watershed method for cell segmentation. Reference [15] analysis of tumor cells forms the basis for characterizing the generated principal components and processed their histogram dissemination activity of tumor cells. Original tumor cells are to find regions of interest. Reference [16] used median filter and first stained with special materials such as green fluorescent mathematical morphology operation for edge-detection-based protein (GFP), which is isolated from jellyfish. The GFP is cell segmentation. All these methods are unable to effectively transfected into original tumor cells to be part of the DNA segment the regions of interest with histological noise and of the cells. When the tumor cells grow and divide, they nonuniform background. incorporate this GFP. These stained cells are then introduced into the experiment animals. After a few days, tissue sections Reference [17] proposed a two-step segmentation strategy containing the stained tumor cells are harvested from certain to deal with uneven illumination in images. An approximate body organ such as lungs. A trained medical professional will region containing a cell is first detected by applying a global then manually count the number of tumor cells expressing threshold, before the cell is segmented. This method is com- GFP in the tissue section under a converted fluorescence putationally very expensive and does not consider clumped cell microscope focused onto the tissue section or on a monitor clusters. There has been little work on extracting individual cells screen displaying fluorescence cell images that are digitally from regions of interest that correspond to clumped cell clusters. captured from the tissue sections. This process is laborious Mathematical morphology operations and watershed techniques and tedious, yielding subjective and imprecise results. Hence, will lead to oversegmentation and result in irregular contours there is an increasing demand for an automated system that can of cells. Reference [15] used a standard morphological opera- analyze the digitized histological images and identify tumor tion called skeleton by influence zone to detect individual cells. cells accurately. Reference [18] employed a hierarchical clustering algorithm to group together the boundary points of a cell clump that belong Manuscript received October 22, 2002; revised March 20, 2003. Asterisk in- to the same globally convex sections in the boundary. When the dicates corresponding author. segmented regions do not provide sufficient shape information for convex or concave analysis and cell boundaries inside the *B. Fang is with the Singapore-MIT Alliance, National University of Singa- pore, Singapore. W. Hsu and M. L. Lee are with the Department of Computer Science, School of Computing, National University of Singapore, Singapore. Digital Object Identifier 10.1109/TNB.2003.813930 1536-1241/03$17.00 © 2003 IEEE
FANG et al.: ON THE ACCURATE COUNTING OF TUMOR CELLS 95 ตัวอย่างบทความวิจัย(a) (b) (c) Fig. 1. Portions of a tissue-section histological image. cell clusters are not sharp, these methods are unable to success- 3) Presence of cell pseudopods complicates the problem fur- fully detect individual cells. ther as cell boundaries typically are not sharp enough to be readily extracted. In addition, there are many situa- Fig. 1 shows the characteristics of typical fluorescence cell tions where the cells are joined or located so close to images of tissue sections. one another that highly irregular shapes are formed [see Fig. 2(b)]. 1) High-intensity pixels in the form of white patches in the image could be the individual tumor cells [see Fig. 2(a)], 4) Intensity of a tumor cell usually peaks at the center of or clumped cell clusters where the tumor cells have grown the cell. However, when two cells are touching, an in- to form a colony [see Fig. 2(b)], or histological noise from tensity valley will be formed between the two peaks [see the reflection of light on the spherical surface of normal Fig. 2(b)]. cells [see Fig. 2(c)], or pseudopods of tumor cells [see Fig. 2(b)]. Given the complex characteristics of the images in our study, existing methods for cell segmentation cannot produce satisfac- 2) Nonuniform background illumination may lead to tumor tory results. Our studies indicate that image processing tech- cells being darker than the background [see Fig. 2(d)].
96 IEEE TRANSACTIONS ON NANOBIOSCIENCE, VOL. 2, NO. 2, JUNE 2003 ตัวอย่างบทความวิจัย(a) (b) (c) (d) Fig. 2. (a) Individual tumor cells. (b) Clumped tumor cell clusters and pseudopods of tumor cells. (c) Noise from light reflection. (d) “Brighter” background. niques alone are unable to give accurate results for tumor cell Applying feature rules to aid in pattern identification is counting. Instead, we propose a two-stage tumor cell identifi- gaining popularity in biomedical engineering. Reference cation strategy. First, we employ a local adaptive thresholding [19] employed an overall score for a digital image based approach to segment regions of interest from the background on extracted features measured on individual cells to decide by minimizing the negative effects of distant background noise. whether the tissue image is cancerous or not. Reference We also use a dynamic water immersion algorithm to detect [20] used machine classifiers built from STATPAC indexes individual tumor cells in clumped tumor clusters so that these for glaucoma diagnosis. Reference [21] used a neural net cells can be extracted as objects of interest. Investigations show of local linear map to classify fluorescent lymphocytes in that our approach is able to effectively extract reliable circle-like tissue sections semiautomatically. Reference [22] investigated contours of the tumor cells, as well as contours that correspond the use of neural networks and association rule mining for to histological noise such as white light reflection areas and the classifying digital mammograms into two categories: normal extended pseudopods of tumor cells. Next, we use feature rules and abnormal images. Reference [23] combined 12 image to help distinguish tumor cells from histological noise. attributes extracted from retinal vessel segments and fed them
FANG et al.: ON THE ACCURATE COUNTING OF TUMOR CELLS 97 added to the set of objects of interest. For each object, we ex- tract discriminative features to describe the characteristics of the extracted regions. Based on the extracted features, three classi- fiers are built to differentiate the tumor cells from noise. They are the Naïve Bayes classifier [27], the C4.5 classifier [28], and the CBA classifier [29]. Finally, a metaclassifier with majority voting strategy is implemented on top of the three base classi- fiers to further improve the accuracy for tumor cell identifica- tion. III. OBJECTS OF INTEREST EXTRACTION The accurate and effective extraction of the objects of interest forms the basis for subsequent feature-based classification. In order not to miss any potential tumor cells, we adopt a two-step process. The first step segments meaningful regions from the highly nonuniform background. This minimizes the negative ef- fects of distant background noise. The second step aims to sepa- rate the closely located tumor cells so as to obtain the individual objects of interest. ตัวอย่างบทความวิจัย Fig. 3. Overview of tumor cell identification process. A. Local Adaptive Thresholding into an association-based data mining classification tool (CBA) Thresholding methods [30] can be classified as global or to classify whether the vessels as normal or abnormal [24] used local. Global thresholding methods use a single threshold level artificial intelligence techniques to detect candidate regions for the entire image [3], [4], while local methods develop a in mammogram. A tree-type classification strategy was then threshold surface which allows a different threshold value to applied at the end to determine whether a given region was be applied to each pixel [31], [32]. The former tend to produce suspicious for cancer. To the best of our knowledge, no data unconnected boundaries of objects, and linking operations are mining techniques have been applied to detect tumor cell in needed. In our case, global thresholding is unable to effectively fluorescence cell images. segment all the white patches. This is because that background is nonuniformly illuminated causing white patches at one In this paper, relevant meaningful features are extracted from location in the image to be “darker” than the background at objects of interest, and three base classifiers are built to gen- other locations. Applying a global thresholding across the erate features rules that will differentiate tumor cells from his- entire image would result in “brighter” background regions tological noise. Since different classifiers potentially offer com- being misclassified as cells and “darker” cell regions being plementary information about the patterns to be classified [25], misclassified as background. [26], we unify three base classifiers (decision-tree based, asso- ciation-rules based, and probability based) into a metaclassifier Fig. 4(a) shows the segmented result of a local portion of the using the majority vote strategy. Experiment results indicated entire image by applying the global thresholding method pro- that using features rules allows us to achieve an accuracy of posed by Otsu [4]. A large number of background noises re- 94.3% in the identification of tumor cells. main in the segmentation result. To handle this, we use a local adaptive thresholding scheme. The image is divided into II. OVERVIEW subimages of equal size. The histogram of each subimage Fig. 3 shows an overview of our proposed approach. First, is computed and the local threshold determined. Based on the we apply a local adaptive thresholding method to segment the mean and variance of the subimage intensity histogram, the objects of interest. Second, we use a dynamic water immersion threshold is set as method to locate cells within clumped cell clusters, which are TH mean std (1) where TH is the adaptive threshold, mean and std represents the mean and standard deviation of the intensity distribution of all pixels in the subimage, respectively, and is a constant. Fig. 4(b) shows the result of applying local adaptive thresh- olding method to segment regions of interest, with 1.0. The segmented white patches cover all potential tumor cells as iden- tified by a medical professional with a small amount of back- ground noise. Hence, the local adaptive thresholding method is able to provide adequate segmentation results with histological meaning for further processing.
98 IEEE TRANSACTIONS ON NANOBIOSCIENCE, VOL. 2, NO. 2, JUNE 2003 ตัวอย่างบทความวิจัย (a) (b) Fig. 4. Segmentation results of regions of interest applied to the image in Fig. 1(a). (a) By Otsu’s global thresholding method. (b) By the proposed local adaptive thresholding method. B. Dynamic Water Immersion three-dimensional (3-D) representation that points F and J are in small regions and are not marked out as peaks. Having obtained the regions of interest, our next task is to Having identified the intensity peaks, the water immersion separate the clumped cell clusters into individual cell objects so process starts from the detected peaks denoted as seeds and pro- gressively immerses its neighboring pixels. Neighboring pixels that meaningful features for each object can be extracted. This are defined as the eight-direction neighbors. These neighbors are placed in a queue structure sorted in descending order of problem is complicated by the fuzzy boundaries of the cells. the pixel intensity level. The lowest intensity pixel in the queue will be “immersed” first and marked as belonging to the same Further, the shapes of cells can be deformed due to the presence object label as the current seed. All neighboring pixels whose intensity level is lower than the marked pixel are added to the of cell pseudopods. Edge-detection techniques such as Laplace queue. This progressive immersion process continues until the queue is empty. of Gaussian (LoG) perform poorly, as they tend to give broken The direct application of the water immersion technique has and disjoined edges. the tendency of overimmersion that leads to incorrect and de- formed contours of the tumor cells. The tumor cells should be The watershed or water immersion algorithm is a powerful circular; instead, the resulting cell shapes are quite irregular. This can seriously undermine the accuracy of the classifiers technique for touching object contour detection [33], [34]. This which aim to distinguish tumor cell objects from noise objects. To overcome this, we apply an additional stop criterion. Besides algorithm works by grouping pixels with similar gradient infor- ignoring all neighboring pixels with intensity level lower than the last placed pixel, we also ignore all those pixels whose in- mation. The direct application of water immersion method to tensity level is too low as compared to the seed pixel. We use a dynamically set seed-to-pixel contrast threshold. This threshold the digitized histological images typically oversegments the in- is larger for the “brighter” seed and smaller for the “darker” seed. This is because from a priori knowledge, we know that the dividual cells. Thus, we propose the following dynamic water variation in intensity level of pixels neighboring to a “brighter” peak is larger than that to a “darker” peak, in which case the immersion algorithm. First, an sliding window is used contour related to the “brighter” peaks should be longer. The seed-to-pixel contrast threshold is directly related to the inten- to locate the local peaks with maximum intensity in the regions sity quantity of the seed involved as described in the equation of interest. For each segmented white patch, we place the center of the window over each pixel in the white patches. If the inten- sity of the center pixel is the highest with respect to all the other pixels in the window, we say that the center pixel is a local peak; otherwise, the window will be centered at another pixel to search for all local peaks. All the peaks will be eventually marked and treated as the starting seeds for water immersion method. One advantage of using the sliding window approach is that with appropriate window size, it can eliminate peaks that correspond to the light reflection regions, thus removing false detection. This is because the intensity levels of the peaks cor- responding to the light reflection areas are generally lower than that of potential tumor cells or pseudopods of cells. Another advantage is that peaks within smaller isolate regions can also be eliminated. Fig. 5(a) shows the result of choosing a suitable window size on the detection of peaks. Fig. 5(b) illustrates with Con th (2)
FANG et al.: ON THE ACCURATE COUNTING OF TUMOR CELLS 99 (a) (b) Fig. 5. (a) Results of intensity peaks detection applied to the image in Fig. 1(a). Local intensity peaks are marked by bright white dots. (b) 3-D representation of the same segmented regions of interest illustrates local intensity peaks as seeds for water immersion algorithm. Points F and J are in small isolate regions and not determined as peaks. ตัวอย่างบทความวิจัย where Con th is the seed-to-pixel contrast threshold, is a con- able to separate those touching tumor cells. At the same time, stant determined by analyzing the intensity level variation of a number of light reflection areas have been eliminated. How- tumor cell objects, and is intensity level of the seed. ever, the algorithm still extracts false objects corresponding to the pseudopods of tumor cells as shown in Fig. 6(b). In the next The dynamic water immersion algorithm is as follows. section, we discuss how the features mining algorithm can be used to increase the identification accuracy by automatically Algorithm DynamicWaterImmersion classifying these objects of interest into either tumor cells or nontumor cells (histological noise). FOR each seed of local intensity maxima IV. TUMOR CELL IDENTIFICATION intensity value of the seed A. Feature Extraction for Tumor Cell Identification seed-to-pixel contrast threshold At this point, we have extracted individual objects of interest FOR each 8-directional neighbor of the from tissue section images. For each object, we need to extract relevant information for features mining. A priori knowledge seed , of the tumor cells’ characteristics indicates that touching cells and cell pseudopods resulted in irregularly shaped tumor cells. intensity value of The proposed dynamic water immersion method is able to ex- tract individual cells that conform to the circular appearance [see IF ( ) THEN ; Fig. 6(a)]. Moreover, objects that are due to histological noise usually bear different appearances from tumor cell objects in the ENDFOR subimages, which can be characterized by lower intensity peaks (maximum intensity value of the object), smaller area and width LOOP measurement, smaller 3-D volume measure, and more elongated appearance complexity [see Fig. 6(b)]. Hence, the following rel- Sort elements in Queue in descent order evant features of the object of interest are able to provide suf- ficient discriminative power to classify objects into tumor cells IF ( is at last position in Queue) and histological noises: maximum intensity value (seed inten- sity value), power, elongation, area, and width. THEN The power of an object of interest is defined as the sum of the intensity value of modified intensity values of all elements in the object. The mod- ified intensity values of the elements are obtained by subtracting FOR each 8-directional neighbor of the minimum intensity value of the object from the original in- tensity. The elongation of an object is the ratio of the width of not in the Queue, the minor axis to the length of the major axis. If the ratio equals one, the object is roughly a square or is circular in shaped. As the intensity value of ratio decreases from one, the object becomes more elongated. IF ( .and. ) THEN ; ENDFOR Remove from Queue and give same ob- ject label as seed. ENDIF ) THEN exit LOOP IF ( ENDLOOP ENDFOR Fig. 6(a) shows that the proposed algorithm is able to ef- fectively extracted reliable contours of the tumor cells, and is
100 IEEE TRANSACTIONS ON NANOBIOSCIENCE, VOL. 2, NO. 2, JUNE 2003 ตัวอย่างบทความวิจัย (a) (b) Fig. 6. (a) Illustration of extracted objects of interest marked by continuous white line applied to the image in Fig. 1(a). (b) 3-D representation of the same objects of interest illustrates that objects related to noise (E; I) have distinct characteristics from tumor cells such as smaller object volume. The area of the object of interest is the total number of pixels where . Note that the diagonal elements of the within the object, including the boundary pixels. The width of an object of interest is the length of the minor axis of the object. covariance matrix are used in the Naïve Bayes classifier. To further ensure that our objects of interest are connected Given test data, the classification rule will assign it to the class sets of pixels with no holes inside, we perform a closing mor- phological operation to fill all the holes. with the highest posterior probability (6) B. Features Mining by Base and Metaclassifiers where , is the label of the different classes, is the Next, we build base classifiers to identify the tumor cells, total number of classes, is the class frequency, and namely, Naïve Bayes [27], C4.5 [28], and CBA [29]. The Naïve Bayes classifier [27] applies a statistical method for pattern clas- is a common factor for all classes. sification. Assuming the sample distributions of all classes are multivariate Gaussian distribution The second base classifier used is C4.5, which is based on decision-tree techniques and does not assume Gaussian distri- bution. Each node in the decision-tree corresponds to a feature, and each edge is a possible value of that feature. A leaf of the tree specifies the expected value of the feature for the samples (3) described by the path from the root to that leaf. Entropy is used to measure how informative a node is. The third base classifier, CBA, integrates classification rule mining and association rule where , is the label of the different classes and is mining techniques. the number of total classes, which is equal to two in our study: We adopt a tenfold cross-validation testing strategy to train the class of tumor cells and the class of nontumor cells. the base classifiers and evaluate their accuracy. It is known The mean vector and the covariance matrix for each class can that different classifiers perform better for different classes be computed from the training data by the maximum-likelihood [14], [15]. To further improve the predictive accuracy, we use a estimates. If there are training samples, the statistics of the majority voting strategy to integrate the base classifiers into a extracted features can be represented of the mean and covari- metaclassifier and output the majority class among all the base ance matrix of these vectors, where classifiers as the final class. (4) V. EXPERIMENTAL RESULTS (5) The images used in our experiments are obtained from the tissue sections containing tumor cells of the lungs of female mice which had been stained using GFP. The section slides were scanned using a digital micrometer (Microcode II; Boeckeler Instruments, Tucson, AZ) to ensure that all areas were counted
FANG et al.: ON THE ACCURATE COUNTING OF TUMOR CELLS 101 only once. Green fluorescent cells were confirmed by overlay TABLE I RESULTS OF THE NAÏVE BAYES RULE CLASSIFIER with a DAPI-stained nucleus. TABLE II The tissue sections were observed by a Leica inverted fluo- RESULTS OF THE C4.5 RULE CLASSIFIER rescence microscope. A 40 objective was used, and the flu- TABLE III RESULTS OF THE CBA RULE CLASSIFIER orescence cell images were captured directly, using the digital camera, as 8-b gray-level 1024 1022 TIFF files. The proposed methods were evaluated on a database of 40 tissue-section his- tological images. During local adaptive thresholding, the images are divided into 3 3 subimages. We set in (1) to 1.00. Initial studies show that this value is able to retain as many white patches as possible while removing most of the background noise. During the dy- namic water immersion, a window size of 7 7 pixels is used to locate the local intensity peaks. The in (2) was deter- mined to be 42 to extract contours of objects of interest. These image processing methods extracted a total of 9581 objects of interest, although a medical professional had labeled only 1974 tumor cells. The extracted objects include not only the actual tumor cells, but also histological noise caused by pseudopods and white light reflection areas.ตัวอย่างบทความวิจัย Next, we build classifiers and perform feature mining to im- prove the identification accuracy. To evaluate the effectiveness of the individual classifiers, the false-positive and the false-neg- ative error rates are used as system performance measurement. False-positive error rate refers to the misclassification of tumor cell as nontumor cell, while false-negative error rate relates to misclassification of nontumor cell as tumor cell. The average error rate is defined as the ratio of all misclassified assignments to all test samples. However, if the class distribution is seriously skewed as in the present study where the frequency of objects of interest due to histological noise (class 0) is 7607 (79.4% of total samples), then additional measures such as recall, precision, and mea- sures should also be employed to evaluate the classifier perfor- mance. Recall is defined to be the ratio of correct assignments of a class to the total number of points in that class. Precision is the ratio of correct assignments of a class to the total number of the system’s assignments to that class. The measure com- bines recall ( ) and precision ( ) with an equal weight in the following form: (7) While the improved image processing techniques resulted in to 6.4% of average error rate and 85.1% of value. The meta- 100% recall of tumor cells, the precision of 20.6% is very low classifier has a 5.7% average error rate and 86.5% value. The due to a large number of noise. The value is 34.2% is also un- C4.5 classifier has the lowest average error rate and highest acceptable. We perform experiments on the predictive accuracy value among the three base classifiers. Unfortunately, the meta- of the three base classifiers. We use the tenfold cross-validation classifier with majority vote could not provide better classifica- testing strategy. Performance metrics of false-positive error rate, tion accuracy than C4.5. false-negative error rate and average error rate, together with the scores of recall, precision, and value, are computed for each Table V shows the accuracy of identifying tumor cells using fold first and then are averaged over ten folds. The results for the improved image processing techniques with and without fea- the Naïve Bayes classifier, the C4.5 classifier, the CBA classi- tures mining. The results indicate that the mining process using fier, and the metaclassifier with majority vote are summarized extracted features rules is able to effectively distinguish tumor in Tables I–IV, respectively. The average error rate and value for the Naïve Bayes clas- sifier are 7.4% and 81.0% respectively. C4.5 has 5.7% average error rate and 86.5% value. The performance of CBA leads
102 IEEE TRANSACTIONS ON NANOBIOSCIENCE, VOL. 2, NO. 2, JUNE 2003 TABLE IV ตัวอย่างบทความวิจัย [2] C. W. Wong et al., “Apoptosis: An early event in metastatic ineffi- RESULTS OF THE METACLASSIFIER ciency,” Cancer Res., vol. 61, pp. 333–338, 2001. TABLE V [3] J. Kittler and J. Illingworth, “Minimum error thresholding,” Pattern RESULTS OF THE IMPROVED IMAGE PROCESSING TECHNIQUE (IIPT) WITH Recog., vol. 19, no. 1, pp. 41–47, 1986. AND WITHOUT MINING [4] N. Otsu, “A threshold selection method from gray level histograms,” IEEE Trans. Syst., Man, Cybern., vol. SMC-9, pp. 62–66, Jan. 1979. cells from histological noise. An accuracy of 94.3% can be ob- tained by using the improved image processing techniques and [5] M. A. Wani and B. G. Batchelor, “Edge-region-based segmentation of a C4.5 classifier ( 86.5 ). range images,” IEEE Trans. Pattern Anal. Machine Intell., vol. 16, Mar. 1994. VI. CONCLUSION In this paper, we have described a real-life image mining ap- [6] R. Adams and L. Bischof, “Seeded region growing,” IEEE Trans. Pat- plication to the problem of tumor cell counting for fluorescence tern Anal. Machine Intell., vol. 16, no. 6, pp. 641–647, 1994. cell images. We have proposed a two-stage strategy which in- volves segmenting objects of interest and identifying tumor cells [7] J. Canny, “Computational approach to edge detection,” IEEE Trans. Pat- using features mining. The image processing techniques used tern Anal. Machine Intell., vol. 8, no. 6, pp. 679–698, 1986. include local adaptive thresholding and dynamic water immer- sion. However, image processing alone is unable to reliably ex- [8] S. Sarkar and K. Boyer, “On optimal infinite impulse response edge de- tract contours of tumor cells due to histological noise. There- tection filters,” IEEE Trans. Pattern Anal. Machine Intell., vol. 13, no. fore, we examine the use of features rules to distinguish tumor 11, pp. 1154–1171, 1991. cells and histological noise. Meaningful features are extracted from the objects of interest to build base classifiers. A metaclas- [9] M. B. Jeacocke and B. C. Lovell, “A multi-resolution algorithm for cyto- sifier with majority voting strategy is also implemented. Exper- logical image segmentation,” in Proc. 2nd Aust. and New Zealand Conf. iment results show that the proposed approach is able to achieve Intelligent Information Systems, 1994, pp. 322–326. an accuracy of 94.3%. [10] Y. M. Chen, K. Biddell, A. Y. Sun, P. A. Relue, and J. D. Johnson, ACKNOWLEDGMENT “An automatic cell counting method for optical images,” in Proc. IEEE The authors would like to thank Dr. C. Wong of the Genome BMES/EMBS, vol. 2, 1999, p. 819. Institute, Singapore, for providing the fluorescence cell images and valuable medical background. [11] H. S. Wu, J. Barba, and J. Gil, “A parametric fitting algorithm for segmentation of cell images,” IEEE Trans. Biomed. Eng., vol. 45, pp. REFERENCES 400–407, Mar. 1998. [1] K. L. Farina et al., “Cell motility of tumor cells visualized in living intact [12] V. K. Kovalev, A. Y. Grigoriev, H.-S. Ahn, and N. K. Myshkin, “Seg- primary tumors using green fluorescent protein,” Cancer Res., vol. 58, mentation technique of complex image scene for an automatic blood pp. 2528–2532, 1998. cell counting system,” SPIE, vol. 2710, pp. 805–810, 1996. [13] Awasthi, K. Vikas, W. Doolitle, G. Parulkar, and J. G. MC Nally, “Cell tracking using a distributed algorithm for 3d image segmentation,” Bioimaging, vol. 1, pp. 98–112, 1994. [14] G. S. Berns and M. W. Berns, “Computer-based tracking of living cells,” Exp. Cell Res., vol. 142, pp. 103–109, November 1982. [15] C. G. Loukas, G. D. Wilson, and B. Vojnovic, “Automated segmentation of cancer cell nuclei in complex tissue sections,” in SPIE, vol. 4158, 2001, pp. 188–198. [16] D. Anoraganingrum, “Cell segmentation with median filter and mathe- matical morphology operation,” in Int. Conf. Image Analysis and Pro- cessing, 1999, pp. 1043–1046. [17] K. Wu, D. Gauthier, and M. D. Levine, “Live cell image segmentation,” IEEE Trans. Biomed. Eng., vol. 42, pp. 1–12, Jan. 1995. [18] A. K. Jain, S. P. Smith, and E. Backer, “Segmentation of muscle cell pic- tures: A preliminary study,” IEEE Trans. Pattern Anal. Machine Intell., vol. 2, pp. 232–242, May 1980. [19] J. P. Thiran and B. Macq, “Morphological feature extraction for the clas- sification of digital images of cancerous tissues,” IEEE Trans. Biomed. Eng., vol. 43, pp. 1011–1020, Oct. 1996. [20] K. Chan et al., “Comparison of machine learning and traditional clas- sifiers in glaucoma diagnosis,” IEEE Trans. Biomed. Eng., vol. 49, pp. 963–974, Sept. 2002. [21] T. W. Nattkemper, H. J. Ritter, and W. Schubert, “A neural classifier enabling high-throughput topological analysis of lymphocytes in tissue sections,” IEEE Trans. Inform. Technol. Biomed., vol. 5, pp. 138–149, June 2001. [22] M. L. Antonie, O. R. Zaiane, and A. Coman, “Application of data mining techniques for medical image classification,” in 2nd Int. Workshop Mul- timedia Data Mining (MDM/KDD’2001), 2001, pp. 94–101. [23] W. Hsu, L. M. Lee, and G. K. Goh, “Image mining in IRIS: Integrated retinal information system,” in ACM SIGMOD Conf., 2000, p. 593. [24] L. Zheng and A. K. Chan, “An artificial intelligent algorithm for tumor detection in screening mammogram,” IEEE Trans. Med. Imag., vol. 20, pp. 559–567, July 2001. [25] L. Lam and C. Y. Suen, “Application of majority voting to pattern recog- nition: An analysis of its behavior and performance,” IEEE Trans. Syst., Man, Cybern. A, pt. A, vol. 27, pp. 553–568, Sept. 1997. [26] J. Kittler, M. Hatef, R. Duin, and J. Matas, “On combining classifiers,” IEEE Trans. Pattern Anal. Machine Intell., vol. 20, pp. 226–239, Mar. 1998. [27] K. Fukunaga, Introduction to Statistical Pattern Recognition. Boston, MA: Academic, 1990. [28] J. R. Quinlan, C4.5: Program for Machine Learning. San Mateo, CA: Morgan Kaufmann, 1992. [29] B. Liu, W. Hsu, and Y. Ma, “Integrating classification and association rule mining,” in 4th Int. Conf. KDD, 1998, pp. 80–86. [30] P. K. Sahoo, A. K. Saltani, A. K. C. Wong, and Y. C. Chen, “A survey of thresholding techniques,” Comput. Vis. Graph. Image Process., vol. 41, no. 2, pp. 233–260, 1988.
FANG et al.: ON THE ACCURATE COUNTING OF TUMOR CELLS 103 [31] S. D. Yanowitz and A. W. Bruckstein, “A new method for image seg- Wynne Hsu received the B.Sc. degree in computer mentation,” Computer Vision, Graphics, and Image Processing, vol. 46, science from the National University of Singapore no. 1, pp. 82–95, 1989. (NUS), Singapore, and the M.Sc. and Ph.D. degrees in electrical engineering from Purdue University, [32] J. Bernsen, “Dynamic thresholding of gray-level images,” in Proc. 8th West Lafayette, IN. Int. Conf. Pattern Recognition, 1986, pp. 1251–1255. She is an Associate Professor in the Department [33] L. Vincent and P. Soille, “Watersheds in digital spaces: An efficient al- of Computer Science, School of Computing, NUS. gorithm based on immersion simulations,” IEEE Trans. Pattern Anal. Her research interests include data and image mining, Mach. Intell., vol. 13, pp. 583–598, June 1991. XML information systems, and multimedia systems. [34] L. Vincent, “Morphological grayscale reconstruction in image analysis: Dr. Hsu is a member of ACM. Applications and efficient algorithms,” IEEE Trans. Image Processing, vol. 2, pp. 176–201, Apr. 1993. Mong Li Lee received the Ph.D. degree in computer science from the National University of Singapore Bin Fang received the B.Eng. degree in electrical (NUS), Singapore, in 1999. engineering from Xi’an Jiaotong University, Xi’an, China, the M.Sc. degree in electrical engineering She is an Assistant Professor at the Department of from Sichuan University, Chengdu, China, and the Computer Science, School of Computing, National Ph.D. degree in electrical engineering from the University of Singapore. Her research interests University of Hong Kong, Hong Kong, China, in include cleaning and integration of heterogeneous 1989, 1994, and 2001, respectively and semistructured data, database performance issues, and biomedical informatics. He is currently a Research Fellow with the Sin- gapore-MIT Alliance, National University of Singa- Dr. Lee is a member of ACM. pore, Singapore. His research interests include com- puter vision, pattern recognition, document analysis, and medical image processing. ตัวอย่างบทความวิจัย
แบบฝึ กหัดบทท่ี 1 1. คน้ หาและเลือกบทความวิจยั ฉบบั เตม็ (ไม่ต่าํ กวา่ 8 หนา้ ) จาํ นวน 1 บทความ a. บทความที่หามาชื่อวา่ “On the Accurate Counting of Tumor Cells” b. เป็น journal และมีจาํ นวน 10 หนา้ 2. บทความวจิ ยั ที่เลือกจากขอ้ 1 จดั เป็นการวจิ ยั ชนิดใด มีลกั ษณะเป็นการวจิ ยั แบบใดพร้อมคาํ อธิบาย เหตุผล a. งานวจิ ยั น้ีเป็นแบบ Objective เพราะมีการปรับปรุงคุณภาพ มีการปรับวิธีการ มีการอธิบาย คา่ ผลลพั ทท์ ่ีไดอ้ อกมาวา่ เป็นอะไรบา้ ง b. เป็นแบบ Application เพราะมีการ coding 123
แบบฝึ กหัดบทที่ 2 1. สรุปปัญหาเป็นขอ้ ๆ จากบทความวจิ ยั ที่เลือกมาอ่าน a. ปัญหาคือเม่ือก่อนใชว้ ธิ ีแบบแมนนวลซ่ึงใชเ้ วลานาน น่าเบ่ือ ไร้ประสิทธิภาพ และมีผลลพั ทไ์ ม่แน่ชดั 2. อธิบายการต้งั สมมติฐานของปัญหาอยา่ งเป็นเหตุเป็นผลจากบทความวิจยั ท่ีเลือกมาอ่าน a. แกไ้ ขปัญหาวธิ ีแบบแมนนวลคือใชค้ อมพวิ เตอร์เขา้ มาช่วยวเิ คราะห์ 124
แบบฝึ กหัดบทที่ 3 1. สรุปจาํ นวนเร่ืองของเอกสารอา้ งอิง (References) มีอยา่ งละเท่าไรของ Books, Journals และ Conferences จากบทความวจิ ยั ที่เลือกมาอ่าน - Book = 3 - Journal = 26 - Conference = 5 2. เขียนสรุปหวั ขอ้ หลกั และประกอบดว้ ยหวั ขอ้ ยอ่ ยของงานวิจยั ท้งั หมดในแต่ละเร่ือง จากเอกสารอา้ งอิง ของบทความวจิ ยั ที่เลือกมาอา่ น พร้อมอธิบายประเดน็ ปัญหาใน [1-2] กลไกการแพร่กระจายของเซลลเ์ น้ืองอกไดร้ ับการศึกษาเป็นเวลาหลายปี ทางพยาธิวทิ ยา [3-6] อลั กอริทึมการหาพ้ืนท่ีและอลั กอริทึมการหารูปร่างของวตั ถุ [7-8] อลั กอริทึมการหารูปร่างของวตั ถุจะพ่งึ พาความต่อเน่ืองความเขม้ ของภาพหรือพ้ืนผวิ รอบๆ วตั ถุ [9] วิธีการใชค้ วามละเอียดหลายความละเอียดเขา้ มาเกี่ยวขอ้ งกบั quadtree smoothing, lowest level classification, and boundary reestimation by water immersion [10] การใช้ spatial adaptive filter, watershed, and refining of labeled images [11] เสนอการใชอ้ ลั กอริทึมในการหาคา่ ตวั แปรที่เหมาะสมสาํ หรับการแบ่งกลุ่มเซลลป์ ากมดลกู และเตา้ นม [12] เสนอวธิ ีการใชก้ ราฟฮีสโตรแกรมของความเขม็ สาํ หรับภาพสี [13] เสนอการใช้ thresholding รวมหลายๆ ค่า, dilation morphology operation และวธิ ีการขยาย พ้นื ที่ในเรื่องการแบ่งส่วนเซลล์ [14] บอกเกี่ยวกบั วธิ ีการใช้ median filter, local histogram, and morphology filter with watershed method สาํ หรับการแบ่งส่วนเซลล์ [15] สร้างองคป์ ระกอบหลกั และข้นั ตอนการหากราฟฮีสโตรแกรมสาํ หรับการหาพ้นื ที่ท่ีสนใจ [16] การใช้ median filter and mathematical morphology operation สาํ หรับการหาขอบของการแบ่ง ส่วนเซลล์ [17] เสนอกลยทุ ธก์ ารแบ่งส่วนเป็นสองข้นั ตอนในภาพท่ีมีความสวา่ งไม่สม่าํ เสมอ [18] เสนออลั กอริทึมในการจดั กลุ่มแบบแบ่งช้นั [19] บอกวา่ คะแนนโดยรวมสาํ หรับพ้ืนฐานของรูปภาพดิจิตอลในการแยกคุณสมบตั ิของเซลลเ์ น้ือ งอกในแต่ละตวั จะเป็นตวั วดั วา่ ภาพเซลลเ์ น้ือเยอ่ื ชิ้นน้ีเป็นเซลลม์ ะเร็งหรือไม่เป็นมะเร็ง 125
[20] บอกเก่ียวกบั คุณสมบตั ิของการใชเ้ คร่ืองมือท่ีมีตวั ช้ีวดั ของ STATPAC สาํ หรับวนิ ิฉยั โรคตอ้ กระจก [21] บอกเก่ียวกบั การใชร้ ะบบโครงขา่ ยประสาทของแบบ local linear map ซ่ึงการจาํ แนกเซลลเ์ มด็ เลือดขาวท่ีเรืองแสงไดใ้ นเน้ือเยอื่ แบบก่ึงอตั โนมตั ิ [22] บอกเกี่ยวกบั การใชร้ ะบบโครงข่ายประสาทและวธิ ี association rule mining สาํ หรับการจาํ แนก ภาพดิจิตอลแบบ mammograms ซ่ึงเราสามารถภาพแบ่งไดเ้ ป็นสองประเภทคือภาพแบบปกติกบั ภาพแบบไม่ ปกติ [23] บอกเก่ียวกบั การรวมภาพ 12 ภาพ ท่ีมีคุณลกั ษณะที่แยกออกจากส่วนจอประสาทตาและใช้ เครื่องมือ association-based data mining ในการจาํ แนกประเภทวา่ vessels เป็นปกติหรือไม่ปกติ [24] ใชป้ ัญญาประดิษฐใ์ นการตรวจสอบพ้นื ท่ีใน mammogram กลยทุ ธใ์ นการแยกประเภทแบบ ตน้ ไมถ้ กู ใชใ้ นตอนทา้ ยเพ่ือช่วยในการตดั สินใจวา่ พ้นื ที่น้นั ๆ เป็นพ้นื ท่ีที่เส่ียงต่อการเป็นมะเร็งหรือไม่ [25] วธิ ีของ majority vote [26] การรวมคุณสมบตั ิสามอยา่ งคือ decision-tree, association rule และ probability [27] วิธี Probabilityจากหนงั สือ Introduction to Statistical Pattern Recognition [28] C4.5: Program for Machine Learning [29] CBA classifier (association rule mining) [30] Thresholding methods [31] Global thresholding methods [32] Local thresholding methods [33] วธิ ี watershed or water immersion algorithm [34] Morphological grayscale reconstruction in image analysis: Applications and efficient algorithms 3. ต่อจากแบบฝึกหดั ขอ้ ที่ 2 เขียนสรุปดงั น้ี 1) ประเดน็ ปัญหา - ปัญหาคือเมื่อก่อนใชว้ ิธีแบบแมนนวลซ่ึงใชเ้ วลานาน น่าเบ่ือ ไร้ประสิทธิภาพและมี ผลลพั ทไ์ ม่แน่ชดั 2) การใชก้ รอบทฤษฏีอะไรและแนวทางอะไรในการแกป้ ระเดน็ ปัญหา - Image processing technique (Local Adaptive Thresholding, dynamic water immersion) - Feature Mining Algorithm (Naïve Bayes Rule Classifier, C4.5 Rule Classifier, CBA Rule Classifier) - รวมสามอลั กอริท่ึมเขา้ ไปใน Meta Classifier 126
3) ขอ้ ดีที่ไดร้ ับจากการแกป้ ัญหา - improve the accuracy for tumor cell identification. 4) ขอ้ จาํ กดั หรือขอ้ เสียท่ีไดร้ ับจากการแกป้ ัญหา - Image processing alone is unable to reliably extract contours of tumor cells due to histological noise 4. ต่อจากแบบฝึกหดั ขอ้ ที่ 2 และ3 เขียนแผนภาพการเรียงลาํ ดบั งานวิจยั ท้งั หมด โดยใชห้ ลกั การไล่เรียงจาก งานวิจยั ที่เป็นขอ้ มูลเชิงกวา้ งๆ ทว่ั ๆไปก่อน แลว้ จึงค่อยเจาะรายละเอียดลงมาใหแ้ คบลงจนถึงงานวจิ ยั ท่ีมี ขอ้ มลู แบบเฉพาะเจาะจง 127
Study 128 พยาธิวทิ ยา Image Machine Processing tumor cells tumor cells muscle cell Blood cell vessels digital fluorescent Other Cell glaucoma mammograms lymphocytes กลไกการแพร่กระจายขอ อลั กอริทึมการหาพ้ืนที่ artificial intelligence hierarchical clustering ใชก้ ราฟฮีสโตรแกรมของ association-based data neural networks and neural net of local linear A parametric fitting วิธี median filter, local median filter and two-step segmentation overall score for a digital Machine learning built งเซลลเ์ น้ืองอก [1-2] และอลั กอริทึมการหารูป techniques [24] algorithm [18] ความเขม็ สาํ หรับภาพสี mining classification [23] association rule mining map [21] algorithm for histogram, and mathematical strategy to deal with image based on extracted from STATPAC indexes morphology operation uneven illumination in features measured [19] ร่างของวตั ถุ [3-6] [12] [22] segmentation [11] morphology filter with for diagnosis [20] watershed method [14] [16] images [17] ข้อดี - เป็ นขอ้ มลู โตรงสร้างของ ข้อดี - ใชส้ าํ หรบั หาพ้นื ที่ ข้อดี - เทคนิค Decision – tree ข้อเสีย - ถา้ ขอ้ มูลเร่ืองรูปร่างมีไม่ ข้อเสีย - ไม่สามารถใชก้ บั พ้ืนที่ ข้อดี - สามารถใชเ้ ครื่องมือ ข้อดี - สามารถจาํ แนกภาพเป็น ข้อดี - สามารถจาํ แนก ข้อดี - เหมาะสมสาํ หรับ ข้อเสีย - ไม่สามารถใชก้ บั พ้ืนที่ ข้อเสีย - ไมส่ ามารถใชก้ บั พ้นื ที่ ข้อเสีย - การใช้ Watershed ข้อดี -สามารถใชค้ ะแนนเครื่องมือ ข้อดี -บอกวิธีใชเ้ ครื่องมือท่ีช่ือวา่ ข้อเสีย - ทาํ การแบ่งส่วนไดย้ าก สามารถใชต้ ดั สินใจวา่ พ้ืนท่ีน้นั ๆ ชดั เจนจะทาํ ใหไ้ มส่ ามารถวเิ คราะ ที่มีสัญญาณรบกวนและ แบบปกติและไมป่ กติได้ เซลลเ์ มด็ เลอื ดขาวท่ีเรืองแสงแบบ การแบ่งกลุ่มเซลลป์ ากมดลกู และ ท่ีมีสญั ญาณรบกวนและ ทม่ี สี ัญญาณรบกวนและ จะทาํ ใหไ้ ดภ้ าพส่วนเกิน วดั วา่ เน้ือเยื่อชิ้นน้ีเป็ นเซลลม์ ะเร็ง STATPAC เซลลเ์ น้ืองอกทางพยาธิวทิ ยา เสี่ยงต่อการเป็ นมะเร็งหรื อไม่ ห์รูปร่างภายในเซลลไ์ ดจ้ นเป็นเห association-based data mining ก่ึงอตั โนมตั ิได้ หรือไม่ ข้อเสีย - ใชเ้ วลาในการวิเคราะห์ เพราะตอ้ งใชก้ บั ภาพระดบั เทา ข้อเสีย -ไม่สามารถ Detect เซลล์ มีพ้ืนหลงั ไมแ่ น่นอน ในการจาํ แนกประเภทวา่ vessels เตา้ นมจากรอยเป้ื อนทต่ี ิดเช้ือ HPV มีพ้นื หลงั ไม่แน่นอน มีพ้ืนหลงั ไมแ่ น่นอน นานและน่าเบ่ือ เน้ืองอกในภาพฟลอู อเรสเซนตไ์ ด้ ตุใหไ้ ม่สามารถแยกเซลลอ์ อกจาก เป็ นปกตหิ รือไมป่ กติ ข้อเสีย - ไม่สามารถใชก้ บั พ้ืนที่ กนั ได้ ท่ีมีสญั ญาณรบกวนและ มีพ้นื หลงั ไมแ่ น่นอน Other Picture A multi-resolution combination of multiple algorithm [9] thresholding, dilation morphology and region growing for tracking cell [13] ข้อเสีย - ไม่สามารถใชก้ บั พ้นื ท่ี ข้อเสีย - ไม่สามารถใชก้ บั พ้นื ท่ี ท่ีมีสญั ญาณรบกวนและ ท่ีมีสญั ญาณรบกวนและ มีพ้ืนหลงั ไมแ่ น่นอน มีพ้ืนหลงั ไม่แน่นอน Probability:Statistical C4.5: Program for association rule mining watershed or water Morphological grayscale Thresholding methods majority voting to pattern การรวมคุณสมบตั ิสามอย่ edge detection [7-8] spatial adaptive filter, Pattern Recognition [27] Machine Learning [28] [29] immersion algorithm reconstruction [34] [30] recognition [25] างคือ decision-tree, watershed, and labeled association rule และ [33] Probability [26] [10] ข้อดี -มปี ระสิทธิสูงในการเซลล์ Global thresholding Local thresholding ข้อดี - ใชใ้ นการหารูปร่างของวตั ถุ ข้อเสีย - ไม่สามารถใชก้ บั พ้นื ที่ แต่ละเซลลอ์ อกจากกนั methods [31] methods [32] ข้อเสีย - ทาํ งานไดไ้ ม่ดีถา้ ภาพมี ที่มีสญั ญาณรบกวนและ สญั ญาณรบกวน ข้อเสีย - อาจทาํ ใหเ้ กิด มีพ้นื หลงั ไม่แน่นอน overimmersion ได้ คอื รูปร่างของ เซลลผ์ ดิ เพ้ียน ข้อเสีย - ไม่สามารถให้ ข้อดี - ใชใ้ นการแยกวตั ถทุ ่เี รา ประสิทธิภาพในการแยกจุดออก สนใจออกจากสญั ญาณของ มาไดท้ ้งั หมดเพราะวา่ ความส่องส พ้นื หลงั ไดด้ ีกวา่ Global วา่ งของพ้นื หลงั ไม่แน่นอน thresholding methods เป็ นเหตุใหว้ ตั ถุกลายเป็ นพ้นื หลงั
แบบฝึ กหัดบทที่ 4 1. สรุปวตั ถุประสงคห์ ลกั และวตั ถุประสงคร์ องเป็นขอ้ ๆ จากบทความวจิ ยั ท่ีเลือกมา อ่าน - นาํ image processing มาช่วยในวิเคราะห์ผลลพั ธแ์ ทนวิธีแบบแมนนวลซ่ึงใชเ้ วลานาน น่าเบ่ือ ไร้ประสิทธิภาพและมีผลลพั ธไ์ ม่แน่ชดั 2. คุณลกั ษณะของวตั ถุประสงคจ์ ากบทความวจิ ยั ที่เลือกมาอ่านเป็นการศึกษาใน รูปแบบใด (Descriptive studies, Correlational studies, Hypothesis–testing studies) - Hypothesis – testing studies 3. จงอธิบายตวั แปรท่ีใชใ้ นการวดั ผลและชนิดของสเกลในการวดั ผลวา่ เป็นอยา่ งไรจาก บทความวจิ ยั ท่ีเลือกมาอ่าน - Accuracy, Precision, Recall - ชนิดเป็นเปอร์เซ็นต์ 4. อธิบายการต้งั สมมติฐานเพอ่ื ขยายไปสู่การกาํ หนดวตั ถุประสงคอ์ ยา่ งเป็นเหตุเป็นผล จากบทความวจิ ยั ท่ีเลือกมาอา่ น - จากการวเิ คราะห์เซลลเ์ น้ือเยอ่ื ของแพทยท์ างพยาธิวทิ ยาผเู้ ชี่ยวชาญดา้ นการแพทยท์ ี่ผา่ นการ อบรมแลว้ จะนบั จาํ นวนเซลลเ์ น้ืองอกที่มี GFP ในเน้ือเยอื่ ภายใตแ้ สงฟลอู อเรสเซนตข์ องกลอ้ ง ไมโครสโคปหรือฉายภาพเซลลอ์ อกทางหนา้ จอแลว้ ถ่ายรูปเน้ือเยอ่ื มานบั ดว้ ยตนเอง ดงั น้นั การ ใชเ้ ทคนิค image processing เขา้ มาช่วยจะทาํ ใหผ้ ลลพั ธ์ท่ีไดม้ ีความถกู ตอ้ งมากข้ึน 129
แบบฝึ กหัดบทท่ี 5 1. อธิบายข้นั ตอนวิธีการอออกแบบงานวจิ ยั จากบทความวจิ ยั ที่เลือกมาอา่ น - Introduction - Overview - Objects of interest extraction - Local Adaptive Thresholding - Dynamic Water Immersion - Tumor cell identification - Feature Extraction for Tumor Cell Identification - Features Mining by Base and Metaclassifiers - Experimental results - Conclusion - Acknowledgment - References 1) วตั ถุประสงคข์ องงานวจิ ยั ท่ีศึกษา - นาํ Image processing มาช่วยในการวิเคราะห์ผลลพั ธแ์ ทนวธิ ีแบบแมนนวลซ่ึงใช้ เวลานาน น่าเบื่อ ไร้ประสิทธิภาพและมีผลลพั ธไ์ ม่แน่ชดั 2) วิธีการในการเกบ็ ขอ้ มลู เพ่อื ที่จะนาํ มาใชป้ ระมวลผล - ขอจาก Dr. C. Wong of the Genome Institute, Singapore 3) แหล่งของขอ้ มลู —การออกแบบตวั อยา่ ง - แหล่งขอ้ มูลมาจาก Dr. C. Wong of the Genome Institute, Singapore 4) เครื่องมือสาํ หรับในการเกบ็ ขอ้ มูล - ไม่มี 5) การวิเคราะห์ขอ้ มลู – เชิงคุณภาพ (qualitative) และ เชิงปริมาณ (quantitative) - การวิเคราะห์เป็นแบบเชิงคุณภาพ 2. อธิบายข้นั ตอนในการเกบ็ ขอ้ มูลจากบทความวจิ ยั ที่เลือกมาอ่าน และสรุปขอ้ มลู ท่ีถกู เกบ็ มาเป็นขอ้ มลู ชนิดใดหรือรูปแบบใด - ข้นั ตอนในการเกบ็ ขอ้ มลู คือขอจาก Dr. C. Wong of the Genome Institute, Singapore 130
- ขอ้ มูลท่ีไดเ้ ป็นแบบทุติยภูมิ (รูปภาพที่ใชใ้ นการทดลองของพวกเราจะไดร้ ับมาจากชิ้นเน้ือที่ ประกอบไปดว้ ยเซลลเ์ น้ืองอกของปอดของหนูเพศเมีย จาํ นวน 40 ภาพ) 3. สรุปประเดน็ เรื่องจริยธรรมในการเกบ็ ขอ้ มลู จากบทความวจิ ยั ท่ีเลือกมาอ่าน - เวลารายงานคา่ ความถกู ตอ้ งใหก้ บั ผเู้ ช่ียวชาญทราบ ควรใหข้ อ้ มลู ท่ีเป็นความจริง เพราะถา้ จะ ส่งผลต่อการวินิจฉยั ของแพทย์ 131
แบบฝึ กหัดบทท่ี 6 1. สรุปการประมวลผลและวเิ คราะห์ขอ้ มลู วา่ ใช้วิธีการอะไรบา้ งจากบทความวจิ ยั ท่ีเลือกมาอ่าน - Local Adaptive Threshold - Dynamic Water Immersion : แยกวตั ถุที่เราสนใจออกมาแตไ่ ม่สามารถแยกเซลลเ์ น้ืองอกออก จากสญั ญาณรบกวนทางพยาธิวิทยา ซ่ึงสญั ญาณรบกวนน้ีทาํ ใหเ้ กิดเซลลห์ ลอก - Feature Extraction : ใชแ้ กไ้ ขเซลล์หลอกได้ - Feature Mining : มี 3 เทคนิคคือ Naïve Bayes Rule, C4.5 Rule, CBA Rule - Meta Classifier, Majority Voting : ใชว้ ดั ผลคา่ ความถูกตอ้ งแต่ผลลพั ธท์ ่ีไดม้ ีคา่ ความถกู ตอ้ ง นอ้ ยเกินไป - กลยทุ ธ์ของ tenfold cross - validation testing เพื่อปรับปรุงคณุ ภาพโดยการปรับปรุงเทคนิคการ ประมวลผลภาพ 132
2. จากบทความวิจยั ท่ีเลือกมาอ่านใหอ้ ธิบายการวดั ผลและประเมินผลลพั ธ์ของงานวจิ ยั วา่ ใชแ้ นวคดิ หรือ หลกั การอะไรในการพสิ ูจนว์ า่ ถกู ตอ้ งหรือไม่ - The false-positive and the false-negative error rates are used as system performance measurement. (FP, FN) - Precision, Recall - Avg. error rate, ܨଵ - Naïve Bayes Rule, C4.5 Rule, CBA Rule - IIPT+Naïve Bayes Rule, IIPT+C4.5 Rule, IIPT+CBA Rule ในการวดั ผล บทวจิ ยั เร่ืองน้ีจะวดั โดยการหาคา่ FP, FN เพื่อมาคาํ นวณหา Precision, Recall แลว้ นาํ ไปคาํ นวณหาค่า Avg. error rate และ ܨଵ อีกทีหน่ึงซ่ึงค่าสองค่าหลงั น้จี ะนาํ มาเปรียบเทียบกบั วธิ ีการอื่นๆ เพือ่ บอกวา่ วิธีการไหนใหค้ ่าความถูกตอ้ งมากท่ีสุด ในส่วนของการประเมินผลลพั ธ์เราจะดูจากจากตารางสรุปดา้ นบนซ่ึงตารางน้ีบอกวา่ เมื่อเราใช้ วิธีการปรับปรุงเทคนิคการประมวลผลภาพ (IIPT) รวมกบั C4.5 Classifier จะมีคา่ ความผดิ พลาดเฉลี่ย 5.7% ซ่ึงนอ้ ยกวา่ เทคนิคอื่นๆ แสดงวา่ เทคนิคดงั กล่าวใหค้ ่าความถูกตอ้ งสูงสุดซ่ึงมีคา่ เท่ากบั 94.3% 133
แบบฝึ กหัดบทที่ 7 1. จากบทความวจิ ยั ที่เลือกมาอ่านใหแ้ ยกหวั ขอ้ ตามสรุปรายงานวจิ ยั ในบทน้ี โดยใหห้ วั ขอ้ สอดคลอ้ งกบั สรุปรายงานวจิ ยั ในบทน้ี จากบทความวจิ ยั ท่ีเลือกมา มีหวั ขอ้ ตามการสรุปรายงานวจิ ยั ดงั น้ี 1) ช่ืองานวจิ ยั : On the Accurate Counting of Tumor Cells 2) ช่ือผู้แต่งงานวจิ ัย : Bin Fang, Wynne Hsu, and Mong Li Lee 3) จุดมุ่งหมายของงานวจิ ัย (OUR GOAL) : นาํ Image processing มาช่วยในการวเิ คราะห์ผลลพั ธแ์ ทนวิธีแบบแมนนวลซ่ึงใชเ้ วลานาน น่าเบื่อ ไร้ประสิทธิภาพและมีผลลพั ธไ์ ม่แน่ชดั 4) วนั ทต่ี พี มิ พ์ ไม่มีมแี ต่ปี ที่ Conference : IEEE TRANSACTIONS ON NANOBIOSCIENCE, VOL. 2, NO. 2, JUNE 2003 5) Acknowledgment Thank You for Dr. C. Wong of the Genome, Institute, Singapore 6) Introduction 6.1 It is about general tumor cell of pathological. 6.2 It is about fundamental of image processing. 7) Theoretical Framework and Review of Literature 7.1 Study pathological of tumor cell 7.2 Technique of image processing 7.3 Technique of data mining and statistic rule 8) Research Design 8.1 Objects of interest extraction (Local Adaptive Thresholding, Dynamic Water Immersion) 8.2 Tumor cell identification (Feature Extraction, Features Mining) 8.3 Experimental results 8.4 Conclusion 134
9) Data Analysis and Interpretation 9.1 Histogram of Image 9.2 Maximum intensity value, power, elongation, area and width 10) Summary and Conclusion 10.1 The result show accuracy is 94.3% of IIPT+C4.5 technique. 11) List of References /Bibliography 11.1 Bin Fang received the B.Eng. degree in electrical engineering from Xi’an Jiaotong University, Xi’an, China, the M.Sc. degree in electrical engineering from Sichuan University, Chengdu, China, and the Ph.D. degree in electrical engineering from the University of Hong Kong, Hong Kong, China, in 1989, 1994, and 2001, respectively 11.2 Wynne Hsu received the B.Sc. degree in computer science from the National University of Singapore (NUS), Singapore, and the M.Sc. and Ph.D. degrees in electrical engineering from Purdue University, West Lafayette, IN. 11.3 Mong Li Lee received the Ph.D. degree in computer science from the National University of Singapore (NUS), Singapore, in 1999. 135
ภาคผนวก ข สมการการแจกแจงความถ่ี 136
Search
Read the Text Version
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
- 32
- 33
- 34
- 35
- 36
- 37
- 38
- 39
- 40
- 41
- 42
- 43
- 44
- 45
- 46
- 47
- 48
- 49
- 50
- 51
- 52
- 53
- 54
- 55
- 56
- 57
- 58
- 59
- 60
- 61
- 62
- 63
- 64
- 65
- 66
- 67
- 68
- 69
- 70
- 71
- 72
- 73
- 74
- 75
- 76
- 77
- 78
- 79
- 80
- 81
- 82
- 83
- 84
- 85
- 86
- 87
- 88
- 89
- 90
- 91
- 92
- 93
- 94
- 95
- 96
- 97
- 98
- 99
- 100
- 101
- 102
- 103
- 104
- 105
- 106
- 107
- 108
- 109
- 110
- 111
- 112
- 113
- 114
- 115
- 116
- 117
- 118
- 119
- 120
- 121
- 122
- 123
- 124
- 125
- 126
- 127
- 128
- 129
- 130
- 131
- 132
- 133
- 134
- 135
- 136
- 137
- 138
- 139
- 140
- 141
- 142
- 143
- 144
- 145
- 146
- 147
- 148
- 149
- 150
- 151
- 152
- 153
- 154
- 155
- 156
- 157
- 158
- 159
- 160
- 161
- 162
- 163
- 164