Important Announcement
PubHTML5 Scheduled Server Maintenance on (GMT) Sunday, June 26th, 2:00 am - 8:00 am.
PubHTML5 site will be inoperative during the times indicated!

Home Explore การค้นคืนคำจากภาพเอกสารภาษาล้านนาโดยการเปรียบเทียบภาพคํา

การค้นคืนคำจากภาพเอกสารภาษาล้านนาโดยการเปรียบเทียบภาพคํา

Published by Papa Mama, 2020-09-19 01:10:25

Description: การค้นคืนคำจากภาพเอกสารภาษาล้านนาโดยการเปรียบเทียบภาพคํา

Search

Read the Text Version

Naresuan University Journal 2013; Special Issue 1 การคน้ คนื คาํ จากภาพเอกสารภาษาลา้ นนาโดยการเปรียบเทียบภาพคาํ วิลาวัลย์ ยาทองคาํ a* ณัฐษิมา สรุ เดชb และ จีรยุทธ ไชยจารุวณชิ c Word Retrieval from Lanna Document Images by Synthetic Word Image Matching Wilawan Yathongkhuma*, Natsima Suradetb and Jeerayut Chaijaruwanichc aโรงเรยี นบ้านแม่เทย ต.แม่ตนื อ.ลี จ.ลาํ พูน bคณะวศิ วกรรมศาสตร์ มหาวทิ ยาลัยเทคโนโลยีราชมงคลล้านนา ตาก / ถ.พหลโยธนิ ต.ไม้งาม อ.เมอื ง จ.ตาก cภาควชิ าวทิ ยาการคอมพิวเตอร์ คณะวิทยาศาสตร์ มหาวิทยาลยั เชยี งใหม่ ถ.ห้วยแก้ว ต.สเุ ทพ อ.เมอื ง จ.เชียงใหม่ *Corresponding Author. E-mail address: [email protected] Received 30 April 2013; accepted 12 July 2013 บทคดั ยอ่ บทความนนี าํ เสนอการค้นคนื คาํ จากภาพเอกสารภาษาล้านนา ด้วยการนาํ คาํ ทตี ้องการค้นหามาสร้างเป็นภาพคาํ ภาษาล้านนา จากนนั นาํ ภาพ คาํ ดงั กลา่ วไปทาํ การเปรยี บเทยี บเพอื หาขอบเขตของคาํ ในภาพเอกสารด้วยวิธกี าร แบบ คอื เลอื นหน้าตา่ งเพอื เปรยี บเทยี บภาพทลี ะพกิ เซล (PSTM) และพิจารณาจากคุณลักษณะความกว้างและความสงู ของตัวอักษรภายในคาํ (WFM) จากนันสกัดคุณลักษณะของภาพคาํ ทไี ด้ และหาค่าความคล้ายคลงึ โดยพจิ ารณาค่าความหนาแนน่ ของพกิ เซลในหน้าต่างย่อย (S) เปรยี บเทยี บกบั การหาค่าความคล้ายคลงึ โดยพิจารณา จากค่าระยะห่างแบบยูคลเิ ดยี น (E) จากการทดสอบประสทิ ธภิ าพของวธิ กี ารค้นคืน พบว่าการหาขอบเขตของคาํ ในภาพโดยพิจารณาจาก ความกว้างและความสงู ของตัวอักษรภายในคาํ และการหาค่าความคล้ายคลงึ ของคาํ โดยพิจารณาค่าระยะห่างแบบยูคลิเดียน (WFM+E) เหมาะสมสาํ หรบั การค้นคนื คาํ ในภาพเอกสารภาษาล้านนาโดยการเปรยี บเทยี บภาพ ซงึ วธิ กี ารดงั กล่าวมคี ่า F เทา่ กบั . ค่าเฉลยี ความ measure แม่นยาํ (average precision) เท่ากบั . และค่าเฉลยี ความถูกต้อง (average recall) เท่ากบั . แสดงว่าวธิ กี ารค้นคนื ทนี าํ เสนอมี ประสทิ ธภิ าพอย่ใู นระดบั ทสี ามารถนาํ ไปใช้งานได้จรงิ คาํ สําคญั : การค้นคืนคาํ ภาพเอกสารภาษาล้านนา การสร้างภาพคาํ ภาษาล้านนา Abstract In this paper, we propose a method for Lanna word retrieval from Lanna document images. The first step in the proposed method is creation of synthetic keywords image. Then we select the candidate words from the document image by using 2 methods: Pixel-based Sliding Window Template Matching (PSTM) and Word Feature Matching (WFM). Next, feature vector of each word image is extracted by window-based feature extraction. Finally, all relevant words are retrieved by comparing similarity between keyword and word image feature vector. The similarity between two feature vectors is evaluated by using 2 methods: Sub-window similarity (S) and Euclidean distance (E). The experimental results show that the method which combination of Word Feature Matching and Euclidean distance provides best performance. The Fmeasure value of this method reaches 82 percent, the average recall and precision are 82 percent and 83 percent, respectively. It is shown that the proposed method is feasible, valid, and effective for Lanna word image searching. Keywords: word retrieval, lanna document images, synthetic lanna word image บทนาํ งานพยัญชนะพิเศษและสญั ลักษณ์พิเศษต่างๆ ดังรปู ที (จ) คาํ ในภาษาล้านนา[ ] มลี กั ษณะการผสมคาํ คล้ายคลงึ กบั ภาษาไทย คอื จะวางสระไว้รอบๆ พยญั ชนะต้น และจะ รูปที เปรยี บเทยี บลกั ษณะของคาํ ในภาษาล้านนากบั คาํ ในภาษาไทย วางวรรณยุกตไ์ ว้บนสระหรือพยญั ชนะต้น ดังรูปที (ก) แต่โครงสร้างคาํ ทมี ีตัวสะกดจะแตกต่างกบั ภาษาไทย คือ เอกสารภาษาล้านนาในอดตี จะถกู บนั ทกึ ไว้ในสอื ตา่ งๆ ตาํ แหน่งของตวั สะกดขนึ อยู่กับสระทใี ช้ในคาํ นนั เช่น ถ้า เช่น ใบลาน พับสา หรือศิลาจารึก แต่เมือเวลาผ่านไป สระนนั เป็นสระอะ, อา, อ,ิ อ,ี อ,ึ ออื , เอะ, เอ, แอะ, แอ, เอกสารเหล่านีกผ็ ุพงั เสยี หายไปตามกาลเวลา ทาํ ให้ข้อมูล โอะ, โอ และเออ ตัวสะกดจะถูกวางไว้ ด้ านล่างของ ซึ งถูกบันทึกไว้ ไม่ว่าจะเป็ นข้ อมูลทางประวัติศาสตร์ พยญั ชนะต้น ดงั รปู ที (ข) เมอื ผสมกบั สระอ,ุ อ,ู ออ, อวั , ประเพณี ศลิ ปวัฒนธรรม พิธกี รรม หลักคาํ สอนทางพระ เอีย, และ เอือ หรือมีพยัญชนะควบกลาํ อยู่ข้างล่าง พทุ ธศาสนา กฎหมาย วรรณกรรมพนื บ้าน ตาํ รายาสมนุ ไพร พยญั ชนะต้น ตวั สะกดจะถกู วางไว้ด้านหลงั ของพยัญชนะ ต้น ดังรปู ที (ค) นอกจากนียังมีการเปลียนรูปของตวั สะกดทเี รยี กว่า “ตวั สะกดหาง” ดงั รปู ที (ง) และมกี ารใช้

2 Naresuan University Journal 2013; Special Issue ตาํ ราโหราศาสตร์ ฯลฯ เกดิ ความเสยี หายและสญู หายไป ไว้เพือทาํ การค้นคนื และขนั ตอนต่อไป คอื ทาํ การค้นคนื ด้วย เพอื เป็นการอนุรกั ษแ์ ละป้ องกนั ข้อมลู อนั มคี า่ เหลา่ นนั โดยคาํ นวณค่าความคล้ายคลึงระหว่างคาํ ทตี ้องการค้นหา จงึ ไดม้ กี ารเกบ็ รกั ษาและบนั ทกึ ข้อมลู เหลา่ นนั ไว้ในสอื รปู แบบ กบั คาํ ในภาพเอกสารด้วยการเปรียบเทยี บลักษณะเฉพาะ อนื [ ] เช่น ภาพถ่าย หรอื หนังสอื อเิ ลก็ ทรอนกิ ส์ เป็นต้น ดงั กล่าว ในปั จจุ บันการค้ นคืนสารสนเทศจากรูปภาพเอกสาร จากปัญหาเกยี วกบั การเข้าถงึ ข้อมลู หรอื เอกสารภาษา [ ] สามารถแบ่งออกได้เป็น แบบคอื การแปลงรปู ภาพ ล้านนาของผู้ทีสนใจแต่ขาดความชาํ นาญในการอ่านการ เอกสารให้เป็ นข้อความในลักษณะของรหัสแอสกีโดยใช้ เขยี นภาษาล้านนา รวมทงั ข้อจาํ กดั ของลกั ษณะเฉพาะของ การร้จู าํ ภาษาเป็นเครอื งมอื ในการแปลง จากนนั จงึ ทาํ การ ภาษาทีส่งผลต่อวิธีการค้ นคืนข้ อความจากภาพเอกสาร ค้นคนื ข้อความหรอื สารสนเทศทตี ้องการ สว่ นในแบบที ภาษาล้านนา ทาํ ให้ผ้วู จิ ัยมแี นวคดิ ทจี ะพัฒนารปู แบบการ เป็นการดาํ เนนิ การกบั รปู ภาพเอกสารโดยไมใ่ ช้เทคนคิ การ ค้นคนื คาํ จากภาพเอกสารภาษาล้านนา เพือให้ผู้ทมี ีความ รู้จาํ ภาษา ซึงจะพิจารณาจากลกั ษณะต่างๆ ทีมีอยู่ในรปู สนใจเกยี วกบั ภาษาล้านนาสามารถค้นหาและเข้าถงึ เอกสาร ภาพเอกสารเป็นหลกั เช่น โครงสร้างของข้อความ รปู ร่าง หรือข้อมูลทีตรงตามความสนใจได้เร็วขึน รวมทังเป็ น ของคาํ หรอื ตัวอกั ษร เป็นต้น แล้วใช้ลักษณะเฉพาะเหล่า ประโยชน์ในการศึกษาและวิจัยของผู้ทมี ีความสนใจเกยี ว นันเพือค้นคนื ข้อความหรอื สารสนเทศทตี ้องการ กับภาษาล้านนาต่อไป เนืองจากการพัฒนาระบบการรู้จาํ ภาษาสาํ หรับภาษา เนือหาภายในบทความต่อจากนี ประกอบไปด้วยสว่ น ล้านนายังไม่สามารถนาํ มาใช้เป็ นเครืองมือในการแปลง ต่างๆ ดงั นี สว่ นที จะกล่าวถงึ รายละเอยี ดเกยี วกบั วธิ กี าร ข้ อความจากภาพเอกสารภาษาล้ านนาให้ เป็ นข้ อความใน ดาํ เนนิ การวจิ ยั สว่ นรายละเอยี ดเกยี วกบั การวดั ประสทิ ธภิ าพ ลักษณะของรหัสแอสกไี ด้ ดังนัน การดาํ เนินการกบั ภาพ และผลการทดลองจะแสดงในสว่ นที และสดุ ท้ายจะกล่าว เอกสารภาษาล้านนาจึงต้องพิจารณาถึงลักษณะต่างๆ ทมี ี ถงึ บทสรปุ และข้อเสนอแนะในสว่ นที อยใู่ นภาพเอกสาร จากการศกึ ษางานวจิ ยั ทเี กยี วข้อง พบว่า มกี ารใช้เทคนคิ ในการค้นคนื ภาพเอกสารด้วยการดาํ เนนิ การ วิธีการ กบั ภาพเอกสารเป็นหลัก[ - ] โดยเทคนิคดงั กล่าวเป็ น การเปรยี บเทยี บความคล้ายคลงึ ระหว่างคาํ ทตี ้องการค้นหา การค้นคืนคาํ จากภาพเอกสารภาษาล้านนา เริมด้วย กบั ภาพคาํ ในเอกสาร โดยมขี นั ตอนหลกั ในการดาํ เนินการ การสร้างภาพของคาํ ภาษาล้านนาทตี ้องการค้นหา แล้วนาํ คือ การประมวลผลภาพเพือแปลงภาพเอกสารให้อยู่ใน ภาพคาํ ดงั กล่าวไปทาํ การเปรยี บเทยี บเพือหาตาํ แหน่งของ รูปของลักษณะเฉพาะของภาพตัวอักษรหรือภาพคาํ ใน คาํ จากนันแสดงตาํ แหน่งของคาํ ดงั กล่าวทีปรากฏในภาพ เอกสาร แล้วจดั เกบ็ ลักษณะเฉพาะเหลา่ นนั เป็นฐานข้อมูล เอกสาร ซงึ ขนั ตอนในการดาํ เนินการแสดงได้ดงั รปู ที (ก) (ข) (ค) รูปที ตัวอย่างภาพเอกสารภาษาล้านนา (ก) ภาพเอกสารทไี ด้รบั ความเสยี หายในลกั ษณะต่างๆ (ข) ลกั ษณะของ ข้อความทชี าํ รดุ ไม่สมบรู ณ์ (ค) ลกั ษณะของภาพเอกสารทถี ูกนาํ มาใช้ในการวิจยั นี

Naresuan University Journal 2013; Special Issue 3 รูปที การค้นคืนคาํ จากภาพเอกสารภาษาล้านนา จากรปู ที จะเหน็ ว่าในกระบวนการของการค้นคืนคาํ . การสรา้ งไฟลร์ ูปภาพคําภาษาลา้ นนา จากภาพเอกสารภาษาล้านนาประกอบไปด้วยขนั ตอนทงั หมด จากการวิเคราะห์ลักษณะการวางตวั อกั ษรในการเขียน ภาษาล้านนาพบว่า มีรูปแบบการวางตัวอักษรแบ่งออก ขนั ตอน คอื การเตรียมภาพเอกสารภาษาล้านนา การ เป็น ระดับ ดังรูปที (ก) บรรทดั ในระดับที คือ สร้างไฟล์ภาพคาํ ภาษาล้านนา และการค้นคืนคาํ ในภาพ บรรทดั หลกั ซึงใช้เขยี นตัวอกั ษรทเี ป็ นพยัญชนะต้น, สระ เอกสาร ซงึ มรี ายละเอยี ดดงั ต่อไปนี หรอื ตวั สะกดทวี างระดบั เดยี วกบั พยญั ชนะต้น และตวั สะกด ทีมีการเปลียนรูปเป็นตวั สะกดหาง บรรทดั ในระดับที . การเตรียมรูปภาพเอกสารภาษาลา้ นนา จะใช้เขยี นตวั สะกดหรือสระทอี ยู่ใต้พยัญชนะต้น สว่ นสระ การเตรียมรูปภาพเอกสารภาษาล้ านนาแบ่งออกได้ ทอี ยู่ใต้พยญั ชนะควบกลาํ จะเขยี นไว้ในบรรทดั ระดับที เป็ น ขนั ตอนได้แก่ ขนั ตอนที เป็นขันตอนของการ สว่ นบรรทดั ในระดบั ที จะใช้เขยี นสระ, วรรณยกุ ตห์ รอื ตวั แปลงภาพ ซึงจะทาํ การแปลงภาพจากภาพสีเทามาเป็ น อกั ษรพเิ ศษทเี รยี กวา่ “ไม” และบรรทดั ในระดบั ที จะเป็น ภาพขาวดาํ จากนนั ในขนั ตอนที จะเป็นขนั ตอนของการ ส่วนทีใช้ เขียนวรรณยุกต์ซึ งจะวางอยู่ บนสระทีอยู่ เหนือ ปรบั ปรงุ ภาพ เพอื กาํ จดั สญั ญาณรบกวนในภาพ ทาํ ให้ภาพ พยญั ชนะต้น [ ] มคี วามชดั เจนขนึ และขนั ตอนที จะเป็นขนั ตอนของการ ตัดบรรทัดเพือแยกตัวอักษรภายในภาพ ตัวอย่างภาพ เอกสารทีผ่านการเตรียมในขันตอนของการประมวลผล ภาพแสดงดงั รปู ที (ก) (ข) รูปที ตัวอย่างรูปภาพเอกสารภาษาล้านนา (ก) ภาพต้นฉบับ และ (ข) รูปภาพทีผ่านขันตอนของการ ตัดแยกบรรทดั แล้ว

4 Naresuan University Journal 2013; Special Issue รูปที ตัวอย่างลักษณะของคาํ ทตี ้องพิจารณาในขันตอนการสร้างภาพคาํ ภาษาล้านนา (ก) การวางตัวอกั ษรในคาํ ซึงแบ่งเป็ น ระดับ (ข) ระยะห่างในคาํ (ค) ตาํ แหน่งทเี หมาะสมในการวางตัวอกั ษรในคาํ (ง) ภาพคาํ ภาษาล้านนาทสี ร้างขนึ จากคาํ ทตี ้องการค้นหา เมอื พจิ ารณาตาํ แหนง่ ในการจดั วางตวั อกั ษรทงั ระดบั . การคน้ คืนคําในภาพเอกสาร พบว่าระยะห่างระหว่างตัวอักษรและตาํ แหน่งการวางตัว การค้นคนื คาํ จากรปู ภาพเอกสารภาษาล้านนามขี นั ตอน อักษรในแต่ละระดับดังรูปที (ข) ก็เป็ นเรืองทีต้ อง ในการดาํ เนนิ การ ขนั ตอน โดยขนั ตอนแรกเป็นการหา พิจารณา นอกจากนกี ารจดั วางตาํ แหน่งตวั อกั ษรในแต่ละ ขอบเขตของคาํ ในภาพเอกสารทมี ีความคล้ายคลงึ กบั ภาพ คาํ กแ็ ตกต่างกนั ขึนอยู่กบั ลักษณะและหน้าทขี องตวั อกั ษร คาํ ภาษาล้านนาทสี ร้างขนึ จากนนั จะนาํ ภาพคาํ ทงั หมดทไี ด้ นันว่าเป็น พยัญชนะ, ตัวสะกด, สระ, วรรณยุกต์ หรือ จากขันตอนแรกมาสกัดคุณลักษณะโดยแบ่งภาพคาํ ออก สญั ลักษณพ์ ิเศษ ซึงตัวอักษรบางตวั มีตาํ แหน่งในการจัด เป็นหน้าต่างย่อยๆ แล้วทาํ การคาํ นวณหาค่าความคล้าย วางแตกต่างไปจากตัวอนื ๆ ดังรูปที (ค) จึงต้องมกี าร คลึงและแสดงตาํ แหน่งของคาํ ทคี ้นคนื ได้ กาํ หนดเงือนไขในการจัดวางตาํ แหน่งตัวอักษร เพือให้ . . การหาขอบเขตของคาํ ในภาพเอกสารโดยการ สามารถสร้างภาพคาํ ภาษาล้านนาได้ถูกต้อง ดงั รปู ที (ง) เปรยี บเทยี บภาพ ( ) การหาขอบเขตของคาํ โดยเลือนหน้าต่างไปตาม จากรายละเอยี ดต่างๆ ทีต้องนาํ มาพิจารณาก่อนการ บรรทดั ข้อความทลี ะพิกเซล (PSTM) สร้างภาพคาํ ภาษาล้านนาดังทีกล่าวมาข้างต้นนัน ทาํ ให้ ทาํ ได้โดยการสร้างหน้าต่างให้มีขนาดเท่ากบั ภาพคาํ ที สามารถสรุปแผนภาพการทาํ งานของขันตอนการสร้าง ต้องการค้นหา และเลือนหน้าต่างดังกล่าวไปตามบรรทดั ไฟล์ภาพคาํ ภาษาล้านนาทงั หมดได้ดงั รปู ที โดยเริมจาก ข้อความในภาพเอกสาร จากนนั นาํ เวคเตอรข์ องภาพคาํ ที การเตรยี มภาพตวั อกั ษรภาษาล้านนาเพอื ใช้ในการสร้างภาพ ต้องการค้นหาและภาพเอกสาร ณ ตาํ แหน่งทพี ิจารณามา คาํ ในขนั ตอนถดั ไปจะเป็นการวิเคราะห์ข้อมลู เข้าทอี ยู่ใน เปรียบเทยี บกนั โดยใช้การเปรียบเทยี บบิตแบบ and แล้ว รูปแบบอักษรตัวพิมพ์ ซึงเป็ นรูปแบบการพิมพ์โดยใช้ คาํ นวณค่าความหนาแน่นของพิกเซลในภาพผลลัพธท์ ไี ด้ ฟอนต์ TILOK จากนนั ทาํ การตรวจสอบเพอื หาตาํ แหน่งที การพจิ ารณาตาํ แหนง่ ในภาพเอกสารทมี คี วามคล้ายคลงึ กบั เหมาะสมของตัวอักษรในภาพคาํ ทีจะสร้าง แล้วนาํ ภาพ ภาพคาํ ทีต้องการค้นหา จะพิจารณาเปรียบเทยี บจากค่า ของตวั อกั ษรภาษาล้านนาทตี รงกบั ตวั อกั ษรทวี ิเคราะหม์ า สร้างเป็นภาพของคาํ ภาษาล้านนา ซึงคาํ นวณได้จากสมการที ( ) หากมคี ่าอยู่ในช่วง - ขอบเขตของภาพทพี ิจารณาดงั กล่าวจะถูกจัด เกบ็ ไว้ ขนั ตอนในการหาขอบเขตของคาํ แสดงดงั รปู ที รูปที การสร้างภาพคาํ ภาษาล้านนา

Naresuan University Journal 2013; Special Issue 5 รูปที การหาขอบเขตของคาํ โดยการเลอื นหน้าต่างไปตามบรรทดั ข้อความทลี ะพิกเซล Idensity Dimg u 100 (1) ภาพตวั อกั ษรภายในคาํ และค่าผลรวมความกว้างของภาพ Dinput ตวั อกั ษรภายในคาํ ตามลาํ ดบั ผลลโพัดธยใ์ทนี เอDกimสgาครือแลคะ่าคDวinาpมutหคนอื าแคน่าค่นวขาอมงหพนิกาแเซนล่นภขาอพง คือ ภาพตัวอักษรในบรรทัดข้อความทีพิจารณา ลาํ ดบั ที i ถงึ ลาํ ดบั ที j พิกเซลในภาพคาํ ทตี ้องการค้นหา คอื ความกว้างของภาพตวั อกั ษรภายในคาํ ลาํ ดบั ที k ( ) การหาขอบเขตของคาํ ในภาพโดยพิจารณาจาก คือ ขอบเขตบนของภาพตัวอักษรใน ความกว้างและความสงู ของตวั อกั ษรภายในคาํ (WFM) บรรทดั ข้อความทพี ิจารณาลาํ ดบั ที i ถึงลาํ ดบั ที j คือ ขอบเขตล่างของภาพตัวอักษรใน ทาํ การสกัดคุณลักษณะของภาพคาํ ทีต้องการค้นหา บรรทดั ข้อความทพี ิจารณาลาํ ดบั ที i ถึงลาํ ดบั ที j เมอื ได้คณุ ลกั ษณะทเี ป็นตวั แทนของภาพคาํ แล้ว ทาํ การตดั ขอบเขตของคาํ ในภาพเอกสารทไี ด้มาจากขนั ตอนการ แยกตวั อกั ษรในบรรทดั ขอ้ ความโดยใช้เทคนคิ การโปรเจคชนั เปรียบเทียบภาพ เพือหาขอบเขตของคาํ ในภาพเอกสาร ดงั ทไี ด้อธบิ ายมาแล้วข้างต้นนนั แสดงได้ดังรปู ที จากรปู ตามแนวนอน จากนนั พจิ ารณากลมุ่ ภาพตวั อกั ษรในบรรทดั ดังกล่าวจะเห็นว่าผลลัพธ์ทีได้จากขันตอนนีประกอบไป ด้ วยคาํ เป็ นจาํ นวนมาก ซึงเป็ นคาํ ทีไม่ถูกต้ องและไม่ ข้อความทมี ีคุณสมบัติสอดคล้องกบั คุณลักษณะทสี กดั มา ต้องการให้ปรากฏในการค้นคนื ดงั นัน จึงต้องมกี ารคัด กรองหาตาํ แหน่งทถี ูกต้องของคาํ ทคี ้นคนื มาได้ โดยผ่าน ได้โดยเลอื นพิจารณาไปทลี ะภาพตวั อกั ษรจนหมดบรรทดั กระบวนการของการหาค่าความคล้ายคลึงของคาํ ดังจะ อธบิ ายในขันตอนต่อไป ข้อความดงั แสดงในรปู ที จากนนั พจิ ารณาคา่ ทไี ด้จากการ คาํ นวณตามสมการที ( ) หากมคี ่าเทา่ กบั ขอบเขตใน ภาพเอกสารทพี ิจารณาจะถูกจัดเกบ็ ไว้ โดยที คอื คณุ ลกั ษณะทเี ป็นตวั แทนของคาํ ทตี ้องการ ค้นหาประกอบไปด้วย และ ซงึ คอื ค่าความสงู ของ รูปที การหาขอบเขตของคาํ โดยพจิ ารณาจากความกว้างและความสงู ของตัวอกั ษรภายในคาํ Match( Fq ,bio j ) ­° 1 if max(upper ( bio j ))  min( lower( bio j )) Hq and j Wq (2) ® ¯°0 otherwise ¦wk k1

6 Naresuan University Journal 2013; Special Issue รูปที ตาํ แหน่งของคาํ ในภาพเอกสารทไี ด้มาจากการเปรยี บเทยี บภาพคาํ ทตี ้องการค้นหา . . การหาความคล้ายคลงึ ของคาํ ( ) หากมคี ่ามากกวา่ หรอื เทา่ กบั คา่ เธรดโชลดท์ กี าํ หนดไว้ ( ) การหาความคล้ายคลึงของคาํ ด้วยการพิจารณาค่า กจ็ ะถอื ว่าคาํ ทพี ิจารณาดงั กล่าวมคี วามคล้ายคลงึ กนั ความหนาแน่นในแต่ละหน้าต่างย่อย (S) แบ่งภาพทพี ิจารณาออกเป็นหน้าต่างย่อยขนาด m x 1 n จากนนั คาํ นวณคา่ ความหนาแน่นของพกิ เซลทมี สี ดี าํ หรอื ©§¨¨ mxn k  k 2 ·¸¸¹2 (4) มคี ่าเป็น ในแตล่ ะหน้าต่างย่อย โดยกาํ หนดให้ เวคเตอร์ W เป็นเวคเตอร์ความหนาแน่นในแต่ละหน้าต่างย่อยของ ¦ ภาพผลลพั ธใ์ นภาพเอกสาร และเวคเตอร์ Q เป็นเวคเตอร์ ความหนาแน่นในแตล่ ะหน้าตา่ งย่อยของภาพคาํ ทตี ้องการ k1 ค้นหา จากนนั ทาํ การเปรยี บเทยี บเวคเตอร์ W และเวคเตอร์ Q โดยการนบั จาํ นวนหน้าต่างย่อย Count(k) ตามสมการที โดยที คอื จาํ นวนพิกเซลทมี สี ดี าํ ในแต่ละหน้าต่างย่อย ( ) หากมคี ่ามากกว่าหรอื เทา่ กบั ค่าเธรดโชลดท์ กี าํ หนดไว้ กจ็ ะถอื ว่าคาํ ทพี ิจารณาดงั กล่าวมคี วามคล้ายคลงึ กนั ของภาพผลลัพธท์ ีพิจารณาในภาพเอกสาร โดย k มีค่า k k k (3) ตงั แต่ ถงึ m x n k คอื จาํ นวนพิกเซลทมี ีสดี าํ ในแต่ละหน้าต่างย่อยของ ภาพคาํ ทตี ้องการค้นหา โดย k มคี ่าตงั แต่ ถึง m x n เมือนาํ ขอบเขตของคาํ ในภาพเอกสารทีได้มาจากขัน ตอนการเปรียบเทยี บภาพมาหาค่าความคล้ายคลงึ ของคาํ ดังทีได้อธิบายมาแล้วข้างต้น ผลลัพธ์สุดท้ายทีได้จาก ขันตอนการหาค่าความคล้ายคลึง คือ ตาํ แหน่งของคาํ ที ค้นคนื มาได้ในภาพเอกสาร ดงั แสดงในรปู ที โดยที คอื จาํ นวนพิกเซลทมี สี ดี าํ ในแต่ละหน้าต่างย่อย ตาํ แหน่งของคาํ ทคี ้นคนื ได้ในภาพเอกสารภาษาล้านนา ของภาพผลลัพธ์ทีพิจารณาในภาพเอกสาร โดย k มีค่า ตงั แต่ ถงึ m x n คอื จาํ นวนพิกเซลทมี ีสดี าํ ในแต่ละหน้าต่างย่อยของ ภาพคาํ ทตี ้องการค้นหา โดย k มคี ่าตงั แต่ ถึง m x n ( ) การหาความคล้ายคลึงของคาํ ด้วยการพิจารณาค่า ระยะห่างแบบยูคลเิ ดยี น (E) แบ่งภาพทพี ิจารณาออกเป็นหน้าต่างย่อยขนาด m x n จากนันคาํ นวณค่าความหนาแน่นของพิกเซลทีมีสีดาํ เทยี บกบั จาํ นวนพกิ เซลทงั หมดในแตล่ ะหน้าตา่ งยอ่ ยของภาพ ทพี จิ ารณา โดยกาํ หนดให้ เวคเตอร์ W เป็นเวคเตอรค์ วาม หนาแน่ นในแต่ละหน้ าต่างย่ อยของภาพผลลัพธ์ในภาพ เอกสารและเวคเตอร์ Q เป็นเวคเตอรค์ วามหนาแน่นในแต่ ละหน้าต่างย่อยของภาพคาํ ทตี ้องการค้นหา จากนนั ทาํ การ รูปที เปรยี บเทยี บเวคเตอร์ W และเวคเตอร์ Q โดยการพจิ ารณา ค่าระยะห่างแบบยูคลิเดียน Edist(W,Q) ตามสมการที

Naresuan University Journal 2013; Special Issue 7 ผลและอภิปราย 1. PSTM+S คือ วิธีการหาขอบเขตของคาํ ในภาพ เอกสารด้ วยการเปรียบเทียบภาพโดยเลื อนหน้ าต่ างไป ในงานวจิ ยั นไี ด้ทาํ การทดสอบประสทิ ธภิ าพของการค้น ตามบรรทดั ข้อความทลี ะพิกเซล และหาคา่ ความคล้ายคลงึ ของคาํ ด้วยการพจิ ารณาคา่ ความหนาแน่นในแตล่ ะหน้าตา่ ง คนื คาํ จากภาพเอกสารภาษาล้านนาโดยใช้คาํ ในการทดสอบ ย่อย จาํ นวนทงั หมด คาํ และกาํ หนดค่าเธรดโชลดท์ ใี ช้ใน 2. WFM+S คอื วธิ กี ารหาขอบเขตของคาํ ในภาพโดย พิจารณาจากความกว้างและความสงู ของตวั อกั ษรภายใน การเปรียบเทียบความคล้ายคลึงของคาํ เท่ากับ . ซึง คาํ และหาค่าความคล้ายคลึงของคาํ ด้วยการพิจารณาค่า ความหนาแน่นในแต่ละหน้าต่างย่อย ประสทิ ธภิ าพของการค้นคืนคาํ จากภาพเอกสารวัดจากค่า 3. PSTM+E คือ วิธีการหาขอบเขตของคาํ ในภาพ ความแม่นยาํ (precision) ความถูกต้อง (recall) และค่า เอกสารด้ วยการเปรียบเทียบภาพโดยเลื อนหน้ าต่ างไป ตามบรรทดั ข้อความทลี ะพิกเซล และหาคา่ ความคล้ายคลงึ Fmeasure ของการค้นคนื ดงั สมการที ( ), ( ) และ ( ) ของคาํ ด้วยการพิจารณาค่าระยะห่างแบบยูคลิเดยี น ตามลาํ ดับ (5) 4. WFM+E คอื วิธกี ารหาขอบเขตของคาํ ในภาพโดย พจิ ารณาจากความกว้างและความสงู ของตวั อกั ษรภายในคาํ ตาํ แหน่งของคาํ ทคี ้นคนื ได้ถกู ต้อง และหาค่าความคล้ายคลงึ ของคาํ ด้วยการพิจารณาค่าระยะ ความแม่นยาํ = ห่างแบบยูคลเิ ดยี น ตาํ แหนง่ ของคาํ ทคี ้นคนื มาได้ทงั หมด ผลการทดสอบประสิทธิภาพของวิธีการค้นคืนคาํ ใน ภาพเอกสารแสดงในตารางที และการเปรยี บเทยี บเวลา ตาํ แหน่งของคาํ ทคี ้นคนื ได้ถูกต้อง (6) ทใี ช้ในการทดสอบแสดงในรปู ที ความถกู ต้อง = ตาํ แหน่งของคาํ ทตี ้องการค้นคนื ทปี รากฏในรปู ภาพเอกสาร (7) ในการทดสอบประสิทธิภาพการค้นคืนคาํ จากภาพ เอกสารภาษาล้ านนา มีวิธีการในการทดสอบทังหมด จาํ นวน วธิ ี ซงึ อธบิ ายได้ดงั ต่อไปนี ตารางที ประสทิ ธภิ าพของวธิ กี ารทใี ช้ทดสอบการค้นคืนคาํ ในภาพเอกสารภาษาล้านนา จากการเปรียบเทียบประสิทธิภาพของวิธีการค้นคืน รูปที เปรยี บเทยี บเวลาทใี ช้ในการทดสอบการค้นคนื คาํ ในภาพ ในตารางที เมอื พิจารณาประสทิ ธภิ าพด้านความถูกต้อง เอกสาร ในการค้นคนื ของวธิ กี ารทที ดสอบ พบว่าวิธกี ารค้นคนื แบบ PSTM+S มีคา่ เฉลยี ความถูกต้องสงู ทสี ดุ คอื . เมอื บทสรุป พิจารณาประสทิ ธภิ าพด้านความแม่นยาํ ในการค้นคนื พบ ว่าวิธกี ารค้นคืนแบบ PSTM+E มีค่าเฉลยี ความแม่นยาํ สงู การวิจยั นีนาํ เสนอการค้นคนื คาํ จากภาพเอกสารภาษา ทสี ดุ คอื . เมอื พิจารณาประสทิ ธภิ าพโดยรวมของการ ล้านนา ด้วยการสร้างภาพคาํ ทตี ้องการค้นหา แล้วนาํ ภาพ ค้นคนื พบว่าวิธกี ารค้นคืนแบบ PSTM+E และ WFM+E ดังกล่าวไปทาํ การเปรียบเทียบเพือหาตาํ แหน่งของคาํ ที มีค่า Fmeasure สูงทีสุด คือ . และเมือพิจารณา ปรากฏในภาพเอกสาร โดยใช้ค่าความแม่นยาํ ค่าความ ประสทิ ธภิ าพในการค้นคนื รว่ มกบั เวลาทใี ช้ในการค้นคนื คาํ ถูกต้อง และค่า F เป็นตัววัดประสิทธภิ าพของการ พบว่าวิธกี ารค้นคืนแบบ WFM+E มคี วามเหมาะสมมาก ทีสดุ ในการค้นคืนคาํ จากภาพเอกสารภาษาล้านนา นอก measure จากนีหากพิจารณาจากรูปที ซึงเป็ นการเปรียบเทียบ เวลาทใี ช้ในการค้นคนื คาํ ในภาพเอกสารทงั หมด คาํ จะเหน็ ว่าวิธกี ารค้นคืนแบบ PSTM+S และ PSTM+E ใช้ เวลาในการค้นคนื คาํ มากกว่าวธิ กี ารค้นคนื แบบอนื ๆ อย่าง เหน็ ได้ชดั เจน ดงั นนั จงึ แสดงให้เหน็ ว่าวิธกี ารหาขอบเขต ของคาํ ในภาพเอกสารด้วยการเปรยี บเทยี บภาพโดยเลอื น หน้ าต่ างไปตามบรรทัดข้ อความทีละพิ กเซลจะใช้ เวลา ในการประมวลผลมากทสี ดุ

8 Naresuan University Journal 2013; Special Issue ค้นคืน จากการทดสอบพบว่าวิธีเหมาะสมในการค้นคืน [6] Yue, L & Chew Lim Tan. (2002). “Word Searching คาํ จากภาพเอกสารภาษาล้านนา คอื การหาขอบเขตคาํ ใน in Document Images using Word Portion Matching.” ภาพเอกสารโดยการพิจารณาจากความกว้างและความสงู Fifth IAPR International Workshop on Document Analysis ของตัวอักษรภายในคาํ และหาค่าความคล้ายคลงึ ของคาํ Systems, USA. 319-328. โดยพิจารณาจากคา่ ระยะห่างแบบยคู ลิเดยี น เมอื นาํ วธิ กี าร ค้นคืนคาํ ดงั กล่าวมาพัฒนาต้นแบบเครืองมือทีใช้ในการ [7] Soo Hyung Kimet al. (2005). “Keyword Spotting ค้นคืนคาํ จากภาพเอกสารภาษาล้านนาและทดสอบการ on Korean Document Images by Matching the Keyword ใช้งาน พบว่าวิธกี ารค้นคนื คาํ จากภาพเอกสารภาษาล้านนา Image.” Lecture Notes In Computer Science, Digital มีประสิทธิภาพอยู่ในระดับทีสามารถนาํ ไปใช้งานได้จริง Libraries: Implementing Strategies and Sharing ซึงในอนาคตสามารถนาํ แนวคดิ ในการค้นคืนคาํ จากภาพ Experiences, Heidelberg: Springer Berlin, 3815, 158- เอกสารภาษาล้านนาโดยการเปรียบเทียบภาพไปพัฒนา 166. เครื องมือเพื อใช้ ในการช่ วยคัดกรองภาพเอกสารภาษา ล้านนาเบอื งต้นสาํ หรบั ผทู้ มี คี วามสนใจเกยี วกบั ภาษาล้านนา [8] Seema, Y. & Sudhir, S. (2009). “Retrieval Of ทาํ ให้สามารถค้นหาและเข้าถงึ เอกสารหรอื ข้อมลู ทตี รงตาม Information In Document Image Databases Using Partial ความสนใจได้เรว็ ขนึ และเพือเป็นประโยชนใ์ นการศึกษา Word Image Matching Technique.” In Proceeding of และวิจยั ของผู้ทมี ีความสนใจเกียวกบั ภาษาล้านนาต่อไป IMECS 2009, Vol. I, Hong Kong, 902-907. อย่างไรกต็ ามวิธีการค้นคืนคาํ จากภาพเอกสารภาษา [9] Yathongkhum, W. et al. (2010). “Word Retrieval ล้านนาในการวิจัยนีนาํ ไปใช้ได้ผลดีกับภาพเอกสารทีมี from Lanna Document Images,” in Proc. The 14th ลักษณะของตัวอกั ษรและรูปแบบการจัดวางตัวอักษรใน National Computer Science and Engineering Conference ภาพเอกสารใกล้เคียงกบั ภาพคาํ ภาษาล้านนาทีสร้างขึน (NCSEC). Thailand, 307-312. เมอื พิจารณาถึงปัจจัยทีส่งผลต่อประสทิ ธภิ าพของการค้น คนื พบวา่ ลกั ษณะของตวั อกั ษรภายในคาํ จาํ นวนพยางคใ์ น คาํ และความซับซ้อนของรูปแบบโครงสร้างคาํ เป็นสิงทสี ่ง ผลต่อความแม่นยาํ และความถูกต้องของวิธกี ารค้นคืนที นาํ เสนอในงานวิจยั นี เอกสารอา้ งอิง [ ] เกษมศริ ริ ตั นพ์ ริ ยิ ะ. ( ). ตวั เมอื ง: การเรยี นภาษา ลา้ นนาผ่านโครงสรา้ งคํา. โรงพิมพ์มหาวิทยาลัยสโุ ขทัย ธรรมาธริ าช. นนทบุร.ี [ ] จรี ยทุ ธ ไชยจารวุ ณชิ และคณะ. ( ). วรรณพิมพ์ ลา้ นนา: วรรณกรรมทีตีพิมพ์ดว้ ยอักษรธรรมลา้ นนา เลม่ . มหาวทิ ยาลยั เชยี งใหม.่ เชียงใหม่, สาํ นกั งานพัฒนา วทิ ยาศาสตรแ์ ละเทคโนโลยแี ห่งชาต.ิ [3] Doermann, D. (1998). “The Indexing and Retrieval of Document Images: A Survey.” Computer Vision and Image Understanding, 70(3), 287-298. [4] Chew Lim Tan et al. (2002). “Imaged Document Text Retrieval without OCR.” IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(6), 838-844. [5] Chew Lim Tan et al. (2003). “Text Retrieval from Document Images Based on Word Shape Analysis.” Applied Intelligence, 18(3), 257-270.