บทที 15 คลังขอ้ มูล วัตถุประสงค์ 1. บอกถึงลักษณะสําคัญและแนวความคิดของการ พัฒนาเทคโนโลยีด้านระบบคลังข้อมูล 2. บอกลักษณะโครงสร้างและสถาปตยกรรมของ คลังข้อมูลได้ 3. สามารถออกแบบฐานข้อมูลเพือรวบรวมเอาข้อมูล ทีสนใจจากหลากหลายระบบเพือนํามาวิเคราะห์หารูป แบบข้อมูลเพือช่วยในการตัดสินใจ
แนวคิดเกียวกับ คลังขอ้ มูล หัวเรอื ง 1. ระบบคลังขอ้ มูลคืออะไร 2. ประโยชนข์ องระบบคลังขอ้ มูล แนวคิด 1. แนวโนม้ ในการพฒั นาเทคโนโลยดี ้านระบบฐาน ขอ้ มูลเพอื รวบรวมขอ้ มูลทีมอี ยูไ่ ปชว่ ยในการตัด สนิ ใจ หรอื ทีเรยี กวา่ ระบบคลังขอ้ มูลซงึ เปนกระ บวนการรวบรวมขอ้ มูลทีสนใจจากหลากหลาย ระบบเพอื นาํ มาวเิ คราะห์หารูปแบบขอ้ มูลเพอื ชว่ ย ในการตัดสนิ ใจ ระบบคลังขอ้ มูลไมไ่ ด้เปน โปรแกรมใชง้ านสาํ เรจ็ รูปทีหลังจากติดตังแล้วใช้ งานได้เลยแต่เปนระบบทีสรา้ งขนึ มาตามความ ต้องการในการวเิ คราะห์ของผใู้ ชง้ านทีหลากหลาย 2. ระบบคลังขอ้ มูลมปี ระโยชนไ์ ด้ในหลายหลาก ธุรกิจ เชน่ ธุรกิจโทรคมนาคม สามารถใชว้ เิ คราะห์ พฤติกรรมการใชโ้ ทรศัพท์ของผใู้ ชเ้ พอื จดั กิจกรรมสง่ เสรมิ การตลาดให้เหมาะสม
ระบบคลังข้อมูลคืออะไร ปจจุบันนีองค์กรจะประสบความสําเรจ็ ต้องขึนอยู่กับปจจัย หลายอย่างและปจจัยอย่างหนึงทีทําให้องค์กรประสบความสําเรจ็ คือข้อมูลที มีอยู่และใช้ประจําวันหรอื Operational Databaseซึงนับวันจะมีแต่มาก ขึนจนเปนปญหาสําหรบั องค์กรทีจะต้องจัดการเก็บข้อมูลซึงข้อมูลเหล่านี อาจเก็บรวบรวมอยู่ในรูปแบบต่างๆไม่ว่าจะเปนเทปแม่เหล็กดิสก์เก็ตหรอื ใน แผ่นซีดีนอกจากนีข้อมูลมากมายเหล่านียังไม่เหมาะทีเราจะนํามาใช้ในการ วิเคราะห์ทางธุรกิจหรอื ช่วยผู้บรหิ ารสําหรบั การตัดสินใจ(Decision Support System)ทางธุรกิจได้เพราะต้องใช้เวลาในการประมวลผลทีนาน พอสมควรและส่งผลกระทบไปถึงระบบการทํางานของเครอื งทีใช้งานประจํา วันอีกด้วย
ระบบคลังข้อมูลคืออะไร (2) เราจะมีวิธีอย่างไรเพือทีจะทําให้ข้อมูลทีเรามีอยู่สามารถนํามาใช่ ตอบสนองความต้องการทางธุรกิจได้อย่างรวดเรว็ และมีประสิทธิภาพดังนัน แนวความคิดเรอื งคลังข้อมูล (Data Warehouse) จึงเกิดขึนเพือตอบ สนองงานในรูปแบบของคลังเก็บข้อมูลสําหรบั การบรหิ ารและหากองค์กรใด สามารถทีจะนําข้อมูลทีมีอยู่มาใช้ อยา่ งมปี ระสทิ ธภิ าพยอ่ มทีจะทําใหอ้ งค์กรประสบความสาํ เรจ็ เหนอื ค่แู ขง่ อยา่ งไรก็ตามเมอื เรามขี อ้ มูลแล้วแต่ถ้าเราไมม่ กี ารจดั การหรอื การบรหิ ารขอ้ มูลทีดี ก็จะทําใหอ้ งค์กรยากต่อการดาํ เนนิ ธุรกิจสาํ หรบั ในประเทศไทยเองแนวความคิด คลังขอ้ มูลไดถ้ กู นาํ เขา้ มาใชก้ ับหนว่ ยงานขนาดใหญเ่ ชน่ ธนาคารบรษิ ัทเงินทนุ หลัก ทรพั ยห์ รอื หนว่ ยงานทีจาํ เปนต้องอาศัยขอ้ มูลทําการวเิ คราะหย์ อดขายในอนาคต การเปรยี บเทียบยอดขายในปจจุบนั กับยอดขายทีเกิดขนึ ในอดตี หรอื การเปรยี บ เทียบขอ้ มูลในสว่ นต่างๆ ของบรษิ ัทแล้วนาํ มาวเิ คราะหใ์ นรปู แบบขอ้ มูลสาํ หรบั การ บรหิ ารเพอื เปนแนวทางสาํ หรบั การกําหนดแผนงานต่อไปในอนาคต
คลังข้อมูลคืออะไร คลังข้อมูลคือทีเก็บข้อมูลขององค์การทีได้รบั การออกแบบ เพือช่วยการตัดสินใจของฝายบรหิ ารในทางปฏิบัตินันสิงทีเก็บอยู่ในคลัง ข้อมูลไม่ได้มีแต่เพียงข้อมูลเท่านันหากยังเก็บเครอื งมือสําหรบั ดําเนินการ กับข้อมูลกระบวนการทํางานกับข้อมูลและทรพั ยากรอืนๆระบบคลังข้อมูล เพือการบรหิ ารได้ถูกออกแบบมาเพือใช้ในการเก็บข้อมูลขนข้อมูลขนาดใหญ่ โดยระบบข้อมูลเพือการบรหิ ารนีจะแยกข้อมูลออกจากฐานข้อมูลทีใช้งาน ประจาํ วัน (Operational Database) ซึงข้อมูลสําหรบั การบรหิ ารโดยมาก จะเปนข้อมูลสรุป (Summary Data) ข้อมูลสรุปนีอาจจะเปนข้อมูลในอดีต ข้อมูลอ้างอิงหรอื ข้อมูลณปจจุบันซึงอาจได้มาจากข้อมูลOperational Databaseหรอื มีการประมวลผลข้อมูลใน Operational Database ให้เปน ข้อมูลสรุป
วตั ถุประสงค์ของการสร้างคลัง ข้อมูล เปาหมายในการสรา้ งคลังขอ้ มูลมดี งั นี 1.คลังขอ้ มูลทําใหส้ ามารถเขา้ ถึงขอ้ มูลขององค์กรไดผ้ จู้ ดั การและนกั วเิ คราะห์ ขององค์กรสามารถเชอื มต่อเขา้ ไปยงั คลังขอ้ มูลจากเครอื งคอมพวิ เตอรข์ อง ตนไดซ้ งึ การเชอื มต่อสามารถทําไดท้ ันทีตาความต้องการและดว้ ย ประสทิ ธภิ าพสงู เครอื งมอื ทีมใี หก้ ับผจู้ ดั การและนกั วเิ คราะหใ์ ชง้ านง่าย สามารถออกรายงานไดด้ ว้ ยการคลิกปุมเดยี ว 2.ขอ้ มูลในคลังขอ้ มูลมคี วามถกู ต้องตรงกันหมดคําถามเดยี วกันต้องไดร้ บั คํา ตอบทีเหมอื นกันเสมอไมว่ า่ ผถู้ ามจะเปนใครถามเวลาใด 3.ขอ้ มูลในคลังขอ้ มูลสามารถถกู วเิ คราะหจ์ ากหวั ขอ้ ในธุรกิจประเภทนนั โดยแบง่ ขอ้ มูลหรอื รวมขอ้ มูลมาวเิ คราะหต์ ามความต้องการ 4.คลังขอ้ มูลเปนสว่ นทีผลิตขอ้ มูลจาก OLTP ขอ้ มูลไมเ่ พยี งแต่ถกู รวบรวมมา ไวท้ ีศูนยก์ ลางอยา่ งเดยี วแต่จะถกู รวบรวมอยา่ งระมดั ระวงั จากแหล่งขอ้ มูล หลายๆแหง่ นอกองค์กรดว้ ยแล้วมาปรบั ปรงุ ใหเ้ หมาะสมกับการใชง้ านเท่านนั ถ้าขอ้ มูลเชอื ถือไมไ่ ดห้ รอื ไมส่ มบูรณจ์ ะไมถ่ กู อนญุ าตใหน้ าํ ไปใช้ 5.คณุ ภาพของขอ้ มูลในคลังขอ้ มูลเปนตัวผลักดนั ใหส้ ามารถทําการ REENGINEERING ธุรกิจได้
ประโยชน์ของระบบคลังข้อมูล โดยทัวไปแล้วข้อมูล Operational Database จะเก็บข้อมูลในรูปแบบ Transaction Systems เมือมีความต้องการข้อมูลในอันทีจะนํามาใช้ช่วย ในการตัดสินใจก็จะประสบปญหาต่างๆ เช่น บุคลากรทางด้าน Information Systems จําเปนต้องเรยี กข้อมูลจาก ฐานข้อมูลขนาดใหญ่ซึงมีข้อมูลมากเกินความต้องการส่งผลให้ ประสิทธิภาพของ Transaction Operational Database ทํางานได้ ช้าลง ข้อมูลจะเปนรูปแบบข้อมูลตารางเท่านัน ข้อมูลจะถูกนําเสนอในรูปแบบทีตายตัวไม่สามารถเปลียนแปลงตาม ความต้องการของผู้ใช้ ไม่ตอบสนองความต้องการของการตัดสินใจเพราะข้อมูลสําหรบั การ ตัดสินใจมีความสลับซับซ้อนสูงมีการรวมตัวกันของข้อมูลจากตาราง ต่างๆ หลายๆ ตารางข้อมูล ไม่ตอบสนองการสอบถามข้อมูล (Data Queries) สําหรบั ผู้ใช้ มีข้อมูลย้อนหลังน้อย (Historical Data) ข้อมูลถูกจัดเก็บกระจัดกระจายตามทีต่างๆซึงยากต่อการเรยี กใช้หรอื ขาดความสัมพันธุทางธุรกิจอันอาจจะต้องเสียเวลาในการทําให้ สอดคล้อง หรอื เกิดความซําซ้อนของข้อมูลได้
ประโยชน์ของระบบคลังข้อมูล(2) ในระบบคลังข้อมูล ข้อมูลทีซับซ้อนจะถูกรวบรวมหรอื เปลียน แปลงให้ง่ายต่อการจัดเก็บและสามารถเรยี กกลับมาใช้ได้อย่างรวดเรว็ และ ถูกต้องโดยข้อมูลต่างๆเหล่านีจะถูกนํามาใช้สําหรบั การวิเคราะห์และช่วยใน เรอื งการตัดสินใจโดยอาศัยเครอื งมือ (tool) ทีอยู่ในเครอื งคอมพิวเตอรท์ ี เปนซอฟท์แวรม์ าใช้ในการจัดการทํารายงานและเพิมประสิทธิภาพสําหรบั การตัดสินใจให้รวดเรว็ ยิงขึนโดยผู้บรหิ ารนักวางแผนและนักวิเคราะห์ข้อมูล สามารถเรยี กหาข้อมูลหรอื สอบถาม (query) เพือให้ได้รบั คําตอบในรูปแบบ ตารางรายงาน หรอื รายงาน กราฟ เพือมาทําการวิเคราะห์ข้อมูลด้วยตนเอง เช่น การเปรยี บเทียบยอดขายระหวา่ งชว่ งเวลาในอดตี กับปจจุบนั ไปจนถึงการทํา พยากรณย์ อดขายในอดตี (Forecasting) การหายอดขายสงู สดุ หรอื ตําสดุ การเปรยี บเทียบยอดขายต้นทนุ กําไรในรปู แบบตารางรายงานหรอื รายงาน กราฟ ซงึ เครอื งมอื นถี ือไดว้ า่ เปนสงิ สาํ คัญในอันทีจะนาํ องค์กรไปสคู่ วามสาํ เรจ็ ใน กระบวนการตัดสนิ ใจในปจจุบนั เครอื งมอื ทีตอบสนองงานเพอื ชว่ ยผบู้ รหิ ารสาํ หรบั การตัดสนิ ใจมอี ยูม่ ากมายในตลาดทังนกี ็เปนทางเลือกของผใู้ ชใ้ นการทีจะเลือก เครอื งมอื ทีมปี ระสทิ ธภิ าพสงู สดุ เพอื ตอบสนองงานของผบู้ รหิ ารในกระบวนการ ตัดสนิ ใจต่อไป
ประโยชน์ของระบบคลังข้อมูล(3) จะเห็นได้ว่าการจัดทําคลังข้อมูลเปนความท้าทายอย่างหนึงของหน่วย งานทังนีเพราะหน่วยงานต่างๆมักจะมีข้อมูลธุรกรรมทีไม่มีความต้องกัน (consistent) และมีความลักลันอยู่มากดังได้อธิบายไปบ้างแล้ว ดังนันการจัดทําคลังข้อมูลจะต้องหาทางแก้ปญหานีให้ได้อีกประการ หนึงก็คือข้อมูลบางส่วนหายไปหรอื มีไม่ครบยกตัวอย่างบรษิ ัทแห่งหนึง ต้องการวิเคราะห์ความสนใจของลูกค้าทีใช้บัตรสมาชิกทีบรษิ ัทออกให้โด ยกําหนดจะแยกความสนใจว่ามีความแตกต่างระหว่างเพศหรอื ไม่แต่ในการ จัดทําระบบประมวลผลธุรกรรมตังแต่แรกนันนักวิเคราะห์ระบบไม่ได้กํา หนดให้เก็บข้อมูลเพศของลูกค้าเอาไว้เพราะเห็นว่าไม่เกียวกับธุรกรรมดัง นันผู้ใช้จึงไม่สามารถนําข้อมูลมาวิเคราะห์ได้ในกรณีเช่นนีระหว่างการจัดทํา คลังข้อมูลก็จะต้องจัดให้มีพนักงานทีทําหน้าทีศึกษาข้อมูลโดยพิจารณา จากแบบฟอรม์ เดิมแล้วนําเพศมาบันทึกเปนข้อมูลเพิมเติมขึน การจดั ทําคลังขอ้ มูลจะมคี วามสาํ คัญมากขนึ ในอนาคตเพราะปจจุบนั นผี ใู้ ช้ และผบู้ รหิ ารของหนว่ ยงานเรมิ มเี ขา้ ใจความสาํ คัญของขอ้ มูลมากขนึ และเรมิ ตระหนกั วา่ หากนาํ ขอ้ มูลมาวเิ คราะหใ์ หเ้ ขา้ ใจสถานภาพหรอื เหตกุ ารณท์ ีเกิดขนึ แล้ วจะทําใหห้ นว่ ยงานหรอื บรษิ ัทสามารถตอบสนองต่อเหตกุ ารณท์ ีเกิดขนึ ไดด้ ยี งิ ขนึ และจะทําใหห้ นว่ ยงานหรอื บรษิ ัททํางานบรรลวุ ตั ถปุ ระสงค์และเปาหมายไดด้ ยี งิ ขนึ ตามไปดว้ ย
ความสัมพันธ์ระบบคลังข้อมูลกับ ระบบฐานข้อมูล ในปจจุบันมีการใช้ฐานข้อมูลอย่างกว้างขวางในระบบงานทัวไป จึงมีการวิจัยและพัฒนาวิธีเก็บข้อมูลจํานวนมากรวมถึงการค้นหาและนํา ข้อมูลทีต้องการออกมาจากระบบฐานข้อมูลด้วยแต่เนืองจากระบบฐาน ข้อมูลทัวไป (Operational Database) ทีนิยมใช้อยู่ในปจจุบันมีหลักในการ เก็บข้อมูลทีเน้นในเรอื งการลดความซําซ้อน (redundancy) รกั ษาความถูก ต้อง (integrity) ลดการสูญหายของข้อมูล (information lost) และลด ความ ผิดพลาดทีเกิดขึนจากการแก้ไขข้อมูล (Update Anomalies) เนอื งจากฐานขอ้ มูลทัวไป (Operational Database) มลี ักษณะดงั ไดก้ ล่าวมาแล้วจงึ มคี วามสามารถเพยี งแค่การเรยี กใชข้ อ้ มูลทีมอี ยูแ่ ต่ไมส่ ามารถ จะนาํ มาชว่ ยในการสนบั สนนุ การตัดสนิ ใจไดเ้ พราะเมอื มกี ารเรยี กใชข้ อ้ มูลจะต้อง เรยี กใชข้ อ้ มูลจากฐานขอ้ มูลขนาดใหญซ่ งึ มขี อ้ มูลจาํ นวนมหาศาลและมกี ารแตก ตารางทนอรม์ ลั ไลซ์ (normalized table) แล้วออกเปนหลายตารางจงึ ไมร่ องรบั คําถามทีต้องการจะนาํ มาใชช้ ว่ ยในการสนบั สนนุ การตัดสนิ ใจ(decision support queries)มกี ารรวม(join)กันของตารางต่างๆทีซบั ซอ้ นซงึ จะทําใหม้ ปี ระสทิ ธภิ าพ ของการค้นหาขอ้ มูลจากฐานขอ้ มูลนอ้ ยลงและทํางานชา้ ลงไมส่ ามารถเรยี กใช้ ขอ้ มูลทีต้องการไดท้ ังหมดเพราะมรี ทู ีนอัตโนมตั ิ (Automate Routine) จงึ มี ความสามารถในการค้นหาขอ้ มูลแบบทีไมซ่ าํ ซอ้ นเท่านนั นอกจากนกี ารเก็บขอ้ มูล ในระบบฐานขอ้ มูลทัวไป (Operational Database) ยงั ไมม่ กี ารเก็บขอ้ มูลยอ้ น หลัง (historical data) เพอื ใชช้ ว่ ยในการคาดคะเนแนวโนม้ ทีคาดวา่ จะเปนไปได้ ในอนาคต
ความสัมพันธ์ระบบคลังข้อมูลกับ ระบบฐานข้อมูล(2) ดังนันระบบคลังข้อมูลจึงได้ถูกคิดขึนมาเพือช่วยให้ผู้ใช้เรยี กใช้ข้อมูล ทีมีอยู่ได้อย่างมีประสิทธิภาพสูงสุดด้วยวิธีทีสรา้ งสรรค์เพราะธรรมชาติที แตกต่างกันระหว่างระบบฐานข้อมูลคลังข้อมูลและระบบฐานข้อมูลทัวไปดัง นันฐานข้อมูลคลังข้อมูลจะต้องมีคุณสมบัติดังนี 1. Subject Orientedข้อมูลจะต้องถูกสรา้ งขึนจากหัวข้อ(subject) ธุรกิจ ทีสนใจเช่นถ้าบรษิ ัทประกันภัยต้องการใช้คลังข้อมูลฐานข้อมูลทีได้จะ ต้องสรา้ งขึนจากประวัติลูกค้า,เบียประกันและการเรยี กรอ้ งแทนทีจะ แยกตามชนิดของผลิตภัณฑ์หรอื บรกิ ารประกันภัย/ประกันชีวิตข้อมูลที สรา้ งขึนจะประกอบด้วยหัวข้อทีเก็บเฉพาะข่าวสารทีจําเปนสําหรบั กระบวนการตัดสินเท่านัน 2. Integratedข้อมูลถูกรวบรวมจากแหล่างต่างๆจากระบบปฏิบัติการ, รูป แบบของข้อมูล,แพลตฟอรม์ ทีหลากหลายสรา้ งขึนเปนฐานข้อมูลทีสอด คล่องเปนหนึงเดียวเช่นค่าของตัวแปรตัวเดียวในแต่ละฐานข้อมูลอาจ ต่างกันฐานข้อมูลหนึงอาจใช้ 0 และ 1 อีกฐานข้อมูลหนึงอาจใช้ T และ Fดังนันฐานข้อมูลทีสรา้ งใหม่จะต้องได้รบั การกําหนดค่าตัวแปรให้ เหมือนกันเปนหนึงเดียว 3. Time-variantข้อมูลซึงใช้ตัดสินใจทีเก็บไว้จะต้องมีอายุประมาณ 5 ถึง 10 ปเพือใช้เปรยี บเทียบหาแนวโน้มและทํานายผลลัพธ์ในอนาคตได้ 4. Non-volatileข้อมูลจะไม่อัพเดตหรอื ถูกทําให้เปลียนแปลงง่ายๆผู้ใช้ สามารถใช้ฐานข้อมูลคลังข้อมูลได้เพียงแค่โหลดและเข้าถึงเท่านัน
ความสัมพันธ์ระบบคลังข้อมูลกับ ระบบฐานข้อมูล(3) โดยระบบฐานข้อมูลคลังข้อมูลจะแยกกลุ่มข้อมูลสารสนเทศที ใช้ในการวิเคราะห์ทางธุรกิจออกจากฐานข้อมูลทีใช้ประจําวัน(Operational Database) มาเก็บอยู่ในระบบจัดการฐานข้อมูล (Relational Database Management Systems) ประสิทธิภาพสูงสุดและทําให้การเรยี กใช้ข้อมูล ชุดนีทําได้อย่างยืดหยุ่นจากเครอื งมือทีอยู่บนเครอื งคอมพิวเตอรเ์ ดสก์ทอป ทัวไปโดยลด off-loading เพิมกลไกการช่วยตัดสินใจ ปรบั ปรุงเวลาทีตอบ สนอง (response time) รวดเรว็ ขึนอย่างมากและผู้บรหิ ารสามารถเรยี ก ข้อมูลรายละเอียดทีจําเปนทีถูกเก็บมาก่อนหน้านี (historical data) มาใช้ ช่วยในการตัดสินใจทางธุรกิจแม่นยําขึน
ความสัมพันธ์ระบบคลังข้อมูลกับ ระบบฐานข้อมูล(4) ความแตกต่างอีกประการหนึงก็คือผู้ใช้คลังข้อมูลมักจะต้องการ จัดกลุ่มข้อมูลด้วยตนเองมากกว่าผู้ใช้ในระบบฐานข้อมูลธรรมดายกตัวอย่าง ผู้ใช้อาจต้องการวิเคราะห์ผลกระทบของการทําการตลาดแบบต่างๆอาจ ต้องการจัดกลุ่มการขายสินค้าแยกตามผลิตภัณฑ์หรอื รูปแบบของการจัด ผลิตภัณฑ์เช่นการห่อรวมสินค้าไว้ในบรรจุภัณฑ์สีต่างๆหรอื การรวม ผลิตภัณฑ์ต่างรูปแบบไว้ด้วยในกรณีต่างๆเหล่านีผู้ใช้ต้องการทีจะเลือกจัด กลุ่มข้อมูลได้ตามใจชอบนอกจากการนําข้อมูลเข้ามารวมกันแล้วผู้ใช้ยังอาจ ต้องการทีจะแยกแยะข้อมูลในแบบทีตนเองต้องการได้ยกตัวอย่างในการจัด ทําคลังข้อมูลเกียวกับนักวิจัยและผลงานวิจัยของประเทศหน่วยงานอาจจัด เก็บข้อมูลเอาไว้เปนกลุ่มก่อนโดยไม่ได้แยกสาขาแต่ต่อมาผู้ใช้อาจต้องกา รนําข้อมูลนักวิจัยมาวิเคราะห์แยกแยะว่าทังประเทศมีนักวิจัยสาขาต่างๆเปน จํานวนเท่าใดทํางานวิจัยด้านใดบ้างใช้เงินด้านวิจัยไปเท่าใดเปนต้นโดยปกติ แล็วการจัดทําฐานข้อมูลให้สามารถวิเคราะห์แยกแยะข้อมูลในแบบนีได้นัน เปนเรอื งไม่ยากแต่ในการออกแบบคลังข้อมูลนันจําเปนต้องเผือให้ผู้ใช้หลาย คนสามารถแยกแยะข้อมูลตามความต้องการทีแตกต่างกันได้ด้วยผู้ใช้จํานว นมากในปจจุบันนีอาจใช้ซอฟต์แวรห์ ลากหลายประเภทสําหรบั เครอื ง คอมพิวเตอรส์ ่วนบุคคลผู้ใช้บางคนอาจจะใช้โปรแกรมสเปรดชีตในการ วิเคราะห์ข้อมูลและผู้ใช้บางคนอาจต้องการใช้โปรแกรมวิเคราะห์สถิติอืนๆ ดังนันผู้ใช้เหล่านีอาจจะมีความต้องการในการนําเข้าข้อมูลจากคลังข้อมูลมา ไว้ในแฟมข้อมูลทีมีรูปแบบตรงกับโปรแกรมทีตนต้องการใช้ความต้องการ ด้านนีนับว่าสําคัญมากทีสุดในการจัดทําคลังข้อมูล
ความสัมพันธ์ระบบคลังข้อมูลกับ ระบบฐานข้อมูล(5) งานอย่างหนึงทีนิยมใช้ฐานข้อมูลกันมากก็คืองานบันทึกข้อมูล ธุรกรรมเอาไว้เพือประมวลผลข้อมูลธุรกรรมเหล่านีได้แก่ข้อมูลการสังซือ สินค้าของลูกค้าข้อมูลการซือบัตรโดยสารเครอื งบินข้อมูลการฝากหรอื ถอน เงินของลูกค้าธนาคารแต่เดิมนันการบันทึกข้อมูลธุรกรรมเรมิ ต้นด้วยการใช้ กระดาษแบบฟอรม์ สําหรบั ให้ลูกค้ากรอกข้อมูลจากนันจึงนําแบบฟอรม์ มา บันทึกข้อมูลลงในฐานข้อมูลของระบบคอมพิวเตอรใ์ นแบบแบตช์ (batch) ปจจุบันนีการบันทึกข้อมูลธุรกรรมได้เปลียนไปเปนระบบออนไลน์ (online) เปนส่วนใหญ่ในระบบแบบ นีกระบวนการบันทึกข้อมูลมีลักษณะอัตโนมัติมาก ขึนและใช้อุ ปกรณ์บันทึกข้อมู ลทีสามารถเก็บข้อมู ลลงในฐานข้อมู ลของระบบ คอมพิวเตอรไ์ ด้ทันที เช่น การใช้อุปกรณ์ฝากถอนเงินโดยอัตโนมัติ (ATM) ทําให้สามารถประมวลผลการฝากถอนเงินและบันทึกข้อมูลทีเกิดขึนได้ทันที หรอื ในห้างสรรพสินค้าก็มีการใช้เครอื งบรกิ าร ณ จุดขาย (Point of Sale; POS) สําหรบั อ่านรหัสแท่งแสดงราคาสินค้าแล้วบันทึกข้อมูลการขายไปเก็บ ไว้ในฐานข้อมูลได้ทันทีการดําเนินการในลักษณะนีเรยี กกันว่าการประมวลผล ธุรกรรมออนไลน์ (On-Line Transaction Processing; OLTP)
ลักษณะงานการประมวลผล ธุรกรรมออนไลน์และการประมวล ผลเชงิ วเิ คราะห์ออนไลน์ ลักษณะงานการประมวลผลธุรกรรมออนไลน์และการประมวลผล เชิงวิเคราะห์ออนไลน์ระบบ OLTP โดยทัวไปจะต้องสามารถดําเนินการกับ ข้อมูลธุรกรรมได้อย่างมีประสิทธิภาพงานทีทํากับข้อมูลได้แก่การปรบั ค้า ของข้อมูลให้เปนปจจุบันและการเพิมข้อมูลลงไปในฐานข้อมูล ข้อมูลเหล่านี อาจจะมีจํานวนมากและเพิมขึนตลอดเวลา ณ เวลาใดเวลาหนึงอาจจะมีการ ประมวลผลข้อมูลจํานวนนับแสนเรคอรด์ ได้เช่น ณ สนามบินแต่ละแห่งจะมีผู้ โดยสารเข้ามารบั บัตรทีนังของสายการบินต่างๆเปนจํานวนนับหมืนๆคน คอมพิวเตอรข์ องสายการบินจะต้องตรวจสอบการสํารองทีนังต้องบันทึก เลขทีนังและเทียวบินรวมทังอาจจะต้องปรบั เปลียนโยกย้ายข้อมูลจากเทียว บินหนึงไปอีกเทียวบินหนึงได้ด้วยหรอื ในกรณีของศูนย์การค้าและซูเปอร์ มารเ์ ก็ตจะมีการบันทึกเรคอรด์ การขายเพิมเข้าไปในฐานข้อมูลการขาย ตลอดเวลารวมแล้ววันละเปนหมืนๆ รายการ การออกแบบระบบ OLTP แบบนีจําเปนต้องหาทางให้ระบบสามารถทํางานได้อย่างถูกต้องรวดเรว็ ตลอดเวลาเอืออํานวยให้ผู้ใช้จํานวนมากสามารถใช้ระบบได้พรอ้ มกันอีกทัง ยังต้องสามารถแก้ไขฟนสภาพให้กลับดีดังเดิมได้หากเกิดความขัดข้องเสีย หาย
ลักษณะงานการประมวลผล ธุรกรรมออนไลน์และการประมวล ผลเชงิ วเิ คราะห์ออนไลน์(2) การทีจะจัดทําระบบ OLTP ให้มีความสามารถในแบบนีได้ต้องคํานึงถึง ปจจัยต่อไปนี 1) ขนาดและตําแหน่งของ rollback segment 2) ดัชนีการจัดกลุ่ม และ การคํานวณตําแหน่งทีอยู่ (hashing) 3) การออกแบบข้อมูลธุรกรรมให้เหมาะกับงานประยุกต์ 4) หน่วยเก็บและเนือทีว่างสําหรบั การเก็บข้อมูลใหม่ 5) ความเข้าใจลักษณะงานประยุกต์และการเขียนคําสังสําหรบั ค้นคืนข้อมูล 6) การปรบั ปรุงสมรรถนะของระบบอย่างต่อเนือง ระบบ OLTP ทีพัฒนาขึนโดยใช้เทคนิคด้านฐานข้อมูลตามปกติมักจะไม่ สามารถรบั กับปรมิ าณข้อมูลทีเพิมขึนอย่างมากมายเปนประจําทุกวันได้กา รนําระบบเช่นนีมาใช้จึงมีความเสียงทีจะเกิดความผิดพลาดเสียหายขึนวิธี การแก้ไขก็คือการแยกฐานข้อมูลออกมาเปนส่วนๆให้เหมาะกับการใช้งาน
ลักษณะงานการประมวลผล ธุรกรรมออนไลน์และการประมวล ผลเชงิ วเิ คราะห์ออนไลน์(3) งานทีเกียวข้องกับฐานข้อมูลอีกอย่างหนึงก็คืองานทีเรยี กว่าการ ประมวลผลเชิงวิเคราะห์ออนไลน์ (On-Line Analytical; OLAP) ระบบ OLTPทีกล่าวไปแล้วนันเน้นทีการบันทึกเก็บข้อมูลใหม่ๆเพิมเข้าไว้ในฐาน ข้อมูลส่วนระบบ OLAP นันเน้นทีการค้นคืนข้อมูลทีมีอยู่แล้วจากฐานข้อมูล เพือนํามาวิเคราะห์อย่างละเอียดผู้ใช้ระบบ OLAP ส่วนใหญ่คือผู้บรหิ ารนัก วิจัยตลาดนักสถิติหรอื ผู้ใช้อืนๆดังนันปจจัยสําคัญสําหรบั ความสําเรจ็ ของ ระบบ OLAP ก็คือระบบจะต้องทํางานได้รวดเรว็ สามารถค้นหาข้อมูลจาก ฐานข้อมูลขนาดใหญ่มาคํานวณได้อย่างครบถ้วนไม่ตกหล่นในขณะเดียวกัน ระบบก็จะต้องมีความมันคงไม่ผิดพลาดได้ง่ายระหว่างการใช้งาน ปจจยั ทีจะทําใหไ้ ดต้ ามทีกล่าวนมี อี ยูส่ ามขอ้ คือ 1.จะต้องมรี ะบบจดั คําสงั ค้นคืนขอ้ มูลใหท้ ํางานไดร้ วดเรว็ ทีสดุ (query optimization) 2.การจดั ดชั นจี ดั กล่มุ ขอ้ มูลและการคํานวณตําแหนง่ ทีอยูข่ อ้ มูล 3.การประมวลผลคําสงั ค้นคืนในแบบขนานโดยเฉพาะเมอื ใชห้ นว่ ยเก็บแบบ RAID
ลักษณะงานการประมวลผล ธุรกรรมออนไลน์และการประมวล ผลเชงิ วเิ คราะห์ออนไลน์(4) แม้ว่าระบบ OLTP และ OLAP นีจะเกียวข้องกับข้อมูล ธุรกรรมเหมือนกันแต่ก็มีความแตกต่างกันมากในกระบวนการทํางานทีเกียว กับข้อมูลหากพบว่าการอ่านข้อมูลจากฐานข้อมูลมาประมวลผลมีช่วงเวลา โต้ตอบ (response time)ช้ามากและต้องการปรบั การเก็บโดยการจัดทํา ดัชนีเพิมเติมให้การค้นคืนข้อมูลได้สะดวกขึนก็จะส่งผลให้การบันทึกข้อมูล กลับต้องช้าลงเพราะต้องเสียเวลาดําเนินการกับดัชนีมากขึนกว่าระบบเดิม ด้วยเหตุนีจึงเปนเรอื งยากทีเราจะปรบั ระบบทังสองให้มีสมรรถนะดีมากขึน พรอ้ มกัน ปจจุบันนีแนวทางแก้ไขปญหาข้างต้นก็คือการแยกระบบ OLTP และระบบ OLAP ออกจากกันให้เปนคนละระบบโดยให้ระบบ OLTP สามารถจัดเก็บข้อมูลจํานวนมากได้อย่างรวดเรว็ มีประสิทธิภาพและระบบ OLAPก็สามารถค้นคืนและวิเคราะห์ข้อมูลตามความต้องการของผู้ใช้ได้ อย่างรวดเรว็ ระบบOLTPนันปกติยังคงปล่อยให้เปนแบบเดิมหากใช้ คอมพิวเตอรข์ นาดใหญ่เช่นเครอื งเมนเฟรมและใช้ระบบจัดการฐานข้อมูล ขนาดใหญ่อยู่แล้วก็เพียงแต่ปรบั ให้สามารถบันทึกจัดเก็บข้อมูลให้เรว็ ขึนจาก นันก็จัดทําระบบขึนใหม่ให้แยกข้อมูลพืนฐานออกจากฐานข้อมูลในระบบเดิม แล้วนําข้อมูลมาจัดทําดัชนีใหม่เพือให้ผู้บรหิ ารวิเคราะห์อย่างไรก็ตามทัง ระบบ OLTP และระบบ OLAP ก็อาจจะยังไม่เหมาะทีเราจะนํามาใช้ในการ วิเคราะห์ทางธุรกิจหรอื ช่วยผู้บรหิ าร
ลักษณะงานการประมวลผล ธุรกรรมออนไลน์และการประมวล ผลเชงิ วเิ คราะห์ออนไลน์(5) สําหรบั การตัดสินใจ (Decision Support System) ทางธุรกิจได้เพราะ ต้องใช้เวลาในการประมวลผลทีนานพอสมควรและส่งผลกระทบไปถึงระบบ การทํางานของเครอื งทีใช้งานประจําวัน เราจะมีวิธีการอย่างไรเพือทีจะทําให้ข้อมูลทีเรามีอยู่สามารถนํามาใช้ ตอบสนองความต้องการทางธุรกิจได้อย่างรวดเรว็ และมีประสิทธิภาพดังนัน จึงได้นําเอาแนวความคิดระบบ คลังข้อมูล (data warehouse) มาใช้รว่ ม กันเพือตอบสนองงานในรูปแบบของคลังเก็บข้อมูลสําหรบั การบรหิ ารและ หากองค์กรใดสามารถทีจะนําข้อมูลทีมีอยู่มาใช้อย่างมีประสิทธิภาพย่อมที จะทําให้องค์กรประสบความสําเรจ็ เหนือคู่แข่ง ขอ้ มูลสว่ นมากทีจดั เก็บในคลังขอ้ มูลนนั ปกติจะมนี อ้ ยกวา่ ขอ้ มูลในฐาน ขอ้ มูลของระบบ OLTP เพราะเปนขอ้ มูลทีไดน้ าํ มาจดั กล่มุ ใหเ้ หมาะสมแก่การค้น คืนแล้ว ขอ้ มูลเหล่านจี ะมลี ักษณะ consistent กล่าวคือขอ้ มูลทกุ รายการทีแสดง เรอื งเดยี วกันจะต้องเขยี นใหเ้ หมอื นกันสะกดแบบเดยี วกันหรอื มรี หสั เดยี วกันหาก ขอ้ มูลมลี ักษณะแตกต่างกันแล้วจะวเิ คราะหข์ อ้ มูลไดย้ ากหรอื อาจทําใหไ้ ดผ้ ลลัพธ์ ทีไมถ่ กู ต้องในหนว่ ยงานและบรษิ ัทขนาดใหญน่ นั โอกาสทีขอ้ มูลทังหมดจะ “สะอาด”นนั เปนเรอื งทียากดงั นนั จงึ จาํ เปนจะต้องมผี ทู้ ําหนา้ ทีกลันกรองและ ควบคมุ คณุ ภาพของขอ้ มูลดว้ ย
ลักษณะงานการประมวลผล ธุรกรรมออนไลน์และการประมวล ผลเชงิ วเิ คราะห์ออนไลน์(6) เราสามารถสรุปความแตกต่างของคลังข้อมูลกับฐานข้อมูลทีใช้ประจําวัน ได้แต่ละหัวข้อดังนี 1. ConsistencyทังOLTPและคลังข้อมูลต่างก็ให้ความสําคัญในเรอื ง ข้อมูลควรจะมีความสอดคล่องกันสําหรบั OLTPซึงมีการ ทําtransactionจํานวนมากๆสิงทีต้องการคือการทําtransactionให้ ครบไม่มีการสูญหายดังนันจึงมีความจําเปนผู้ส่งและผู้รบั จะต้องรบั รู้ และตรวจสอบอยู่ตลอกเวลาว่าขณะนีมีการทํา transaction เกิดขึนหรอื ไม่สําหรบั คลังข้อมูลจะไม่สนใจทําการทํา transaction แต่ละครงั แต่จะ สนใจว่าการ load data ใหม่เข้ามานันทําสําเรจ็ หรอื ยังและการ load data เข้ามาทังหมดนันถูกต้องหรอื ไม่ 2. Transactionสําหรบั ระบบOLTPนันในแต่ละวันอาจมีการทํา transaction มากมายซึงการทํา transaction แต่ละครงั จะใช้ข้อมูล เพียงแค่เล็กน้อยเท่านันสําหรบั คลังข้อมูลแต่ละวันจะทําแค่เพียง1 transaction ซึง transaction นีอาจต้องใช้ข้อมูลเปนจํานวนมากมาย 3. Time Dimension สําหรบั OLTP นันจะทํางานอย่างรวดเรว็ และทํา transaction อย่างสมําเสมอสถานะของข้อมูลต่างๆมีการเปลียนแปลง อยู่ตลอดเวลาและความสัมพันธ์ระหว่างเอนติตีต่างๆก็เปลียนแปลงไป ด้วยสําหรบั ระบบคลังข้อมูลมักจะเก็บข้อมูลในอดีตเพือใช้ในการ วิเคราะห์ดังนันข้อมูลจะไม่ค่อยมีการเปลียนแปลงตลอดวัน
โครงสร้างสถาปตยกรรมและองค์ ประกอบของคลังข้อมูล(1) คลังข้อมูลอาจจะมีข้อมูลเปนจํานวนมากมายมหาศาล ดังนันจึง จําเปนต้องมีฐานข้อมูลของตนเองในการเก็บและประมวลผลข้อมูลหน่วย งานต้องมีโปรแกรมจัดการฐานข้อมูลและโปรแกรมอืนๆ สําหรบั ช่วยในการ เปลียนรูปแบบข้อมูล จัดกลุ่มข้อมูล รวมข้อมูลและโยกย้ายข้อมูลจากฐาน ข้อมูลหนึงไปยังฐานอืนๆโปรแกรมเหล่านีต้องทํางานได้ทังกับข้อมูลทีเปนจํา นวน ข้อมูลกราฟก ข้อมูลภาพลักษณ์ และ ข้อมูลแบบมัลติมีเดียโปรแกรม เหล่านีจะต้องสามารถแปลงข้อมูลให้เหมาะสมทีจะนําไปวิเคราะห์และจัดทํา รายงานในรูปแบบต่างๆได้ โดยทีคลังขอ้ มูลมบี รกิ ารสาํ คัญหลายอยา่ งใหแ้ ก่ผใู้ ชซ้ งึ อาจจะไมใ่ ชผ้ ู้ เชยี วชาญในดา้ นคอมพวิ เตอรด์ งั นนั การจดั คลังขอ้ มูลจงึ จาํ เปนต้องจดั การฝก อบรมใหแ้ ก่ผใู้ ชด้ ว้ ยนอกจากนนั ยงั อาจจะต้องจดั ระบบอธบิ ายการใชเ้ อาไวใ้ นระบบ ดว้ ยเพอื ใหผ้ ใู้ ชส้ ามารถเรยี กคําอธบิ ายมาใชเ้ มอื ต้องการไดส้ ว่ นประกอบสาํ คัญอีก อยา่ งหนงึ ก็คือทีปรกึ ษาเกียวกับคลังขอ้ มูลเพอื ชว่ ยเหลือผใู้ ชใ้ หส้ ามารถใชร้ ะบบได้ อยา่ งมปี ระสทิ ธภิ าพมากขนึ
โครงสร้างสถาปตยกรรมและองค์ ประกอบของคลังข้อมูล(2)
โครงสร้างสถาปตยกรรมและองค์ ประกอบของคลังข้อมูล(3) 1. Dimensional Modeling เปนชือเรยี กของเทคนิคในการทําให้ฐาน ข้อมูลง่ายต่อการทําความเข้าใจโดยการมองภาพของฐานข้อมูลเปน ลูกบาศก์ทีมี 3,4,5 มิติหรอื มากกว่านัน ทําให้สามารถจิตนาการการหัน หรอื แบ่งลูกบาศก์ทีมีลักษณะเหมือนลูกเต๋านีได้นันคือสามารถตัดข้อมูล มาวิเคราะห์ดูในช่วงใดก็ได้และหมุนข้อมูลดูได้จากทุกๆด้านของลูกเต๋า ตัวอย่างเช่น เราขายสินค้า (product) ในหลายๆที (market) และใน ช่วงเวลาต่างๆกัน (time) เราสามารถสรา้ ง Dimensional Modeling ได้โดยให้ label คือ product, market และ time อยู่บนแต่ละด้านของ ลูกบาศก์ทีเปน 3 มิติแต่ละจุดภายในลูกบาศก์เกิดจากการตัดของ coordinate ซึงมี label อยู่ทีขอบของลูกบาศก์ดังนันจุดต่างๆภายใน ลูกบาศก์คือผลลัพธ์ทางด้านธุรกิจทีพิจารณาจากทัง 3 เรอื งคือ สินค้า, ทีขายสินค้า, เวลา พรอ้ มๆกัน 2. Star Join Schema เปนชือหนึงของ dimensional model ซึงเปนชือ ทีใช้กันมานานเนืองจาก diagram มีรูปรา่ งคล้ายดาว ซึงมีตารางใหญ่ 1 ตารางอยู่ตรงกลางซึงเรยี กว่า fact table และมีตารางเล็กๆทีมีความ สัมพันธ์กับตารางหลักนันอยู่รอบๆ เรยี กว่า dimensional table ซีงตารางหลักนีเปนตารางเดียวทีใช้ multiple join เพือเชือมต่อกับ ตารางอืนๆแต่ตารางอืนๆทีอยู่รอบๆจะมีเพียงแค่ single join เพือเชือมเข้ากับตารางหลักเท่านัน
โครงสร้างสถาปตยกรรมและองค์ ประกอบของคลังข้อมูล(4)
กระบวนการการรวบรวมข้อมูล และวเิ คราะห์หารูปแบบข้อมูลใน คลังข้อมูล เนืองจากข้อมูลพืนฐานของฐานข้อมูลในคลังข้อมูลประกอบด้วย เรคคอรด์ จํานวนมากจะต้องมีการออกแบบคลังข้อมูลเพือรวบรวมข้อมูล และวิเคราะห์หารูปแบบข้อมูลในคลังข้อมูลขันตอนการออกแบบประกอบ ด้วย4 ขันตอน ขันตอน 1 เลือก business process ทีต้องการสรา้ งซึงเปนขบวนการหลัก ทีต้องการทําในองค์กรซึงขบวนการนันมีระบบเดิมสนับสนุนอยู่ข้อมูลใน ระบบนันสามารถนํามารวบรวมเพือทําเปนคลังข้อมูลได้เช่นใบส่งของ (order), ใบสังของ (invoices), รายการสินค้า (inventory), ยอดขาย (sales) business process ทีเลือกมานันต้องเปนหัวข้อธุรกิจทีสนใจ เพือ จะได้สามารถทําการออกแบบคลังข้อมูลให้เกียวข้องกับเฉพาะหัวข้อธุรกิจ ทีสนใจเท่านันส่วนข้อมูลทีไม่ได้เกียวข้องกับหัวข้อธุรกิจก็จะไม นํามารวมใน คลังข้อมูล ขันตอน 2 เลือก grain ของ business process ข้อมูลทีเปนข้อมูลพืน ฐานทีเก็บอยู่ใน fact tableเรยี กว่า grain ใน business process นีมี grain ทีมีอยู่ทัวไป เช่น ข้อมูลของการทํา transaction ในแต่ละครงั (individual transaction), ข้อมูลของการทํางานในแต่ละวัน, สรุปในแต่วัน (individual daily snapshots), ข้อมูลจากการสรุปการทํางานในแต่ละ เดือน (individual monthly snapshots)
กระบวนการการรวบรวมข้อมูล และวเิ คราะห์หารูปแบบข้อมูลใน คลังข้อมูล(2) ขันตอน 3 เลือก dimension ทีจะถูกนํามาใช้กับแต่ละ record ของ fact table นัน dimension ทีมีอยู่ทัวไปเช่น เวลา (time), สินค้า (product), ลูกค้า (customer) ซึงแต่ละ dimension จะถูกอธิบายแยกกัน ในลักษณะ ของ dimensional attribute ซึงอธิบายแต่ละ dimension เปนตัวหนังสือ ซึง attributes เหล่านีจะถูกเก็บอยู่ในแต่ละตาราง dimension ขนั ตอน 4 เลือก measured fact (ขอ้ มูลทีมกี ารวดั , การประมวลผล หรอื การคํา นวณไวแ้ ล้ว) ทีจะเก็บอยูใ่ นแต่ละเรคคอรด์ ของ fact table ปรมิ าณต่างๆหรอื measured fact ทีเพมิ เขา้ ไปซงึ จะมลี ักษณะเปนตัวเลขไดแ้ ก่ ปรมิ าณทีขายได้ (quality sold) และจาํ นวนเงินทีไดร้ บั จากการขาย (dollars sold) ถ้านกั วเิ คราะห์ ต้องการสอบถามขอ้ มูล (query) โดยไมม่ กี ารกําหนดเงือนไขใหก้ ับบางตาราง dimension แล้วในคลังขอ้ มูลมแี ต่เฉพาะขอ้ มูลพนื ฐานเท่านนั นนั หมายความ วา่ การสอบถามขอ้ มูล (query) จะต้องทําการรวมขอ้ มูลภายในเรคคอรด์ จาํ นวน มากมายถ้าเปนเชน่ นจี ะทําใหก้ ารทํา query แต่ละครงั เกิดการสนิ เปลืองมากดงั นนั จงึ ต้องทําการรวบรวมหรอื ขอ้ สรปุ (aggregate) ขอ้ มูลไวล้ ่วงหนา้ เพอื เรง่ ใหก้ าร ทํา query สามารถทําไดเ้ รว็ ขนึ มปี ระสทิ ธภิ าพในการทํางานมากขนึ การรวบรวม หรอื ขอ้ สรปุ (aggregate) สามารถถกู สรา้ งไดม้ ากมายตามทีต้องการในเฉพาะ สว่ นทีต้องการเท่านนั
Search
Read the Text Version
- 1 - 27
Pages: