มหลกั กส1ารขธองขอ้ มูลขมนาดสใหญธ่ มสธหน่วยท่ีรองศาสตราจารย์ ดร.วภิ า เจรญิ ภณั ฑารักษ์มมสสธธ มมสสธธ มมสสธธชื่อ วฒุ ิ ตำ� แหนง่ มสธหนว่ ยที่เขยี น รองศาสตราจารย์ ดร.วิภา เจริญภัณฑารักษ์สต.บ. (การประมวลผลด้วยเครื่องอิเล็กทรอนิกส์) จุฬาลงกรณ์มหาวิทยาลัยวท.ม. (วิทยาศาสตร์คอมพิวเตอร์) จุฬาลงกรณ์มหาวิทยาลัยPh.D. (Computer Science), Illinois Institute of Technology, USAรองศาสตราจารย์ประจ�ำสาขาวิชาวิทยาศาสตร์และเทคโนโลยีมหาวิทยาลัยสุโขทัยธรรมาธิราชหน่วยท่ี 1
1-2 การวิเคราะห์ข้อมูลใหญ่สำ�หรับธุรกิจหลักการของขอ้ มลู ขมนาดใสธหนว่ ยที่1 มสธ หญ่ มสธเคา้ โครงเน้ือหา ตอนที่ 1.1 แนวคิดเก่ียวกับข้อมูลขนาดใหญ่ 1.1.1 ความหมาย และคุณสมบัติของข้อมูลขนาดใหญ่ 1.1.2 ปัจจัยสนับสนุน และประโยชน์ของข้อมูลขนาดใหญ่ 1.1.3 ประเภทของข้อมูลขนาดใหญ่ มสธตอนที่ 1.2 หลักกการพ้ืนฐานของข้อมูลขนาดใหญ่ 1.2.1 สถาปัตยกรรมของข้อมูลขนาดใหญ่ 1.2.2 หลักการท�ำงานของข้อมูลขนาดใหญ่มมสสธธ มมสสธธ มมสสธธแนวคิด1. ข้อมูลขนาดใหญ่ มีข้อมูลปริมาณมาก มีโครงสร้างข้อมูลท่ีหลากหลายการเกิดขึ้น และน�ำ ไปใช้งานด้วยความรวดเร็ว ท�ำให้เทคโนโลยีและเครื่องมือในการจัดการข้อมูลที่มีอยู่ใน ปัจจุบัน ไม่สามารถรองรับการท�ำงานกับข้อมูลท่ีเกิดขึ้นเหล่าน้ีได้ จ�ำเป็นต้องมีเทคโนโลยี หรอื เครอื่ งมอื ใหม่ ๆ มาชว่ ยดำ� เนนิ การ คณุ ลกั ษณะของขอ้ มลู ขนาดใหญเ่ รม่ิ จาก 3V ไดแ้ ก่ ปริมาณ ความเร็ว ความหลากหลาย และตามมาด้วย V อื่น ๆ เพ่ิมเติม ได้แก่ คุณภาพ ข้อมูล และคุณค่าของข้อมูล ประโยชน์ของข้อมูลขนาดใหญ่ สามารถช่วยให้น�ำข้อมูลท่ีมี จ�ำนวนมหาศาล มาวิเคราะห์เพื่อค้นหาองค์ความรู้ที่ก่อประโยชน์ต่อธุรกิจ ปัจจัยสนับสนุน ประกอบด้วย โมเดลธุรกิจ การพัฒนาโครงสร้างพื้นฐานด้านเทคโนโลยีสารสนเทศ ความ ต้องการวิเคราะห์ข้อมูลทางธุรกิจ เป็นต้น ประเภทของข้อมูลขนาดใหญ่ แบ่งเป็น ข้อมูลที่ มีโครงสร้าง ข้อมูลก่ึงโครงสร้าง และข้อมูลที่ไม่มีโครงสร้าง2. หลักการพื้นฐานของข้อมูลขนาดใหญ่ ประกอบด้วย สถาปัตยกรรมของข้อมูลขนาดใหญ่ มี 3 ส่วนหลักคือ 1) แหล่งข้อมูลขนาดใหญ่ 2) ระบบนิเวศของข้อมูลขนาดใหญ่ แบ่งเป็น โครงสร้างพื้นฐาน ระบบแฟ้มข้อมูลแบบกระจาย ส่วนรับและส่งถ่ายข้อมูล ส่วนประมวล ผลข้อมูล ส่วนของจัดการข้อมูล 3) การน�ำข้อมูลไปใช้งาน หลักการท�ำงานของข้อมูล ขนาดใหญ่ ประกอบด้วย ระบบแฟ้มข้อมูลแบบกระจาย ความสามารถในการขยายระบบ การท�ำงาน ความคงทนต่อความเสียหาย และการท�ำงานของข้อมูลขนาดใหญ่
หลักการของข้อมูลขนาดใหญ่ 1-3มสธ มสธ มสธวัตถุประสงค์ เม่ือศึกษาหน่วยท่ี 1 จบแล้ว นักศึกษาสามารถ 1. อธิบายความหมาย และคุณสมบัติของข้อมูลขนาดใหญ่ได้ 2. อธิบายปัจจัยสนับสนุน และประโยชน์ของข้อมูลขนาดใหญ่ได้ 3. อธิบายประเภทของข้อมูลขนาดใหญ่ได้ มสธ4. อธิบายสถาปัตยกรรมของข้อมูลขนาดใหญ่ได้มมสสธธ มมสสธธ มมสสธธ5. อธิบายหลักการท�ำงานของข้อมูลขนาดใหญ่ได้
1-4 การวิเคราะห์ข้อมูลใหญ่สำ�หรับธุรกิจมสธตอนที่ 1.1แนวคิดเก่ียวกับข้อมูลขนาดใหญ่มสธ มสธโปรดอา่ นแผนการสอนประจ�ำตอนที่ 1.1 แลว้ จึงศกึ ษาเนอื้ หาสาระ พร้อมปฏบิ ัติกจิ กรรมในแต่ละเร่ือง หวั เรอื่ ง เร่ืองท่ี 1.1.1 ความหมายและคุณสมบัติของข้อมูลขนาดใหญ่ เรื่องที่ 1.1.2 ปัจจัยสนับสนุนและประโยชน์ของข้อมูลขนาดใหญ่ เร่ืองท่ี 1.1.3 ประเภทของข้อมูลขนาดใหญ่มสธแนวคดิ 1. ข อ้ มลู ขนาดใหญ่ หมายถงึ ขอ้ มลู ปรมิ าณมาก มโี ครงสรา้ งขอ้ มลู ทหี่ ลากหลาย การเกดิ ขนึ้ และน�ำไปใช้งานด้วยความรวดเร็ว ท�ำให้เทคโนโลยีและเครื่องมือในการจัดการข้อมูลที่มี อยู่ในปัจจุบัน ไม่สามารถรองรับการท�ำงานกับข้อมูลท่ีเกิดข้ึนเหล่านี้ได้ จ�ำเป็นต้องมีมสธ มสธเทคโนโลยีหรือเคร่ืองมือใหม่ ๆ มาช่วยด�ำเนินการ คุณลักษณะของข้อมูลขนาดใหญ่ เริ่มจาก 3V ได้แก่ ปริมาณ ความเร็ว ความหลากหลาย และตามด้วย V อ่ืน ๆ เพิ่มเติม เช่น คุณภาพข้อมูล และคุณค่าของข้อมูล 2. ป ัจจัยสนับสนุน ได้แก่ โมเดลธุรกิจ การพัฒนาโครงสร้างพ้ืนฐานด้านเทคโนโลยี สารสนเทศ ความต้องการวิเคราะห์ข้อมูลทางธุรกิจ ความม่ันคงปลอดภัย อุปกรณ์ที่ หลากหลาย เพื่อเข้าถึงและใช้งานข้อมูล การค้นหาข้อมูล โซเชียลมีเดีย การใช้เทคโนโลยี มสธในองค์กรธุรกิจ กฎเกณฑ์และข้อก�ำหนดต่าง ๆ ท่ีเพ่ิมข้ึน คลาวด์คอมพิวติง ประโยชน์ ของข้อมูลขนาดใหญ่ การติดตามและตรวจสอบ การวิเคราะห์และเจาะลึกเพ่ือเข้าใจ ผลิตภัณฑ์หรือบริการ พัฒนาผลิตภัณฑ์ หรือบริการใหม่ เป็นต้น 3. ป ระเภทของข้อมูลขนาดใหญ่ แบ่งเป็น ข้อมูลท่ีมีโครงสร้าง เป็นข้อมูลที่มีการก�ำหนด รปู แบบและรายละเอยี ดของขอ้ มลู อยา่ งชดั เจน เทคโนโลยที นี่ ยิ มในการจดั เกบ็ ขอ้ มลู แบบมสธ มสธมีโครงสร้าง ข้อมูลกึ่งโครงสร้าง รูปแบบข้อมูลก่ึงโครงสร้างแต่ละประเภท มีรายละเอียด ที่แตกต่างกัน แต่ส่ิงหนึ่งท่ีเหมือนกันคือ จะมีการก�ำหนดแท็กหรือเครื่องหมายพิเศษ เพื่อ แบง่ แยกรายละเอียด หรอื องคป์ ระกอบแต่ละสว่ นของขอ้ มูลน้ัน ๆ ข้อมลู ท่ไี มม่ โี ครงสรา้ ง หมายถึง ข้อมูลที่ไม่สามารถก�ำหนดรูปแบบหรือโครงสร้างชัดเจน หรือกล่าวอีกนัยคือ มี มสธรูปแบบโครงสร้างข้อมูลไม่แน่นอน ไม่ตายตัว
หลักการของข้อมูลขนาดใหญ่ 1-5มสธ มสธ มสธวัตถุประสงค์ เมื่อศึกษาตอนที่ 1.1 จบแล้ว นักศึกษาสามารถ 1. อธิบายความหมาย และคุณสมบัติของข้อมูลขนาดใหญ่ได้ 2. อธิบายปัจจัยสนับสนุน และประโยชน์ของข้อมูลขนาดใหญ่ได้มมสสธธ มมมสสสธธธ มมสสธธ3. อธิบายประเภทข้อมูลขนาดใหญ่ได้
1-6 การวิเคราะห์ข้อมูลใหญ่สำ�หรับธุรกิจมสธเรอ่ื งที่ 1.1.1 ความหมายและคุณสมบตั ิของข้อมลู ขนาดใหญ่ ความก้าวหน้าของเทคโนโลยี ท�ำให้เกิดปรากฏการณ์การเกิดข้อมูลปริมาณมาก ๆ ในเวลาอันสั้นมสธ มสธซ่ึงเป็นที่มาของค�ำว่า ข้อมูลขนาดใหญ่ หรือบิกดาตา มีการนิยามข้อมูลขนาดใหญ่ในมุมมองต่าง ๆ ทั้งในด้านปริมาณข้อมูล รวมถึงเทคโนโลยีที่เก่ียวข้อง1. ความหมายของขอ้ มูลขนาดใหญ่ ขอ้ มลู ขนาดใหญห่ รอื บกิ ดาตา (Big Data) เรม่ิ มกี ารใหค้ วามสนใจตง้ั แตช่ ว่ งปี ค.ศ. 1990 เปน็ ตน้ มาเช่น ในปี ค.ศ. 2004 วอลมาร์ต (Walmart) ซ่ึงเป็นบริษัทค้าปลีกของสหรัฐอเมริกา มีการจัดเก็บข้อมูลในมสธคลังข้อมูลมากถึง 500 เทระไบต์ (Tera Byte) ในขณะที่อีเบย์ (eBay) ซึ่งเป็นบริษัทท�ำธุรกิจประมูลสินค้าออนไลน์ มีการเก็บข้อมูลมากถึง 8 เพตะไบต์ (Peta Byte) ซ่ึงเทียบเท่ากับวิดีโอท่ีน�ำมาดูได้นานถึง 104 ปีนอกจากนั้นบริษัทยาฮู มีการจัดเก็บข้อมูลท่ีให้บริการมากถึง 170 เพตะไบต์ การเกิดข้อมูลปริมาณมาก ๆท�ำให้องค์กรธุรกิจต้องค�ำนึงถึงวิธีการจัดเก็บ การจัดการกับข้อมูลที่เกิดจากแหล่งต่าง ๆ จากอุปกรณ์ท่ีหลากมสธ มสธหลาย เช่น โซเชียลมีเดีย จากการติดต่อส่ือสารระหว่างอุปกรณ์ต่าง ๆ ที่เป็นอัตโนมัติ ข้อมูลท่ีมีโครงสร้างท่ีแตกต่างจากอดีตในรูปแบบต่าง ๆ ทั้งใน วิดีโอ รูปภาพ สัญญาณ RFID sinv GPS เป็นต้น สิ่งเหล่านี้ท�ำให้ระบบการจัดเก็บข้อมูล ท่ีมีการใช้งานมาเป็นเวลานาน รวมทั้งเทคโนโลยีหรือแพลตฟอร์มท่ีรองรับการท�ำงานอาจจะไม่สามารถท�ำงานได้เหมือนที่เคย จึงมีการให้ค�ำจ�ำกัดความหรือความหมายเก่ียวกับข้อมูลขนาดใหญ่หรือบิกดาตาในมุมมองหลากหลาย ซึ่งครอบคลุมท้ังในส่วนของขนาดของข้อมูล ท่ีมีข้อมูลปริมาณมหาศาลรวมทั้งส่วนอ่ืนที่เกี่ยวข้อง เช่น เทคโนโลยีด้านการจัดเก็บข้อมูล ด้านการประมวผลข้อมูล ด้านการวิเคราะห์มสธข้อมูล และเคร่ืองมือและเทคโนโลยีที่สามารถรองรับกับข้อมูลท่ีเกิดขึ้น เช่น Watson, Hugh J. (2014) ได้อธิบายเกี่ยวกับข้อมูลขนาดใหญ่ หรือบิกดาตา หมายถึง การเกิดขอ้ มลู ทม่ี ปี รมิ าณมากทเ่ี กนิ ความสามารถของฐานขอ้ มลู ทใ่ี ชก้ นั ในปจั จบุ นั ทจ่ี ะรองรบั ได้ ขนาดของขอ้ มลู ใหญ่เกินกว่าท่ีฐานข้อมูลท่ีองค์กรมีอยู่จะรองรับได้ นอกจากนั้นระยเวลาของการเกิดของข้อมูลท่ีรวดเร็วในเวลาอันสั้น รวมท้ังโครงสร้างของข้อมูลท่ีเกิดข้ึนมีความแตกต่างจากโครงสร้างฐานข้อมูลแบบสัมพันธ์ จึงท�ำให้มสธ มสธฐานข้อมูลท่ีใช้ท�ำงานในองค์กรทั่วไป ซ่ึงเป็นระบบฐานข้อมูลแบบสัมพันธ์ ไม่สามารถรองรับการท�ำงานได้ McKinsey Global Institute (2011) ได้กล่าวถึง บิกดาตา หมายถึง เชตของข้อมูลที่มีปริมาณมหาศาลท่ีระบบฐานข้อมูล รวมถึงเคร่ืองมือท่ีมีอยู่ในปัจจุบัน ไม่สามารถจัดการและรองรับการท�ำงานและน�ำข้อมูลมาใช้วิเคราะห์ได้ Edd Dumbill (2012) มีการนิยามความหมายของข้อมูลขนาดใหญ่ หรือบิกดาตา หมายถึง ข้อมูลปริมาณมาก (Volume) ซ่ึงมีโครงสร้างข้อมูลท่ีหลากหลายทุกรูปแบบ (Variety) มีการเกิดข้ึนและน�ำไปมสธใช้งานด้วยความรวดเร็ว (Velocity) ท�ำให้เทคโนโลยีและเคร่ืองมือในการจัดการข้อมูลที่มีอยู่ในปัจจุบัน
หลักการของข้อมูลขนาดใหญ่ 1-7ไม่สามารถรองรับการท�ำงานกับข้อมูลที่เกิดข้ึนเหล่าน้ีได้ จ�ำเป็นต้องมีเทคโนโลยีหรือเครื่องมือใหม่ ๆ มาช่วยมสธด�ำเนินการในด้านต่าง ๆ Rajcharawee Jarupreechachan (2016) ไดก้ ลา่ วถงึ ความหมายของขอ้ มลู ขนาดใหญ่ หรอื บกิ ดาตาคือ ข้อมูลท่ีมีแหล่งท่ีมาจากภายในบริษัทและข้อมูลท่ีมาจากแหล่งภายนอก เช่น โซเชียลมีเดีย เป็นต้นซึ่งเป็นข้อมูลดิบเพื่อน�ำมาวิเคราะห์ด้วยวิธีการหลากหลาย ขึ้นกับความต้องการน�ำข้อมูลเหล่าน้ัน เพ่ือใช้มสธ มสธส�ำหรับการคาดการณ์เหตุการณ์ในอนาคต หรือใช้ดูแนวโน้มสิ่งที่จะเกิดข้ึน โดยสรุป ความหมายของข้อมูลขนาดใหญ่ หรือบิกดาตา (Big Data) หมายถึง ข้อมูลปริมาณมาก(Volume) ซึ่งมีโครงสร้างข้อมูลที่หลากหลายทุกรูปแบบ (Variety) มีการเกิดขึ้น และน�ำไปใช้งานด้วยความรวดเร็ว (Velocity) ท�ำให้เทคโนโลยี และเคร่ืองมือในการจัดการข้อมูลท่ีมีอยู่ในปัจจุบัน ไม่สามารถรองรับการท�ำงานกับข้อมูลที่เกิดขึ้นเหล่านี้ได้ จ�ำเป็นต้องมีเทคโนโลยีหรือเครื่องมือใหม่ ๆ มาช่วยด�ำเนินการในด้านต่าง ๆ ได้แก่ การรับข้อมูลเข้าจากแหล่งต่าง ๆ การประมวลผลข้อมูล การจัดเก็บข้อมูล การวิเคราะห์ข้อมูลมสธและการน�ำเสนอข้อมูล เพื่อรองรับและท�ำงานกับข้อมูลปริมาณมหาศาลเหล่าน้ีได้ จุดประสงค์ในการใช้ข้อมูลจากขอ้ มลู ขนาดใหญ่ เพอื่ คน้ หาองคค์ วามรทู้ ซ่ี อ่ นเรน้ อยใู่ นขอ้ มลู เหลา่ นน้ั เพอ่ื ใชป้ ระโยชนใ์ นธรุ กจิ หรอื องคก์ ร อย่างไรก็ตามประเด็นท้าทายของบิกดาตาที่ต้องค�ำนึงถึง ได้แก่ ค่าใช้จ่ายท่ีเพิ่มข้ึน (Cost) การขยายพ้ืนท่ีในการรองรับ (Scalability) และประสิทธิภาพการท�ำงาน (Performance) ที่เกี่ยวข้องกับการจัดเก็บมสธ มสธข้อมูล (Storage) การเข้าถึงข้อมูล (Accessibility) และการประมวลผลข้อมูล (Processing) เป็นต้น2. คุณสมบัติของขอ้ มูลขนาดใหญ่ จากความหมายของข้อมูลขนาดใหญ่หรือบิกดาตาที่กล่าวข้างต้น คุณสมบัติของข้อมูลขนาดใหญ่จากปรากฏการณท์ เี่ กดิ ขนึ้ โดยในระยะแรกเรม่ิ ตน้ จากคณุ สมบตั ิ 3V ประกอบดว้ ย ปรมิ าณ (Volume) ความหลากหลาย (Variety) ความเร็ว (Velocity) และมีการนิยาม V ต่าง ๆ เพิ่มเติมตามมาภายหลังตามมุมมองมสธต่าง ๆ เช่น คุณภาพของข้อมูล (Veracity) คุณค่า (Value) ความแปรผัน (Varibility) ความน่าเชื่อถือของมสธ มสธ มสธข้อมูล (Validity) เป็นต้น ส�ำหรับในที่น้ีอ้างอิงคุณสมบัติของข้อมูลขนาดใหญ่หลัก ๆ 5V (ภาพที่ 1.1) ดังนี้
1-8 การวิเคราะห์ข้อมูลใหญ่สำ�หรับธุรกิจมมสสธธ มมสสธธ มมสสธธภาพท่ี1.1คณุ สมบัติของข้อมลู ขนาดใหญ่ท่มี า: https://twitter.com/breedwheat 2.1 ปริมาณขอ้ มูล (Volume) ข้อมูลในอดีตเกิดจากการท�ำธุรกรรมขององค์กรโดยทั่วไปเพ่ือใช้ในการท�ำธุรกรรมหรือการใช้งานส่วนบุคคล โดยปริมาณข้อมูลอยู่ในระดับท่ีมีขอบเขตชัดเจน และมักจัดเก็บในฐานข้อมูลแบบสัมพันธ์ มีหน่วยวัดข้อมูลอยู่ในระดับ MB (Mega Byte) หรือ GB (Giga Byte) ก็เพียงพอมสธในการจัดเกบ็ ตวั อย่างเช่น ชดุ หรือเซต็ ของเอน็ โคไซพีเดีย (Encocypedia) ซงึ่ ใช้พื้นทีใ่ นการจัดเก็บประมาณ100 MB ขณะท่ี DVD 1 แผ่น มีความจุเท่ากับ 5 GB หรือมากกว่า ข้อมูลที่เกิดข้ึนในยุคข้อมูลขนาดใหญ่ หรือบิกดาตาเกิดจากแหล่งต่าง ๆ มีมากข้ึนตลอดเวลา เช่นการใช้โทรศัพท์มือถือท่ีเพ่ิมขึ้น และมีแอปพลิเคชันรองรับมากขึ้น การใช้โซเชียลมีเดีย เฟซบุ๊กในแต่ละวันมีการส่งข้อความมากกว่า 10,000 ล้านข้อความ การคลิกปุ่ม like มากกว่า 4500 ล้านคร้ัง หรือการอัปโหลดมสธ มสธรูปภาพใหม่มากกว่า 350 ล้านภาพ ปริมาณข้อมูลที่เกิดขึ้นใหม่เพ่ิมขึ้นอย่างรวดเร็ว เกิดการสะสมข้อมูลในปริมาณมาก ๆ ท�ำให้มีข้อมูลขนาดใหญ่มหาศาล และมีความซับซ้อนมากข้ึน หน่วยวัดข้อมูลขยายมากข้ึนเป็นระดับ TB (Tera Byte) PB (Peta Byte) หรือระดับ ZB (Zetta Byte) เป็นต้น (ปริมาณความจุ 1 TBเทียบเท่า VDO 300 ชั่วโมง) ภาพที่ 1.2 เป็นหน่วยวัดข้อมูลท่ีจัดเก็บในระบบดิจิทัล ตั้งแต่บิต (bit) ปริมาณข้อมูลจัดเก็บเพ่ิมขึ้นเรื่อยจากกิโลไบต์ (Kilobyte: KB) เป็นเมกะไบต์ (Megebyte: MB) เป็นกิกะไบต์(Gigabyte: GB) เป็นเทระไบต์ (Terabyte: TB) เพ่ิมเป็นเพทะไบต์ (Petabyte) สู่ เอกซะไบต์ (Exabyte:มสธEB) และมีแนวโน้มเพ่ิมขึ้นเร่ือยไปสู่ เซตทะไบต์ (Zettabyte: ZB) เป็นต้น
มสธProcessor or Virtual Storage หลักการของข้อมูลขนาดใหญ่ 1-9 1 bit Disk Storage 8 bits 1024 byte= Binary digit• 1 bit = Binary digit= 1 Byte • 8 bits = 1 Byteมสธ มสธ1024kb= 1 kb • 1000 byte = 1 kb 1024 mb= 1 mb • 1000 kb = 1 mb 1024 gb= 1 gb • 1000 mb = 1 gb 1024 tb= 1 Terabyte • 1000 gb = 1 Terabyte 1024 pb= 1 Petabyte • 1000 tb = 1 Petabyte 1024 eb= 1 Exabyte • 1000 pb = 1 Exabyte 1024 zb= 1 Zettabyte • 1000 eb = 1 Zettabyte มสธ1024 yb= 1 Yottabyte • 1000 zb = 1 Yottabyte 1024 bb= 1 Brontobyte • 1000 yb = 1 Brontobyte= 1 Geopbyte • 1000 bb = 1 Geopbyte ภาพท่ี 1.2 หนว่ ยวัดขอ้ มูลทจ่ี ัดเกบ็ ในระบบดิจทิ ัลมสธ มสธท่ีมา: https://www.slideshare.net/rjsuthar56/ 2.2 ความเร็วของข้อมูล (Velocity) ครอบคลุมด้านต่าง ๆ ได้แก่ ความเร็วของการเกิดข้อมูลความเร็วของการจัดเก็บหรือการเคลื่อนย้ายข้อมูล และความเร็วของวิเคราะห์ข้อมูล ในระบบธรุ กรรมขององคก์ รทผี่ า่ นมา ความเรว็ ของการเกดิ ขอ้ มลู และการนำ� ขอ้ มลู ไปใชง้ าน สามารถควบคุมได้ง่าย และมีกระบวนการท�ำงานตามช่วงเวลาท่ีก�ำหนดไว้ล่วงหน้าอย่างชัดเจน เช่น การจัดพิมพ์มสธรายงานยอดขายประจ�ำเดือน การประมวลผลเงินเดือน ฯลฯ ซ่ึงเป็นการท�ำงานแบบแบตช์ (Batch) จะมีการรวบรวมข้อมูลจ�ำนวนหนึ่งตามช่วงเวลา เพื่อประมวลผลพร้อมกันในคราวเดียวกัน เป็นต้น ส�ำหรับความเร็วของข้อมูลในยุคข้อมูลขนาดใหญ่ ข้อมูลเกิดใหม่และการน�ำข้อมูลไปประมวลผลและวิเคราะห์เป็นไปอย่างรวดเร็ว นั่นคือมีความเร็วของข้อมูลสูง หรือมี Velocity สูง เช่น ข้อมูลท่ีเผยแพร่หรือแชร์ในโซเชียลมีเดียที่แพร่กระจายอย่างรวดเร็วในเส้ียววินาที จึงจ�ำเป็นต้องมีเทคโลยีที่สามารถจะน�ำมสธ มสธข้อมูลที่เกิดข้ึนมาประมวลผลในเวลาอันสั้น ความเร็วของอินเทอร์เน็ตเพ่ิมข้ึนเป็น 100 เท่า จาก 10 MB/วินาที เป็น 1 GB/วินาที และมีแนวโน้มจะสูงขึ้นอีก ท�ำให้การส่งผ่านข้อมูลในเครือข่ายอินเทอร์เน็ตเป็นไปด้วยความรวดเร็วตามไปด้วย ซึ่งท�ำให้ความเร็วในการน�ำข้อมูลขนาดใหญ่ไปใช้งาน มักจะเป็นการประมวลผลแบบเรียลไทม์ (Real Time Processing) เพื่อรองรับการท�ำงานกับข้อมูลท่ีเข้าอย่างต่อเน่ืองในลักษณะสตรีมมิง (Streaming Data) ข้อมูลบนโลกออนไลน์เปล่ียนแปลงเป็นรายวินาที และไม่สามารถใช้ฐานข้อมูลแบบสัมพันธ์มาจัดการได้อย่างมีประสิทธิภาพ 2.3 ความหลากหลายของขอ้ มลู (Variety) ข้อมูลในยุคบิกดาตาเกิดจากแหล่งต่าง ๆ และมีรูปแบบมสธของข้อมูลหลากหลาย ส่วนใหญ่เป็นข้อมูลท่ีไม่มีโครงสร้างมากกว่า 80-90% ของข้อมูลท้ังหมด เช่น จาก
1-10 การวิเคราะห์ข้อมูลใหญ่สำ�หรับธุรกิจโซเชียลมีเดีย ข้อมูลวิดีโอ เสียง หรือรูปภาพ เป็นต้น ซึ่งมักจะเป็นข้อมูลท่ีไม่มีโครงสร้าง และนับวันจะเพ่ิมมสธขึ้นอย่างรวดเร็ว ดังภาพท่ี 1.3มสธ มสธ มสธStuctured มสธ มสธภาพท่ี1.3ความหลากหลายข้อมลู (Variety)Semi-Structured Un-Structuredทมี่ า: https://www.youtube.com/watch?v=zez2Tv-bcXY&t=3s 2.3.1 ข้อมูลที่มีโครงสร้าง (Structure Data) เป็นข้อมูลท่ีก�ำหนดรูปแบบหรือประเภท และมีขนาดชัดเจน โดยก�ำหนดไว้ล่วงหน้าแล้ว ตัวอย่างการจัดเก็บข้อมูลแบบโครงสร้าง เช่น ข้อมูลที่เก็บในรูปของตารางของฐานข้อมูลแบบสัมพันธ์ (Relational database) เป็นต้น มสธ2.3.2 ข้อมูลกึ่งโครงสร้าง (Semi Strucutured Data) เป็นข้อมูลที่มีโครงสร้างเฉพาะ ที่ไม่ใช่โครงสร้างของฐานข้อมูล เช่น เอกสาร XML (Extensible Markup Language), JSON (Java ScriptObject Notation) เป็นต้น 2.3.3 ข้อมูลที่ไม่มีโครงสร้าง (Unstructured Data) คือ ข้อมูลท่ีไม่มีรูปแบบท่ีตายตัว เช่นรูปภาพ เสียงเพลง เสียงพูด ภาพยนตร์ สัญญาณเซ็นเซอร์ ข้อมูลแผนที่ (geospatial data) เอกสาร หรือมสธ มสธข้อความที่พิมพ์ในอีเมล หรือ สิ่งพิมพ์ท่ีไม่มีรูปแบบตายตัว เป็นต้น 2.4 คณุ ภาพของขอ้ มลู (Veracity*) ปัจจัยที่เก่ียวข้องกับคุณภาพข้อมูล ได้แก่ ความถูกต้องข้อมูล(Accuracy of Data) ความน่าเชื่อถือของแหล่งที่มาของข้อมูล (Reliability of Data Sources) และผลลัพธ์จากการวิเคราะห์ข้อมูล (Context within Analysis) * ค�ำว่า Veracity แปลว่า truthfulness, fact, accuracy, correctness (อ้างอิงจาก veracity. (n.d.). Collins EnglishDictionary-Complete & Unabridged (10th ed.). Retrieved August 10, 2017 from Dictionary.com website http://www.มสธdictionary.com/browse/veracity)
หลักการของข้อมูลขนาดใหญ่ 1-11 ในยุคของข้อมูลขนาดใหญ่ จากปรากฏการณ์ของการเกิดข้อมูลในลักษณะ 3V (Volume VarietyมสธVelocity) มักจะพบปัญหาเกี่ยวกับความไม่แน่นอนของข้อมูล (Uncertainty of Data) ได้แก่ ความล�ำเอียง(Biased) เปน็ ขอ้ มลู ทไ่ี ม่เทยี่ งตรงตามความเปน็ จรงิ อาจจะมอี คตติ อ่ เรอื่ งใดเรื่องหนึ่ง ขอ้ มลู ทไ่ี มช่ ดั เจน หรอืมีสัญญาณรบกวน (Noise) ข้อมูลเหล่าน้ีมักจะพบในกลุ่มข้อมูลที่เป็นแบบคลื่นหรือสัญญาณที่อาจจะถูกรบกวนท�ำให้ข้อมูลมีการคลาดเคลื่อน ข้อมูลที่ไม่ปกติ (Abnormality) ข้อมูลท่ีคลาดเคล่ือน และข้อมูลจงใจมสธ มสธให้เป็นเท็จหรืออาจจะเป็นการบิดเบือนข้อมูล สิ่งเหล่าน้ีมีผลกระทบต่อคุณภาพข้อมูล และเป็นอีกหนึ่งความทา้ ทายดา้ นความถกู ตอ้ งของขอ้ มลู ความนา่ เชอ่ื ถอื ของแหลง่ ขอ้ มลู ทำ� ใหค้ วามถกู ตอ้ งของการวเิ คราะหข์ อ้ มลูอาจจะผิดพลาด เม่ือมีการน�ำไปใช้งาน ดังภาพท่ี 1.4 จะพบว่าข้อมูลท่ีเกิดจากธุรกรรมภายในองค์กร (Enterprise Data) เช่น ข้อมูลลูกค้าข้อมูลการขาย ฯลฯ จะไม่มีปัญหาเกี่ยวกับคุณภาพข้อมูล เน่ืองจากจะต้องผ่านกระบวนการคัดเลือก ตรวจสอบ และกลั่นกรองข้อมูลที่รับเข้ามาสู่ระบบด้วยกระบวนการอีทีแอล (Extract Transfer Load: ETL)มสธน่ันคือก่อนน�ำเข้าสู่คลังข้อมูล และน�ำไปใช้งาน จะต้องผ่านกระบวนการที่ท�ำให้ข้อมูลที่น�ำเข้ามามีความถูกต้องเสียก่อน ท�ำให้ผลการน�ำข้อมูลไปใช้งานในด้านต่าง ๆ (เช่น วิเคราะห์ข้อมูล) มีความคลาดเคลื่อนค่อนข้างต�่ำ (Low Uncertainty) ประมาณ 10-15% ขณะที่ข้อมูลท่ีเกิดภายนอกองค์กร เช่น โซเชียลมีเดีย มีความคลาดเคลื่อนเพิ่มข้ึน ถึง 30-50% ข้อมูลที่เกิดจากเซ็นเซอร์ และข้อมูลที่เกิดจากกิจกรรมต่าง ๆ ผ่านมสธ มสธอินเทอร์เน็ต (Internet of Thing: IoT) มีความคลาดเคลื่อนมากกว่า 60-100% เนื่องจากไม่ได้มีเวลาในการตรวจสอบข้อมูลก่อนน�ำไปใช้งาน ซึ่งส่งผลต่อคุณภาพของของข้อมูลอย่างมากมสธ มสธ มสธภาพที่1.4คุณภาพข้อมลู (Varacity)ของข้อมลู ขนาดใหญ่มสธที่มา: http://www.rosebt.com/blog/global-data-volume-explodes
1-12 การวิเคราะห์ข้อมูลใหญ่สำ�หรับธุรกิจ 2.5 คณุ คา่ ของขอ้ มลู (Value) หมายถึง คุณค่าของข้อมูลขนาดใหญ่ ท�ำให้เกิดประโยชน์ต่อองค์กรมสธและสามารถแข่งขัน หรือ สร้างรายได้ขององค์กร ตัวอย่างการสร้างคุณค่าจากข้อมูลขนาดใหญ่ เช่น การน�ำข้อมูลที่มีขนาดใหญ่มาท�ำการวิเคราะห์หรือพยากรณ์ เพื่อค้นหาองค์ความรู้ท่ีซ่อนในข้อมูลเหล่าน้ัน เพื่อเป็นแนวทางในการก�ำหนดกลยุทธ์ธุรกิจ เป็นการสร้างคุณค่า (Value) ในการเพ่ิมรายได้ และรูปแบบธุรกิจใหม่ซ่ึงจะต้องข้ึนกับการที่ธุรกิจให้ความส�ำคัญและเห็นคุณค่าการใช้ประโยชน์จากข้อมูลในด้านต่าง ๆมสธ มสธจากที่กล่าวข้างต้นคุณสมบัติของข้อมูลขนาดใหญ่ประกอบด้วย 5V ได้แก่ Volume VelocityVariety Veracity Value นอกจากน้ันอาจมีการนิยามคุณสมบัติของข้อมูลขนาดใหญ่ด้วย V อ่ืน ๆ อีกจ�ำนวนมาก ซึ่งในท่ีน้ีจะไม่น�ำเสนอรายละเอียด เช่น ความสมเหตุสมผล (Validity) ความไม่แน่นอน (Vola-tility) ความผันแปร (Variability) ความเช่ือมโยง (Valence) ฯลฯ เน่ืองจากข้ึนกับมุมมองของผู้ท่ีน�ำเสนอท่ีมีการเพ่ิมเติมได้ มสธหลังจากศึกษาเนื้อหาสาระเรื่องที่ 1.1.1 แล้ว โปรดปฏิบตั กิ ิจกรรม 1.1.1 ในแนวการศึกษาหนว่ ยที่ 1 ตอนที่ 1.1 เรื่องท่ี 1.1.1มสธ มสธเรอื่ งที่ 1.1.2 ปัจจัยสนับสนนุ และประโยชน์ของขอ้ มูลขนาดใหญ่ ความก้าวหน้าของเทคโนโลยี อุปกรณ์ดิจิทัลรูปแบบใหม่ ๆ ท่ีเกิดข้ึน เช่น สมาร์ตโฟน แท็บเล็ต รวมท้ังเครือข่ายการส่ือสารท่ีส่งผ่านข้อมูลด้วยความเร็วสูง และกระจายไปยังกลุ่มผู้บริโภคได้อย่างทั่วถึง โดยมสธเฉพาะอย่างย่ิงการใช้โซเชียลมีเดียท่ีแพร่หลายในปัจจุบัน ท�ำให้เกิดปรากฏการณ์ที่มีข้อมูลเกิดข้ึนในแต่ละวนิ าทีมากมายมหาศาล การเตบิ โตของข้อมลู เหลา่ นเ้ี ปน็ ไปอย่างรวดเร็วและมีปริมาณสงู มาก ทำ� ใหก้ ารบริหารจัดการข้อมูลด้วยเทคโนโลยี เคร่ืองมือ หรือเทคนิคแบบเดิมตามท่ีเคยปฏิบัติมาไม่สามารถรองรับได้มสธ มสธ1. ปัจจัยสนับสนุนการเกดิ ข้อมลู ขนาดใหญ่ McKinsey Report (2013) ได้กล่าวถึงปัจจัยท่ีน�ำไปสู่ยุคข้อมูลขนาดใหญ่ในเวลาท่ีรวดเร็วและต่อเน่ือง ได้แก่ 1.1 โมเดลธุรกิจ (Business Model) มีการพัฒนา และปรับเปล่ียนรูปแบบการด�ำเนินธุรกิจที่มีความหลากหลายมากขึ้นเพ่ือให้แข่งขันได้ ซ่ึงจะต้องอาศับข้อมูลท่ีเกิดขึ้นจากภายในองค์กร รวมทั้งมีการเก็บมสธข้อมูลจากแหล่งต่าง ๆ ท่ีเกิดข้ึนภายนอกองค์กร รวมท้ังอายุการเก็บข้อมูลเหล่าน้ียาวนานข้ึน เช่น
หลักการของข้อมูลขนาดใหญ่ 1-13 1.1.1 Amazon มีระบบแนะน�ำสินค้า/หนังสือ (Recoomendation System) หรือระบบมสธReview สินค้า เพื่อให้ลูกค้าแสดงความเห็น ซึ่งจะต้องมีการจัดเก็บข้อมูลอย่างมหาศาล 1.1.2 การวเิ คราะหพ์ ฤตกิ รรมการจบั จา่ ยใชส้ อยของลกู คา้ (Collective Consumer Behav-ior) โดยใช้ข้อมูลจากอดีต เช่น สายการบินวิเคราะห์เท่ียวบินท่ีมีผู้โดยสารท่ีในแต่ละช่วง การวิเคราะห์พฤติกรรมการซ้ือสินค้าของลูกค้า เพ่ือวางแผนการให้บริการ การจัดท�ำโปรโมชันส่งเสริมการขายสินค้า โดยมสธ มสธดูจากประวัติการซ้ือสินค้าในอดีต เป็นต้น 1.1.3 บริการวิดีโอแบบสตรีมมิง ท่ีสามารถดูหนัง ฟังเพลง เพ่ือบริการผ่านเว็บ หรือผ่านแอปพลิเคชันต่าง ๆ ผ่านอุปกรณ์เคล่ือนที่จากค่ายต่าง ๆ เช่น เฟซบุ๊ก (Facebook) ยูทูป (YouTube)เน็ตฟลิกซ์ Netflix เป็นต้น 1.2 การพัฒนาโครงสร้างพ้ืนฐานด้านเทคโนโลยีสารสนเทศ (Infrastrucutre Cability) ช่วยสนับสนุนให้การใช้งานในรูปแบบดิจิทัลมีมากข้ึน ได้แก่ มสธ1.2.1 อุปกรณ์เคล่ือนท่ีต่าง ๆ เช่น โทรศัพท์มือถือที่มีแอปพลิเคชันท�ำงานผ่านอุปกรณ์สะดวกขึ้น เช่น การท�ำงานผ่านอุปกรณ์เคล่ือนที่ด้านสุขภาพเชื่อมต่อกับฐานข้อมูลโรงพยาบาล การใช้เพื่อสอบถามสภาพอากาศ การจราจร การค้นหาสถานท่ีผ่านกูเกิลแมป การใช้ติดต่อส่ือสาร และการประชุมร่วมกัน ดังภาพที่ 1.5 เป็นตัวอย่างการใช้งานเช่ือมต่อกับแอปพลิเคชันด้านสุขภาพ ส่ิงแวดล้อม ฯลฯมสธ มสธ มสธภาพที่1.5การใช้แอปพลเิคชันผา่ นอปุ กรณเ์คลอ่ื นท่ีมสธ มสธ1.2.2 ความจุของอุปกรณ์จัดเก็บข้อมูล (Storage Capacity) มีความจุข้อมูลท่ีเพิ่มข้ึนอย่างต่อเนื่องซ่ึงสวนทางกับราคาของอุปกรณ์จัดเก็บข้อมูลถูกลง ภาพที่ 1.6 หน่วยวัดความจุข้อมูลและการเติบโตของข้อมูลในอัตราเร่ง ซึ่งเป็นการเพิ่มขึ้นอย่างรวดเร็ว ช่วง ค.ศ. 2010-2020 มีอัตราการยายตัวเพิ่มข้ึนมสธ50 เท่า
1-14 การวิเคราะห์ข้อมูลใหญ่สำ�หรับธุรกิจมสธ มมสสธธ มสธภาพที่1.6อตั ราการเตบิ โตของข้อมูลระหว่างปีค.ศ.2010-2020มสธ มสธ1.2.3 เครือข่ายอินเทอร์เน็ตที่มีความเร็วสูงกระจายท่ัว ท�ำให้มีผู้ใช้งานเข้าถึงได้สะดวกและถูกลง ภาพที่ 1.7 ความเร็วอินเทอร์เน็ต ช่วงปี ค.ศ. 2011-2016 ท่ีเพิ่มขึ้นทุกปี และอัตราการใช้งานอินเทอร์เน็ตท่ัวโลก เพ่ิมขึ้นในทิศทางเดียวกัน ในช่วง ค.ศ. 1994-2014มสธ มสธ มสธภาพท่ี1.7สถติ คิ วามเรว็ และการใช้งานอนิ เทอรเ์น็ตมสธท่มี า: Individuals using the Internet 2005 to 2014, Key ICT indicators for developed and developing countries and the world (totals and penetration rates), International Telecommunication Union (ITU). Retrieved 8 Aug 2017
หลักการของข้อมูลขนาดใหญ่ 1-15 1.3 ความตอ้ งการวเิ คราะหข์ อ้ มลู ทางธรุ กจิ (Business Analytics) ท�ำให้มีความต้องการน�ำข้อมูลท่ีมสธเกย่ี วขอ้ งกบั ธรุ กจิ มาวเิ คราะหใ์ นดา้ นตา่ ง ๆ มมี ากขนึ้ ไปดว้ ย เพอื่ หาคณุ คา่ ทม่ี ใี นขอ้ มลู ในการหาโอกาสใหม่ ๆในการท�ำธุรกิจ เช่น ข้อมูลการบันทึกการสนทนาของ Call center ที่ให้บริการลูกค้า ซึ่งอาจจะน�ำมาวิเคราะห์ปรับปรุงสินค้า หรือการบริการให้มีคุณภาพตรงกับความต้องการของลูกค้ามากย่ิงข้ึน เป็นต้น 1.4 ความมั่นคงปลอดภัย (Security) องค์กรธุรกิจมีข้อมูลอื่น ๆ ที่เกิดขึ้นจากการรักษาความมสธ มสธปลอดภัย ซึ่งเป็นข้อมูลท่ีต้องจัดเก็บมหาศาล เช่น ข้อมูลกล้องวงจรปิด ข้อมูลการสแกนนิ้วมือ หรือการใช้บัตรอิเล็กทรอนิกส์ เพื่อควบคุมการเข้าออก เป็นต้น 1.5 อุปกรณ์ที่หลากหลายสากล (Ubiquitous Devices) ความเป็นมาตรฐานสากลของอุปกรณ์ที่สามารถเช่ือมต่อและส่งผ่านข้อมูลได้ โดยผู้ใช้ไม่ต้องมีการเพิ่มเติมการท�ำงานใด เช่น การใช้กล้อง ร่วมกับเคร่ืองสแกน หรอื เชอ่ื มตอ่ กับโทรศพั ท์มือถือ ข้อมลู ประเภท GPS RFID Sensor ทำ� ให้การเกิดขอ้ มลู ปรมิ าณมาก หรือการส่งต่อข้อมูลมีความสะดวก และรวดเร็ว มสธ1.6 การคน้ หาขอ้ มลู (Search) เคร่ืองมือในการค้นหาข้อมูลมีการพัฒนาประสิทธิภาพมากขึ้น ท�ำให้การค้นหาข้อมูลง่ายข้ึน จึงเป็นปัจจัยท�ำให้มีการจัดเก็บข้อมูลที่หลายหลาย เช่น เอกสารต่าง ๆ ที่คิดว่าจะเป็นประโยชนใ์ นการใชง้ าน ขอ้ มลู จากเวบ็ ทำ� ใหก้ ารเพมิ่ ขน้ึ ของขอ้ มลู มากขนึ้ โดยเฉพาะขอ้ มลู แบบไมม่ โี ครงสรา้ ง 1.7 โซเชยี ลมเี ดยี (Social Media) ธุรกิจให้ความสนใจข้อมูลจากโซเชียลมีเดีย และข้อมูลจากแหล่งอ่ืนที่มีส่วนเก่ียวข้องกับธุรกิจ ท�ำให้การจัดเก็บข้อมูลมีมากขึ้น จากภาพที่ 1.8 จะเห็นว่า การเติบโตของข้อมูลมสธ มสธภายในองค์กร (Business Transaction) เมื่อเปรียบเทียบกับข้อมูลจากแหล่งต่าง ๆ ภายนอก มีปริมาณต่างกันอย่างส้ินเชิง โดยการเติบโตของข้อมูลภายในองค์กร ในระหว่างปี ค.ศ. 2009-2017 อยู่ในระดับประมาณ 10% ขณะท่ีปริมาณข้อมูลจากแหล่งต่าง ๆ ภายนอกองค์กร โดยฉพาะจากโซเชียลมีเดียเพ่ิมข้ึนมากกว่า 60-80%มสธ มสธ มสธภาพท่ี1.8แนวโนม้ การเตบิ โตของขอ้ มลู ภายในองคก์ รเทียบกับข้อมูลจากภายนอกองคก์ รมสธทีม่ า: IDC 2009-2017 http://www.ericsson.com/hyperscale/cloud-infrastructure/data-infrastructure/secure-storage
1-16 การวิเคราะห์ข้อมูลใหญ่สำ�หรับธุรกิจ 1.8 การใชเ้ ทคโนโลยใี นองคก์ รธรุ กจิ (Technology Proliferation) ซ่ึงมีการใช้เทคโนโลยีใหม่ ๆ เข้ามสธมาชว่ ยการทำ� งานมากขน้ึ ทำ� ใหเ้ กดิ ปรมิ าณขอ้ มลู มากขนึ้ เนอ่ื งจากธรุ กรรมทเี่ กดิ ขน้ึ เปน็ การทำ� งานเพอื่ รองรบักิจกรรมในองค์กรซึ่งอยู่ในรูปแบบดิจิทัล 1.9 กฏเกณฑ์และข้อก�ำหนดตา่ ง ๆ มเี พม่ิ ข้นึ ท�ำให้การรวบรวมจัดเก็บข้อมูล และการรักษาข้อมูลตามมาตรฐาน หรือตามกฎเกณฑ์ท่ีก�ำหนดไว้มีเพิ่มขึ้นตามไปด้วยมสธ มสธ1.10 คลาวด์คอมพิวติง (Cloud Computing) การที่มีบริการคลาวน์ ในการจัดเก็บข้อมูล เป็นการช่วยธุรกิจลดค่าใช้จ่าย เป็นส่วนช่วยให้การจัดเก็บข้อมูลได้ง่ายข้ึน เป็นปัจจัยส�ำคัญท่ีท�ำให้การใช้งานข้อมูลขนาดใหญ่สะดวกมากข้ึน เนื่องจากผู้ใช้ไม่จ�ำเป็นต้องลงทุนอุปกรณ์พื้นฐานโดยใช้บริการได้ทันที2. ประโยชน์ของข้อมูลขนาดใหญ่ การค้นหาองค์ความรู้ท่ีซ่อนเร้นอยู่ในข้อมูลขนาดใหญ่ก่อให้เกิดประโยชน์ เช่น ช่วยก�ำหนดลูกค้ามสธเป้าหมาย การบริการ หรือการน�ำเสนอผลิตภัณฑ์ที่ตรงกับกลุ่มลูกค้าได้มากย่ิงขึ้น ท�ำให้การวิเคราะห์ข้อมูลท่ีซับซ้อนมากขึ้น ท�ำให้เพิ่มประสิทธิภาพการตัดสินใจ ลดความเส่ียง รวมทั้งการท�ำความเข้าใจพฤติกรรมผู้บริโภคในแง่มุมต่าง ๆ ได้ดีข้ึน ช่วยเพิ่มผลิตภัณฑ์และสินค้า หรือบริการรูปแบบใหม่ ๆ ที่ตอบโจทย์ความต้องการลูกค้าได้ แบ่งตามประเภทต่าง ๆ ดังนี้มสธ มสธ2.1 การติดตามและตรวจสอบ (Monitoring and Tracking Application) เป็นการน�ำข้อมูลขนาดใหญ่มาท�ำการวิเคราะห์เพื่อสกัด หรือหาสิ่งที่จะน�ำมาเป็นประโยชน์ต่อการขับเคลื่อนธุรกิจ เพิ่มประสิทธิภาพของธุรกิจ ได้แก่ 2.1.1 การวิเคราะห์ความรู้สึกของลูกค้าที่มีต่อสินค้า (Customer Sentimental Monitoring)โดยใชข้ อ้ มลู จากโซเชยี ลมเี ดยี ซงึ่ ปจั จบุ นั มอี ทิ ธพิ ลตอ่ การทำ� ธรุ กจิ โดยองคก์ รธรุ กจิ จำ� นวนมากมกี ารโฆษณาในโซเชียลมีเดียเพิ่มเติมจากการโฆษณาในส่ือเดิม ๆ โดยมีการรวบรวม วิเคราะห์กลุ่มค�ำท่ีแสดงความรู้สึกมสธของลูกค้าท่ีมีต่อสินค้า เช่น ความชอบ ไม่ชอบ ในสินค้า เพื่อด�ำเนินกลยุทธ์การตลาดและการขายท่ีเหมาะสม 2.1.2 การติดตามและตรวจสอบทรัพย์สิน (Asset Tracking) สินค้าที่มีมูลค่าอาจจะใช้ฉลากแบบ RFID เพื่อใช้ในการป้องกันการหายของสินค้า โดยจะส่งคล่ืนสัญญาณมายังเครื่องรับท�ำให้ติดตามและเฝ้าระวังได้อย่างมีประสิทธิภาพ รวมทั้งการติดฉลากในคลังสินค้าท่ีมีมูลค่ามากในลักษณะเดียวกันน้ี หรือมสธ มสธการใช้เซ็นเซอร์ตรวจจับการใช้ไฟฟ้าเพ่ือน�ำมาปรับปรุงการใช้ไฟฟ้าอย่างคุ้มค่าและเหมาะสม 2.1.3 การตรวจสอบและตดิ ตามโซอ่ ปุ ทาน (Subply Chain Monitoring) โดยเทคโนโลยี RFIDท�ำให้ทราบสถานะของการจัดส่งสินค้า และต�ำแหน่งของสินค้าท่ีจัดส่งในแต่ละขณะว่าอยู่ที่ใด 2.1.4 การตดิ ตามการใช้ไฟฟ้า (Electricity Consumption Tracking) การมีมิเตอร์ท่ีเป็นระบบเซ็นเซอร์ในการตรวสอบและติดตามการใช้กระแสไฟฟ้าของประชาชน เช่น ปริมาณไฟฟ้าที่ใช้ในแต่ละช่วงเวลา และรวมท้ังข้อมูลอ่ืน ๆ ที่เก่ียวข้อง ท�ำให้สามารถบริหารจัดการเกี่ยวกับโครงสร้างพ้ืนฐาน และมสธรายได้เป็นไปอย่างเหมาะสม
หลักการของข้อมูลขนาดใหญ่ 1-17 2.1.5 การบำ� รงุ รกั ษาเครอ่ื งจกั ร (Preventive Machine Maintenance) ระบบเครอื่ งจกั ร อปุ กรณ์มสธต่าง ๆ ท่ีใช้งาน ช้ินส่วนของอุปกรณ์จะมีอายุการใช้งาน ดังน้ันหากมีการติดตั้งระบบเซ็นเซอร์ในอุปกรณ์เหล่านี้ เพ่ือส่งคล่ืนสัญญาณแจ้งสถานะ จะท�ำให้ทราบและพยากรณ์สถานะอุปกรณ์เหล่าน้ีได้ ซ่ึงเป็นการช่วยลดค่าใช้จ่าย หรือผลกระทบท่ีจะตามได้ 2.1.6 การติดตามหรือเฝ้าระวังโรคระบาดหรือโรคติดต่อ โดยการน�ำข้อมูลขนาดใหญ่มาท�ำมสธ มสธการพยากรณ์เพื่อน�ำมาใช้ในการป้องกันการระบาดได้ เช่น แนวโน้มการระบาดของไข้หวัดใหญ่ 2.2 การวเิ คราะหแ์ ละเจาะลกึ เพอ่ื เขา้ ใจผลติ ภณั ฑห์ รอื บรกิ าร นำ� ข้อมูลทีม่ อี ยู่มาทำ� การวิเคราะห์และเจาะลึกเพื่อเข้าใจผลิตภัณฑ์หรือบริการ (Analysis and Insight Applications) ท่ีต้องการศึกษาหรือพฤติกรรมผู้บริโภคท่ีมีต่อสินค้าและบริการ เพื่อให้เพ่ิมขีดความสามารถในการแข่งขันหรือเพ่ิมประสิทธิภาพยิ่งข้ึนในการบริหารจัดการ/บริการ เช่น 2.2.1 การวิเคราะห์อาชญากรรม (Predictive Criminal) เพ่ือใช้ในการระวังและสอดส่องมสธอาชญากรรม ซึ่งเป็นความร่วมมือระหว่างหน่วยงานต�ำรวจของรัฐแคลิฟอร์เนียกับมหาวิทยาลัยแคลิฟอร์เนียท่ีเบิร์ดเลย์ โดยหน่วยงานต�ำรวจที่แคลิฟอร์เนียได้มีการจัดเก็บข้อมูลประวัติอาชญากรรมต่าง ๆ ไว้ในฐานข้อมูลขนาดใหญ่สะสมมากกว่า 80 ปี มีข้อมูลเกี่ยวกับอาชญากรรมมากกว่า 13 ล้านรายการ ซึ่งเป็นข้อมูลขนาดใหญ่ สามารถน�ำข้อมูลเหล่านี้มาท�ำนายแนวโน้มการเกิดอาชญากรรมในลักษณะต่าง ๆ เช่น การมสธ มสธพยากรณ์หาแนวโน้มของประเภทของอาชญากรรมท่ีมีโอกาสเกิดข้ึน ณ ช่วงเวลาใด และสถานที่ใด ซึ่งการวิเคราะห์ดังกล่าวท�ำให้สามารถระบุชี้ชัดได้ว่า จุดใดท่ีเป็นจุดเสี่ยงในการเกิดอาชญากรรม เพ่ือน�ำมาป้องกันอาชญากรรมท่ีอาจจะมีรูปแบบความเสี่ยงท่ีคล้ายคลึงกันไม่ให้เกิดข้ึนซ�้ำในอนาคตหรือลดน้อยลงได้ 2.2.2 ด้านสุขภาพ (Health) ความรู้ทางการแพทย์และการวินิจฉัยโรค เป็นพื้นฐานส�ำคัญในการรกั ษา บรษิ ทั IBM ไดท้ ำ� การวจิ ยั โดยรวบรวมองคค์ วามรทู้ างการแพทยท์ มี่ ที วั่ โลก และการนำ� องคค์ วามรู้มาใช้ในการรักษาและประยุกต์เพื่อการรักษาอาการเจ็บไข้ของคนไข้แต่ละคน แบบจ�ำลองที่บริษัท IBM ได้มสธด�ำเนินการประกอบด้วย อาการเจ็บไข้ ประวัติของคนไข้ ประวัติการรักษา ข้อมูลอื่น ๆ ท่ีเกี่ยวข้อง ซึ่งข้อมูลการรักษาในอดีต อาจจะเป็นข้อมูลพื้นฐานท่ีส�ำคัญในการท�ำนายอาการเจ็บป่วยท่ีอาจจะใกล้เคียงกันได้ ช่วยท�ำให้มีการจัดเก็บองค์ความรู้และตัวอย่างการรักษา เพ่ือมาท�ำนายอาการเจ็บป่วยของคนไข้ได้รวดเร็วข้ึนนอกจากนั้นยังมีการน�ำอุปกรณ์เซ็นเซอร์การเต้นหัวใจเพ่ือช่วยแจ้งเตือนเกี่ยวกับปัญหาสุขภาพได้ เป็นต้น 2.2.3 การประยกุ ตใ์ นงานดา้ นอนื่ ๆ ในทำ� นองเดยี วกนั อาจจะวเิ คราะหข์ อ้ มลู โดยใชแ้ ขนงทางมสธ มสธแบบเดียวกัน เช่น การวิเคราะห์การระบาดของโรคติดต่อ การรักษาอาการเจ็บป่วย การโฆษณาสินค้าการออกแบบเส้ือผ้าและแฟชัน ซึ่งน�ำข้อมูลที่เก็บรวบรวมในอดีตมาวิเคราะห์และสร้างแบบจ�ำลองเพื่อท�ำนายแนวโน้มหรือพฤติกรรมท่ีจะเกิดข้ึนในอนาคตได้ หรือการสร้างเครือข่ายเพื่อใช้ประโยชน์ในงานที่สนใจด้านใด ๆ ได้ 2.3 พัฒนาผลิตภัณฑ์หรือบริการใหม่ การน�ำข้อมูลขนาดใหญ่มาใช้ในการพัฒนาผลิตภัณฑ์หรือบริการใหม่ (New Product Develpment) เป็นการน�ำแนวคิดใหม่ ๆ เกี่ยวกับการใช้ข้อมูลขนาดใหญ่ เพื่อมสธสร้างผลิตภัณฑ์หรือบริการรูปแบบใหม่ ๆ เช่น
1-18 การวิเคราะห์ข้อมูลใหญ่สำ�หรับธุรกิจ 2.3.1 ธุรกิจประกันภัยรถยนต์ (Flexible auto insurance) มีการน�ำข้อมูลจากระบบ GPSมสธ(Global Positioning System) ซ่ึงเป็นอุปกรณ์ท่ีติดต้ังในรถยนต์ ซึ่งท�ำหน้าท่ีเป็นระบบน�ำทางเพื่อบอกตำ� แหนง่ ทร่ี ถยนตจ์ ะเดนิ ทางไปทำ� งานรว่ มกบั แผนทท่ี ใี่ ชใ้ นระบบนำ� ทาง (GPS Navigator) และ ระบบตดิ ตามรถยนต์หรือยานหาหนะ (GPS Tracking) โดยจะเก็บต�ำแหน่งการเดินทางตลอดเวลา เพื่อน�ำข้อมูลท่ีบันทึกไว้มาใช้ประโยชน์ในการบริหารจัดการยานพาหนะในเชิงการค้าพาณิชย์ รวมท้ังสามารถติดตามส่ิงของท่ีอยู่มสธ มสธในยานพาหนะ ซึ่งใชเ้ ปน็ เครือ่ งมือในการบรหิ ารจัดการการขนสง่ ในกลุ่มธุรกิจขนสง่ สินค้า ธุรกจิ บริการ ธรุ กจิขนส่งผู้โดยสาร และรถสาธารณะต่าง ๆ รวมถึงการป้องกันการสูญเสียจากการขนส่งในทุกข้ันตอน ซึ่งมีการประยุกต์มาใช้ในธุรกิจประกันรถยนต์เพ่ือการบริหารจัดการที่มีประสิทธิภาพมากขึ้น 2.3.2 การส่งเสริมการขายของธุรกิจค้าปลีก (Location based retail promotion) เป็นการน�ำข้อมูลท่ีได้จากโซเชียลมีเดีย ซึ่งมีข้อมูลส่วนตัว ร่วมกับข้อมูลท่ีได้จาก GPS มาวิเคราะห์และสร้างบริการใหม่ ๆ เพ่ือส่งเสริมการขายท่ีเจาะจง และตอบสนองความต้องการของลูกค้าแต่ละกลุ่มตามพ้ืนท่ีของกลุ่มมสธเป้าหมายได้ชัดเจนย่ิงข้ึน 2.3.3 การบริการเสนอแนะ (Recommendation Service) เป็นระบบการให้บริการเพื่อเสนอแนะน�ำสินค้าหรือบริการท่ีตรงกับความต้องการของลูกค้า (Similar) โดยการน�ำข้อมูลจากแหล่งต่าง ๆ ได้แก่จากเว็บไซต์อีคอมเมอร์ซ เว็บไซต์โซเชียลมีเดีย มาคัดกรอง (Filtering) เพ่ือสร้างรูปแบบสินค้า หรือบริการมสธ มสธแนะน�ำสินค้า หรือบริการที่ใกล้เคียงกันน�ำเสนอให้แก่ลูกค้า ระบบบริการเสนอแนะท�ำได้หลายรูปแบบ เช่นระบบแนะน�ำหนังสือของแอเมซอนท่ีมีการแนะน�ำหนังสือเล่มอื่น ๆ ท่ีลูกค้ามักจะซ้ือร่วมกัน (CollaborativeRecomendation) หรือระบบแนะน�ำภาพยนต์ที่มีดารายอดนิยม หรือผู้ก�ำกับที่ช่ืนชอบ (Content BasedRecomendation) เป็นต้น นอกจากประโยชน์ท่ีกล่าวข้างต้น อาจจะมีการน�ำเสนอประโยชน์อ่ืน ๆ ซ่ึงข้ึนกับมุมมองในเร่ืองน้ัน ๆ มสธหลงั จากศึกษาเน้อื หาสาระเรื่องที่ 1.1.2 แล้ว โปรดปฏบิ ตั กิ ิจกรรม 1.1.2มสธ มสธ มสธในแนวการศึกษาหน่วยท่ี1ตอนที่1.1เรอ่ื งท่ี1.1.2
หลักการของข้อมูลขนาดใหญ่ 1-19มสธเรอ่ื งที่ 1.1.3 ประเภทของขอ้ มลู ขนาดใหญ่ ข้อมูลเกิดข้ึนในทุก ๆ วินาทีท่ัวโลก ท้ังในที่ท�ำงานและในชีวิตประจ�ำวัน ข้อมูลขนาดใหญ่มีท่ีมาจากมสธ มสธแหล่งต่าง ๆ ทั้งจากในองค์กรต่าง ๆ เคร่ืองจักร เซ็นเซอร์ต่าง ๆ ที่สร้างข้อมูลและจัดเก็บข้อมูลตลอดเวลาอย่างต่อเน่ือง อุปกรณ์เคลื่อนที่และสื่อสังคมที่ใช้ในการติดต่อสื่อสารกันทุกที่ทุกเวลา ข้อมูลขนาดใหญ่เหลา่ นมี้ รี ปู แบบแตกตา่ งกนั แยกเปน็ ประเภทตา่ ง ๆ ไดแ้ ก่ ขอ้ มลู มโี ครงสรา้ ง กง่ึ โครงสรา้ ง และไมม่ โี ครงสรา้ ง1. ขอ้ มูลทม่ี ีโครงสรา้ ง ข้อมูลท่ีมีโครงสร้าง (Structured data) หมายถึง ข้อมูลท่ีมีการก�ำหนดรูปแบบและรายละเอียดมสธของข้อมูลอย่างชัดเจน เทคโนโลยีท่ีนิยมในการจัดเก็บข้อมูลแบบมีโครงสร้าง ได้แก่ ฐานข้อมูลแบบสัมพันธ์เปน็ การจดั เกบ็ ขอ้ มลู ไวใ้ นตาราง 2 มติ ิ ประกอบดว้ ย แถว (row) และคอลมั น์ (column) โดยจะมกี ารกำ� หนดรายละเอียดในตารางโดยจะต้องมีการออกแบบตารางไว้ล่วงหน้า ได้แก่ การก�ำหนดตารางในฐานข้อมูล และในแต่ละตารางจะประกอบด้วยข้อมูลย่อยอะไรบ้าง โครงสร้างของตารางฐานข้อมูลค่อนข้างจะคงที่ ไม่มสธ มสธเปลย่ี นแปลงอยา่ งรวดเรว็ นกั ดงั ภาพที่ 1.9 ตวั อยา่ งการจดั เกบ็ ขอ้ มลู ทม่ี โี ครงสรา้ งของฐานขอ้ มลู แบบสมั พนั ธ์ประกอบด้วย ข้อมูลลูกค้า ที่เช่ือมโยงกับข้อมูลพนักงาน และข้อมูลสินค้า ในส่วนของข้อมูลลูกค้า ประกอบด้วย รหัสลูกค้า ช่ือ-นามสกุล ที่อยู่ เป็นต้น จะเห็นว่าข้อมูลท่ีจัดเก็บมีการก�ำหนดรายละเอียดอย่างชัดเจนเชน่ รหสั ลกู คา้ กำ� หนดไวใ้ หเ้ ปน็ ขอ้ มลู เฉพาะตวั เลขเทา่ นน้ั ความยาวคงที่ เชน่ ความยาว 8 หลกั , ชอื่ นามสกลุเป็นข้อมลู ท่ีเป็นตัวอักษรและมีความยาวไมเ่ กิน 40 ตัวอกั ษร สำ� หรบั ข้อมลู ทอี่ ยจู่ ะเป็นท้งั ตัวเลขและตวั อักษรมีความยาวไม่เกิน 60 ตัวอักษร, รหัสสินค้า เป็นตัวเลขผสมตัวอักษร มีความยาว 5 หลัก เป็นต้น ซ่ึงข้อมูลมสธที่เกิดข้ึนและจัดเก็บในฐานข้อมูลจะต้องเป็นไปตามโครงสร้าง และตามรูปแบบท่ีก�ำหนดเท่านั้น หากข้อมูลไม่ตรงกับโครงสร้างหรือไม่เป็นไปตามเงื่อนไขตามรูปแบบที่ก�ำหนด จะไม่สามารถจัดเก็บในตารางฐานข้อมูลมสธ มสธ มสธได้
1-20 การวิเคราะห์ข้อมูลใหญ่สำ�หรับธุรกิจมมสสธธ มมมสสสธธธ มมสสธธภาพที่1.9ตวั อย่างการจัดเกบ็ ขอ้ มูลทมี่ ีโครงสร้างของฐานข้อมลู แบบสมั พันธ์ 1.1 ภาษาท่ีใช้จัดการข้อมูลส�ำหรับฐานข้อมูลแบบสัมพันธ์ คือ ภาษา SQL (Structure QueryLanguage) เพ่ือการสร้างตาราง การน�ำข้อมูลเข้าจัดเก็บในตาราง รวมทั้งการน�ำข้อมูลจากตารางออกมามสธ มสธใช้งาน 1.2 แหล่งก�ำเนิดข้อมูลที่มีโครงสร้าง มักจะเกิดจากการท�ำธุรกรรมของธรุกิจ เช่น ระบบ ERP(Enterprise Resource Planning) ระบบ CRM (Customer Relationship Management) ซึ่งเป็นข้อมูลภายในองค์กร นับต้ังแต่ ระบบการผลิต ระบบการขายสินค้า ระบบการส่ังซื้อสินค้า ระบบการจัดส่งสินค้าระบบบัญชี และการทรัพยากร เป็นต้น ซึ่งปัจจุบันน้ีข้อมูลท่ีมีโครงสร้างปริมาณข้อมูลน้อยมากเมื่อเทียบกับมสธข้อมูลรูปแบบอื่น ๆ
หลักการของข้อมูลขนาดใหญ่ 1-21 1.3 การน�ำข้อมูลเพื่อการวิเคราะห์และการตัดสินใจ มักจะใช้ท�ำได้ง่ายนิยมใช้คลังข้อมูล ผ่านมสธกระบวนการ ETL (Extract Transform Load) เพื่อน�ำข้อมูลท่ีเกิดขึ้นท้ังจากภายในและภายนอกองค์กรเพ่ือด�ำเนินการวิเคราะห์และออกรายงานเพ่ือช่วยตัดสินใจ2. ขอ้ มลู กงึ่ โครงสร้างมสธ มสธข้อมูลกึ่งโครงสร้าง (Semi-structured Data) ข้อมูลกึ่งโครงสร้างแต่ละประเภทมีรูปแบบและรายละเอียดท่ีแตกต่างกัน แต่ส่ิงหน่ึงท่ีเหมือนกันคือ จะต้องมีการก�ำหนดแท็ก (Tag) หรือเคร่ืองหมายพิเศษ เพ่ือแบ่งแยกรายละเอียดหรือองค์ประกอบแต่ละส่วนของข้อมูลน้ัน ๆ ตัวอย่างของข้อมูลแบบก่ึงโครงสร้าง เช่น 2.1 ซเี อสวี (Comma Separated Value: CSV) เป็นไฟล์ข้อความ (Text File) ประเภทหนึ่ง ท่ีมีนามสกุล .CSV ใช้ส�ำหรับเก็บข้อมูลในรูปแบบตาราง โดยใช้เคร่ืองหมายจุลภาคหรือคอมม่า (,) ในการแบ่งมสธแต่ละคอลัมน์ ข้อมูลประเภทนี้สามารถบันทึกข้อมูลจาก Microsoft Excel ออกมาเป็น CSV ไฟล์ได้โดยตรงหรืออาจจะได้ไฟล์ CSV จากการ export ไฟล์จากระบบฐานข้อมูลอื่น ๆ ตัวอย่างเช่น การใช้โปรแกรมMicrosoft Excel ในการเปิดไฟล์ เพื่อให้แสดงผลในรูปแบบตาราง และท�ำให้อ่านออกได้ง่าย และสะดวกใช้งานมากข้ึน ดังภาพท่ี 1.10 ข้อมูลใน CSV File ท่ีแสดงผลด้วย Excel ภาพที่ 1.11 ข้อมูลใน CSV Fileมสธ มสธท่ีแสดงผลด้วยNotepadมสธ มมสสธธ มสธภาพท่ี1.10ขอ้ มูลในCSVFileที่แสดงผลด้วยExcel
1-22 การวิเคราะห์ข้อมูลใหญ่สำ�หรับธุรกิจมสธ มสธ มสธภาพท่ี1.11ขอ้ มูลในCSVFileทแี่ สดงผลดว้ ยNotepad 2.2 เอก็ ซเ์ อม็ แอล (eXtensible Markup Languages: XML) เปน็ ขอ้ มลู แบบกงึ่ โครงสรา้ งอกี ประเภทมสธหน่ึงที่มีรูปแบบแฟ้มข้อความ (Text File) ลักษณะหน่ึง ประกอบด้วย ส่วนที่เป็นโครงสร้างของข้อมูลและส่วนท่ีเป็นเน้ือข้อมูลไว้ด้วยกัน โดยของโครงสร้าง จะประกอบด้วยแท็ก (Tag) ท่ีเป็นแท็กเปิด และแท็กปิดซึ่งผู้สร้างข้อมูลสามารถก�ำหนดช่ือแท็กได้เอง เช่น ภาพท่ี 1.12 ตัวอย่างข้อมูลเอ็กเอ็มแอล ประกอบด้วยแท็กเปิดช่ือ <address_book> และแท็กปิดช่ือ </address_book> เพื่อระบุว่าชื่อของข้อมูลของเอ็กเอ็มแอลว่ามสธ มสธเป็นเร่ืองเกี่ยวกับอะไร โดยส่วนของโครงสร้างข้อมูล มีช่ือแท็กย่อยท่ีแท็กเปิด ชื่อ <person> แท็กปิดคือ</person> และมีส่วนของเน้ือข้อมูล ได้แก่ Gender=“M” และมีแท็กย่อยเพ่ือระบุโครงสร้างข้อมูลถัดไปคือ <name> มีค่าของข้อมูล คือ Jane Doe ซึ่งจะเห็นว่ามีการก�ำหนดโครงสร้างคือ แท็ก และค่าของข้อมูลของแต่ละแท็กควบคู่กันไปมสธ มมสสธธ มสธภาพท่ี1.12ขอ้ มูลก่งึ โครงสรา้ งแบบเอก็ ซเ์อ็มแอล
หลักการของข้อมูลขนาดใหญ่ 1-23 2.3 เจสัน (JavaScript Object Notation: JSON) เป็นไฟล์การจัดเก็บข้อมูลที่เป็นข้อความ (TextมสธFile) มนุษย์และโปรแกรมคอมพิวเตอร์สามารถอ่านเข้าใจได้ มีโครงสร้างประกอบด้วย ส่วนที่เป็นเป็นสตริง(String) และส่วนท่ีเป็นค่าของข้อมูล (Value) เช่น ภาพที่ 1.13 ข้อมูลกึ่งโครงสร้างแบบเจสัน มีส่วนที่เป็นสตริงเพื่อระบุโครงสร้าง และค่าของข้อมูล ได้แก่ firstName มีค่าคือ “John” เป็นต้นมมสสธธ มสธ มมสสธธภาพท่ี1.13ขอ้ มลู กึง่ โครงสร้างแบบเจสนั 3. ข้อมลู ทีไ่ มม่ โี ครงสร้าง ข้อมูลท่ีไม่มีโครงสร้าง (Unstructured data) หมายถึง ข้อมูลที่ไม่สามารถก�ำหนดรูปแบบหรือมสธโครงสร้างท่ีชัดเจนได้ หรือกล่าวอีกนัยคือ มีรูปแบบโครงสร้างข้อมูลไม่แน่นอน ไม่ตายตัว ไม่สามารถระบุว่าขอ้ มลู ยอ่ ยแตล่ ะสว่ น มโี ครงสรา้ งอะไร ความยาวเทา่ ไร ไมส่ ามารถจดั เกบ็ ในฐานขอ้ มลู แบบสมั พนั ธ์ เนอื่ งจากไม่มีรูปแบบข้อมูลตามที่ก�ำหนดในฐานข้อมูลแบบสัมพันธ์ ข้อมูลไม่มีโครงสร้างส่วนใหญ่จะมาจากคนที่ใช้งานต่าง ๆ เช่น อีเมล์ การส่งข้อความ ภาพถ่ายในโซเชียลมีเดีย หรือข้อมูลที่เกิดจากอุปกรณ์ท�ำงานอัตโนมัติท่ีส่งสัญญาณในรูปแบบของคล่ืน ของเซ็นเซอร์ หรือข้อมูลวิดีโอ เป็นต้นมสธ มสธปัจจุบันข้อมูลท่ีไม่มีโครงสร้างมีมากกว่า 90% ของข้อมูลทั้งหมด ซึ่งการน�ำข้อมูลที่ไม่มีโครงสร้างมาประมวลผลเป็นเรื่องที่ค่อนข้างยุ่งยาก เนื่องจากเทคโนโลยีที่ใช้ส่วนใหญ่สร้างและออกแบบรองรับการท�ำงานส�ำหรับข้อมูลท่ีมีโครงสร้าง โดยใช้ฐานข้อมูลแบบสัมพันธ์ อย่างไรก็ตามขณะนี้ในยุคข้อมูลขนาดใหญ่มีการสร้างเทคโนโลยี และพัฒนาเทคนิคใหม่ มาให้ท�ำงานกับข้อมูลท่ีไม่มีโครงสร้างมากข้ึน เช่น การใช้เทคโนโลยี Machine Learning มาเรียนรู้การวิเคราะห์ในเรื่องท่ีสนใจ การท�ำงานด้วยระบบฐานข้อมูลในมสธรูปแบบใหม่ เป็นต้น ตัวอย่างข้อมูลที่ไม่มีโครงสร้าง (ภาพท่ี 1.14) เช่น
1-24 การวิเคราะห์ข้อมูลใหญ่สำ�หรับธุรกิจ 3.1 ข้อความ (Text) เป็นข้อมูลที่ไม่มีโครงสร้าง ตัวอย่างข้อมูลท่ีเป็นข้อความ ได้แก่ หนังสือมสธบทความ วารสาร เอกสาร ประวัติการรักษาพยาบาล ข้อความท่ีโพสต์ในโซเชียลมีเดีย ข้อความในเอกสารส่ิงพิมพ์ต่าง ๆ ข้อความในอีเมล ข้อมูลเนื้อหาบนเว็บไซต์ ฯลฯ การน�ำข้อมูลท่ีไม่มีโครงสร้างที่เป็นข้อความมาใช้ในการวิเคราะห์และตัดสินใจท�ำได้ยาก เน่ืองจากรูปแบบท่ีไม่เป็นโครงสร้าง อีกทั้งความหมายของข้อความที่หลากหลายขึ้นกับเน้ืองาน และเจตนาในการสื่อสารของผู้ส่งข้อความมสธ มสธ3.2 เอกสารท่ีสรา้ งขน้ึ เช่น PDF เอกสารภาพ เป็นต้นมสธ มสธ มสธภาพที่1.14ข้อมูลท่ีไม่มโี ครงสร้างทม่ี า: http://kaurchanpreet.blogspot.com/2015/02/data-and-data-warehouse-scope.html 3.3 เสียงเพลง เสียงพดู ภาพยนตร์ ผ่านอปุ กรณเ์ คลอ่ื นที่ (Data via Mobile Device) ที่ใช้ติดต่อมสธสอื่ สารกนั เชน่ การพดู คยุ ผา่ นอปุ กรณเ์ คลอ่ื นที่ การสง่ ขอ้ ความแบบสนั้ ๆ (Short Message Service-SMS)รวมถึงข้อมูลบอกต�ำแหน่งท่ีอยู่ 3.4 สญั ญาณเซ็นเซอร์ ข้อมูลแผนที่ (geospatial data) เช่น ภาพถ่ายจากดาวเทียมเพ่ือพยากรณ์สภาพอากาศ ทรัพยากรธรรมชาติ และภัยธรรมมชาติ เป็นต้น 3.5 ขอ้ มูลแผนท่ี เช่น ข้อมูลแผนที่กูเกิล ฯลฯมสธ มสธ3.6 ข้อมูลจากกล้องวิดโี อและกล้องวงจรปิด เป็นข้อมูลท่ีเป็นวิดีโอ บันทึกเหตุการณ์ต่าง ๆ ท่ีเกิดข้ึน เพื่อการรักษาความปลอดภัย เป็นต้น หลงั จากศกึ ษาเน้อื หาสาระเรื่องที่ 1.1.3 แลว้ โปรดปฏิบตั ิกจิ กรรม 1.1.3 มสธในแนวการศึกษาหน่วยที่ 1 ตอนที่ 1.1 เร่ืองท่ี 1.1.3
หลักการของข้อมูลขนาดใหญ่ 1-25มสธตอนที่ 1.2หลักการพื้นฐานของข้อมูลขนาดใหญ่มสธ มสธโปรดอา่ นแผนการสอนประจำ� ตอนท่ี 1.2 แลว้ จึงศกึ ษาเนื้อหาสาระ พรอ้ มปฏิบัตกิ ิจกรรมในแต่ละเรอ่ื ง หัวเร่อื ง เรื่องที่ 1.2.1 สถาปัตยกรรมของข้อมูลขนาดใหญ่ เรื่องที่ 1.2.2 หลักการท�ำงานของข้อมูลขนาดใหญ่ มสธแนวคดิ 1. ส ถาปัตยกรรมของข้อมูลขนาดใหญ่ในที่น้ี แบ่งเป็นด้วย 3 ส่วนหลัก คือ 1) แหล่งข้อมูล ขนาดใหญ่ มาจากแหล่งต่าง ๆ 2) ระบบนิเวศของข้อมูลขนาดใหญ่ ประกอบด้วย โครงสร้างพ้ืนฐาน ระบบแฟ้มข้อมูลแบบกระจาย ส่วนรวมข้อมูล หรือดาตาอินเจสชัน ส่วนประมวลผลข้อมูล แบ่งเป็น การประมวลผลแบบแบตช์ และการประมวลผลมสธ มสธแบบเรียลไทม์ ส่วนของจัดการข้อมูล เป็นฐานข้อมูลแบบโนเอสคิวแอล 3) การน�ำข้อมูล ไปใช้งาน แบ่งเป็นการวิเคราะห์ข้อมูลและการน�ำเสนอข้อมูล 2. ห ลักการท�ำงานของข้อมูลขนาดใหญ่ ประกอบด้วย ระบบแฟ้มข้อมูลแบบกระจาย น�ำ ข้อมูลที่รับเข้ามา กระจายไปยังคอมพิวเตอร์ที่เช่ือมโยงกันในเครือข่ายท�ำงานแบบคู่ขนาน นำ� ผลลพั ธท์ แ่ี ยกสว่ นกนั ทำ� งานมารวมกนั ความสามารถในการขยายระบบการทำ� งาน แบง่ เปน็ สเกลอปั และสเกลเอาต์ ความคงทนตอ่ ความเสยี หาย เปน็ การทำ� ใหร้ ะบบคอมพวิ เตอร์ มสธสามารถท�ำงานได้อย่างต่อเนื่องถึงแม้ว่าในระหว่างการท�ำงานจะพบความผิดปกติของ ระบบทเี่ กดิ ขน้ึ การทำ� งานของขอ้ มลู ขนาดใหญร่ องรบั การปฏบิ ตั งิ านขอ้ มลู ขนาดใหญ่ และ ความคงทนต่อความเสียหายมสธ มสธวตั ถุประสงค์ เม่ือศึกษาตอนที่ 1.2 จบแล้ว นักศึกษาสามารถ 1. อธิบายสถาปัตยกรรมของข้อมูลขนาดใหญ่ได้ มสธ2. อธิบายหลักการท�ำงานของข้อมูลขนาดใหญ่ได้
มสธเรอื่ งที่ 1.2.1 สถาปตั ยกรรมของข้อมูลขนาดใหญ่1-26 การวิเคราะห์ข้อมูลใหญ่สำ�หรับธุรกิจ สถาปัตยกรรมของข้อมูลขนาดใหญ่ในที่นี้ แบ่งเป็นด้วย 3 ส่วนหลัก คือมสธ มสธ• แหล่งข้อมูลขนาดใหญ่ (Big Data Source) • ระบบนิเวศของข้อมูลขนาดใหญ่ (Big Data Ecosystem) • การน�ำข้อมูลไปใช้งาน (Big Data Consumption) BIG DATA BIG DATA ECOSYSTEM DATA SOURCE CONSUMPTIONData Real Time/ Data มสธBusnessIngest Streamming Orga- Data Processing nizing Analysis Generated Data Human Batch Data Processing Presentationมสธ มสธGeneratedData Machine Distributed File System Generated Data Compute, Storage, Network Infrastructure มสธภาพที่ 1.15 สถาปัตยกรรมของข้อมลู ขนาดใหญ่ 1. แหลง่ ข้อมลู ขนาดใหญ่ แหล่งข้อมูลที่ท�ำให้เกิดข้อมูลขนาดใหญ่ (Big Data Source) ประกอบด้วย 3 กลุ่มหลัก ได้แก่ • ข้อมูลท่ีเกิดจากการท�ำธุรกิจหรือองค์กร (Business/Organization Generated Data)มสธ มสธ• ข้อมูลที่เกิดจากคน (Human Generated Data) • ขอ้ มลู ทเี่ กดิ จากจากเครอ่ื งจกั ร หรอื อปุ กรณอ์ ตั โนมตั ติ า่ ง ๆ (Machine Generated Data) ภาพท่ี 1.16 จะเห็นว่า ปริมาณข้อมูลจริงท่ีเกิดข้ึนส่วนใหญ่ จะมาจากคนและเครื่องจักรมากกว่า90% ของข้อมูลทั้งหมด โดยกลุ่มธุรกิจหรือองค์กร จะมีการสร้างข้อมูลในปริมาณน้อยสุด ขณะท่ีข้อมูลท่ีเกิดมสธจากกลุ่มเครื่องจักรหรืออุปกรณ์ต่าง ๆ มีปริมาณมากกว่าข้อมูลท่ีเกิดจากจากธุรกิจเกือบ 100 เท่า
หลักการของข้อมูลขนาดใหญ่ 1-27มสธ มสธ มสธภาพท่ี1.16แหลง่ ข้อมลู ขนาดใหญ่มสธที่มา: https://www.slideshare.net/hdscorp/capitalize-on-big-data-through-hitachi-innovation 1.1 ขอ้ มลู ของธรุ กจิ หรอื องคก์ ร (Business/Organization Generated Data) เปน็ แหลง่ ขอ้ มลู ภายในองคก์ ร เพอ่ื ใชใ้ นการทำ� ธรุ กจิ หรอื กจิ กรรมตา่ ง ๆ การเกดิ ขอ้ มลู ของขอ้ มลู ขนาดใหญใ่ นกลมุ่ น้ี ขนึ้ กบั ลกั ษณะมสธ มสธของธุรกิจแต่ละประเภท ได้แก่ การท�ำธุรกรรมผ่านอีคอมเมิร์ซ ธุรกรรมการฝากถอนเงิน ข้อมูลเปิดเผยต่อสาธารณะของหน่วยงานภาครัฐ ข้อมูลยอดขาย ข้อมูล ERP ข้อมูลบุคลากรซึ่งจัดเก็บประวัติของพนักงานเปน็ ตน้ ขอ้ มลู เหลา่ นจี้ ะเปน็ ขอ้ มลู ภายในองคก์ รเทา่ นน้ั ลกั ษณะการใชข้ อ้ มลู ในกลมุ่ นเี้ ปน็ Silo หมายความวา่การเชื่อมต่อกับข้อมูลภายนอกมีจ�ำกัดเฉพาะการท�ำธุรกรรมเท่าน้ัน หน่วยงานธุรกิจมีการจัดเก็บข้อมูลท่ีเป็นโครงสร้างชัดเจน มักจะจัดเก็บในฐานข้อมูลแบบสัมพันธ์ หรืออาจจะเป็นแฟ้มข้อมูลทั่วไป เช่น ข้อมูล ERPได้แก่ ข้อมูลระบบบัญชี ข้อมูลบุคลากร ข้อมูลการผลิต การสั่งซ้ือสินค้า การติดต่อกับซัพพลายเออร์ การมสธบริหารโครงการ ขอ้ มลู การบริหารจดั การบริการลกู ค้า ขอ้ มูลการขาย ขอ้ มลู การตลาด ขอ้ มลู บรกิ ารลูกค้าผ่านcall center ข้อมูล Social media เป็นต้น ข้อมูลเอกสารในส�ำนักงาน เช่น ข้อมูลใบเสร็จ รายงานประจ�ำปีเอกสารในการท�ำงานต่าง ๆ เป็นต้น ภาพท่ี 1.17 การเก็บข้อมูลยอดขายในฐานข้อมูลแบบสัมพันธ์ที่มีการก�ำหนดรูปแบบ ท่ีแน่นอนตายตัว เพ่ือใช้ในสอบถาม (Query) น�ำข้อมูลออกมาใช้ได้ง่าย อย่างไรก็ตามข้อมูลท่ีเกิดขึ้นในกลุ่มน้ี มีปริมาณน้อยมากเม่ือเทียบกับสองกลุ่มหลังมสธ มสธ มสธภาพที่1.17ขอ้ มลู ท่ีเกิดท่ีเกดิ จากท�ำธรุ กิจ
1-28 การวิเคราะห์ข้อมูลใหญ่สำ�หรับธุรกิจ 1.2 ขอ้ มลู ทเ่ี กดิ จากคน (Human Genertaed Data) ผู้ใช้งานท่ัวไปท�ำให้เกิดข้อมูล ซึ่งการเกิดของมสธข้อมูลอาจจะผ่านอุปกรณ์หรือเคร่ืองมือต่าง ๆ ผ่านเครือข่ายโซเชียลมีเดีย ดังภาพท่ี 1.18 ข้อมูลที่เกิดขึ้นเหล่าน้ี มักจะเป็นข้อมูลท่ีไม่มีโครงสร้างชัดเจน (Unstructured Data) นั่นคือรูปแบบข้อมูลไม่แน่นอนซึ่งแตกต่างจากการเกิดข้อมูลในองค์กรที่ก�ำหนดรูปแบบไว้ชัดเจน (Structured Data) เช่น 1.2.1 การน�ำภาพถ่าย หรือข้อความไว้ใน Facebook หรือ Instragram หรือ Twitterมสธ มสธ1.2.2 การน�ำส่ือวิดีโอ เช่น เพลง ภาพยนต์ ขึ้นไว้ที่ YouTube เป็นต้น 1.2.3 ข้อมูลมหาศาลจากการใช้งานผ่าน Blog หรือการแสดงความเห็น (Comment) หรือการรีวิวผ่านเว็บต่าง ๆ รวมถึงการค้นหาข้อมูลในแต่ละวัน การดูหนัง ฟังเพลง เป็นต้น 1.2.4 การส่งอีเมล์ การส่งเอกสาร เป็นต้นมสธ มสธ มสธภาพที่1.18การเกดิ ข้อมลู ขนาดใหญจ่ ากผใู้ ช้งาน มสธ1.3 ขอ้ มลู ที่เกิดจากเคร่ืองจักร (Machine Generated Data) เป็นข้อมูลที่เกิดขึ้นอัตโนมัติโดยผ่านอุปกรณ์ต่าง ๆ เช่น เซ็นเซอร์ วิดีโอ ดาวเทียม ข้อมูลชีวภาพ (Bio Infomatics) ข้อมูลล็อก (Log File) ข้อมูลเหล่าน้ีเกิดขึ้น และส่งผ่านระหว่างอุปกรณ์ต่าง ๆ ท�ำให้เกิดข้อมูลขนาดใหญ่ในปริมาณมาก ๆ เนื่องจากการเกิดข้อมูลที่ต่อเนื่องได้ทุกท่ีตลอดเวลา ข้อมูลในกลุ่มน้ีมักจะเป็นข้อมูลท่ีไม่มีโครงสร้างท่ีชัดเจน เช่น อาจจะภาพถ่าย หรือเป็นวิดีโอ เป็นต้น ได้แก่มสธ มสธ1.3.1 IoT (Internet of Thing) เป็นสภาพแวดล้อม ประกอบด้วย สรรพส่ิงท่ีสามารถส่ือสารและเช่ือมต่อกันได้ผ่านอินเทอร์เน็ต ด้วยโพรโทคอลการสื่อสารท้ังแบบใช้สายและไร้สาย โดยสรรพสิ่งต่าง ๆมีวิธีการระบุตัวตนได้ รับรู้บริบทของสภาพแวดล้อมได้ และปฏิสัมพันธ์โต้ตอบและท�ำงานร่วมกันได้ เป็นการเชื่อมต่อ สื่อสารและท�ำงานร่วมกันระหว่างเคร่ืองจักร มนุษย์ และข้อมูล 1.3.2 เซน็ เซอร์ และระบบสมองกล ฝงั ตวั ส่วนใหญ่ใช้ในอุตสาหกรรมการผลิตร่วมกับระบบการท�ำงานของหุ่นยนต์ หรือธุรกิจขนส่ง รวมถึงการส่ือสารแบบไร้สายที่ใช้พลังงานต่าง ๆ อาทิ Zigbee,มสธ6LowPAN, Low-power Bluetooth และเทคโนโลยีการประมวลผลแบบคลาวด์
หลักการของข้อมูลขนาดใหญ่ 1-29 1.3.3 RFID (Radio Frequency Identification) เพ่ือตรวจจับสัญญาณซึ่งจะมีการส่งและรับมสธข้อมูล เช่น การติดตามการส่งสินค้า ต�ำแหน่งที่ต้ังของสินค้า หรือสถานท่ี ระบบจ่ายเงินทางด่วนอัตโนมัติ ซึ่งจะมีระบบเชื่อมต่อไปยังระบบฐานข้อมูลการช�ำระเงินของผู้ใช้ทางด่วน ระบบหุ่นยนต์อัตโนมัติในการผลิตในโรงงานอุตสาหกรรมซึ่งจะมีการเช่ือมต่อส่งผ่านข้อมูลในระบบการท�ำงาน 1.3.4 ระบบ GPS (Global Positioning System) เพ่ือติดตามต�ำแหน่งของรถยนต์ หรือสินค้ามสธ มสธที่ขนส่ง ระบบ GPS และน�ำทางระบบการขนส่งทางอากาศ ซ่ึงจะต้องมีระบบการติดต่อส่ือสารกับภาคพ้ืนดินเป็นต้น 1.3.5 อุปกรณ์ท่ีสวมใส่เพื่อติดตามด้านสุขภาพ (Wearable Device) เช่น นาฬิกาตรวจสอบชีพจรการเต้นหัวใจท่ีเชื่อมต่อกับอินเทอร์เน็ต และสามารถวิเคราะห์ผลได้ทันทีแบบอัตโนมัติ ดังภาพที่ 1.19ข้อมูลที่เกิดจากอุปกรณ์ท่ีสวมใส่เพ่ือวัดอุณหภูมิร่างกาย อัตราการเต้นหัวใจ ระยะทางที่เดินในแต่ละวันเป็นต้นมสธ มมสสธธ มสธภาพที่1.19อปุ กรณส์ วมใสเ่พือ่ ติดตามด้านสุขภาพ(WearableDevice)2. ระบบนเิ วศของขอ้ มูลขนาดใหญ่มสธ มสธระบบนเิ วศของขอ้ มลู ขนาดใหญ่ (Big Data Ecosystem) ประกอบดว้ ยสว่ นยอ่ ย ๆ ไดแ้ ก่ (ภาพที่1.20) 2.1 โครงสร้างพื้นฐาน (Infrastructure) 2.2 ระบบแฟ้มข้อมูลแบบกระจาย (Distributed File System) 2.3 ส่วนรวมข้อมูลหรือดาตาอินเจสชัน (Data Ingestion) 2.4 ส่วนประมวลผลข้อมูล (Data Processing) มสธ2.5 ส่วนจัดการข้อมูล (Data Organizing)
มสธBIG DATA1-30 การวิเคราะห์ข้อมูลใหญ่สำ�หรับธุรกิจ SOURCE BIG DATA ECOSYSTEM DATA Busness CONSUMPTION Generated DataData Real Time/ DataIngest Streamming Orga- Dataมสธ มสธHuman Processing nizing Analysis Generated Data Batch Data Machine Processing Presentation Generated Data มสธภาพท่ี 1.20 สถาปตั ยกรรมของขอ้ มลู ขนาดใหญ่ (สว่ นของระบบนเิ วศของข้อมลู ขนาดใหญ่)Distributed File System Compute, Storage, Network 2.1 โครงสร้างพ้ืนฐาน (Infrastructure) ส่วนนี้เป็นส่วนของอุปกรณ์และโครงสร้างที่รองรับการ Infrastructureมสธ มสธท�ำงานประกอบด้วย ฮาร์ดแวร์ ซอฟต์แวร์ ระบบเครือข่าย และการบริหารจัดการทั้งหมด ความม่ันคงปลอดภัยของการท�ำงานของระบบต่าง ๆ รวมถึงคลาวด์เทคโนโลยีท่ีมีบทบาทมากย่ิงขึ้นเพ่ือใช้ในส่วนของธุรกิจและรองรับการท�ำงานของข้อมูลขนาดใหญ่มากข้ึน 2.2 ระบบแฟ้มข้อมูลแบบกระจาย (Distributed File System) เป็นระบบแฟ้มข้อมูลขนาดใหญ่ที่จัดเก็บข้อมูลกระจายตามโหนดซึ่งเป็นเคร่ืองคอมพิวเตอร์ท่ีอยู่ในคลัสเตอร์ ซ่ึงเป็นกลุ่มเครื่องคอมพิวเตอร์ที่เช่ือมโยงกันในเครือข่าย ในมุมมองของผู้ใช้งานจะเสมือนแฟ้มข้อมูลท่ีก�ำลังท�ำงานอยู่ในน้ันอยู่ในมสธคอมพิวเตอร์ของผู้ใช้งานนั้นเอง แต่ในความเป็นจริงข้อมูลท่ีใช้งานอยู่นั้น อาจอยู่ในเครื่องคอมพิวเตอร์อ่ืน ๆ ท่ีอยู่คนละเคร่ืองและห่างไกลออกไปก็ได้ ตัวอย่างระบบแฟ้มข้อมูลแบบกระจาย เช่น แฟ้มข้อมูลกระจายแบบฮาดูป (Hadoop Distributed File System: HDFS) โดยฮาดูป (Hadoop) เป็นซอฟต์แวร์ประเภทโอเพนซอร์ส (Open Source) ที่จัดท�ำขึ้นเป็นแพลตฟอร์มเพ่ือใช้ในการจัดเก็บข้อมูลและประมวลผลข้อมูลขนาดใหญ่ โดยจะประมวลผลข้อมูลแบบกระจายผ่านเครื่องคอมพิวเตอร์ที่ถูกจัดอยู่ในรูปแบบมสธ มสธคลัสเตอร์ (Cluster) ท�ำให้สามารถรองรับข้อมูลท่ีไม่จ�ำกัด แฟ้มข้อมูลกระจายแบบฮาดูป (HDFS) มีคุณสมบัติที่ส�ำคัญ คือ 2.2.1 ความสามารถในการรองรับการจัดเก็บข้อมูลขนาดใหญ่มาก ๆ ทุกประเภทได้อย่างรวดเร็ว ด้วยปริมาณข้อมูลในปัจจุบันท่ีเพ่ิมข้ึนอย่างต่อเนื่อง โดยเฉพาะจากโซเชียลมีเดีย และอินเทอร์เน็ตสรรพส่ิง (IoT: Internet of Thing) 2.2.2 การประมวลผล–รูปแบบการประมวลผลท่ีรวดเร็วจากการท�ำงานแบบคลัสเตอร์ จึงมสธท�ำให้ฮาดูป (Hadoop) กลายเป็นแพลตฟอร์มท่ีเป็นท่ีนิยมอย่างกว้างขวางในปัจจุบัน
หลักการของข้อมูลขนาดใหญ่ 1-31 2.2.3 มีระบบรองรับความผิดพลาด ด้วยการท�ำงานแบบคลัสเตอร์ เมื่อโหนดใดโหนดหนึ่งมสธเสียหาย งานที่มีการท�ำอยู่ในระบบจะถูกส่งไปยังโหนดอ่ืนในคลัสเตอร์ท�ำงานแทน เพ่ือให้เกิดความต่อเนื่องนอกจากนั้นยังมีการท�ำส�ำเนาข้อมูลเก็บไว้แบบอัตโนมัติหลายชุดกระจายในโหนดต่าง ๆ อีกด้วย 2.2.4 ความยืดหยุ่นในการใช้งาน ความสามารถในการขยายพื้นที่รองรับข้อมูลได้ไม่ส้ินสุดโดยการเพ่ิมโหนดเข้าไปใหม่ ก็สามารถรองรับการจัดเก็บข้อมูลไปได้เร่ือย ๆ ตามต้องการมสธ มสธ2.2.5 สามารถเก็บข้อมูลได้ทุกประเภท ปริมาณเท่าไรก็ได้ โดยไม่ต้องมีการแยกประเภทล่วงหน้า 2.2.6 ต้นทุนต่�ำ เน่ืองจากเป็นซอฟต์แวร์แบบโอเพนซอร์ส ไม่ต้องเสียค่าใช้จ่ายในการน�ำมาใช้งาน นอกจากระบบแฟ้มข้อมูลแบบกระจายฮาดูปแล้ว ยังมีระบบแฟ้มข้อมูลกระจายแบบอ่ืน ๆเช่น ระบบแฟ้มข้อมูลกูเกิล (Google File System) เป็นระบบแฟ้มข้อมูลท่ีพัฒนาเพื่อใช้งานของกูเกิล มีมสธการจัดเก็บข้อมูลไว้ใน Google Big Table ซึ่งเป็นข้อมูลที่ใช้ในแอปพลิเคชันต่าง ๆ ของกูเกิล เช่นกูเกิลเอิร์ธ (Google Earth) ซึ่งเป็นโปรแกรมที่ใช้ส�ำหรับการดูภาพถ่ายทางอากาศ พร้อมค้นหาเส้นทางผังเมือง แผนท่ีการคมนาคม เป็นต้น 2.3 ส่วนท่ีใช้ส�ำหรับรวมข้อมูลหรือดาตาอินเจสชัน (Data Ingestion) เป็นส่วนที่ท�ำหน้าท่ีรับและมสธ มสธรวมข้อมูลจากแหล่งข้อมูลต้นทาง เพื่อจัดเก็บที่ระบบแฟ้มข้อมูลแบบกระจายฮาดูป (HDFS) เพ่ือใช้งานในขั้นตอนต่อไป และในทางกลับกันอาจจะน�ำข้อมูลจากฮาดูปไปยังแหล่งข้อมูลอ่ืน ๆ ตัวอย่างเครื่องมือท่ีใช้รับและสง่ ขอ้ มลู (Data Ingest) เชน่ สคปู (Sqoop) (ภาพที่ 1.21) เปน็ ซอฟตแ์ วรใ์ ชส้ ำ� หรบั รบั รวมขอ้ มลู (Ingest)โดยการน�ำข้อมูลเข้าแบบแบตช์ จากแหล่งข้อมูลต้นทางที่จัดเก็บในฐานข้อมูลสัมพันธ์ โดยสคูปท�ำหน้าที่เคลื่อนย้ายข้อมูล (Import from RDMS) มาไว้ท่ีระบบแฟ้มข้อมูลฮาดูป (Hadoop Distributed File Sys-tem: HDFS) ในทางกลับกันก็น�ำข้อมูลจากฮาดูป (export) มาไว้ท่ีฐานข้อมูลแบบสัมพันธ์ได้มสธ มสธ มสธภาพที่ 1.21 การส่งถา่ ยขอ้ มูล (Data Ingestion) ส�ำหรับข้อมูลทมี่ ีโครงสรา้ งดว้ ย Sqoopมสธที่มา: https://www.slideshare.net/pavan5780/apache-sqoop-72298037
1-32 การวิเคราะห์ข้อมูลใหญ่สำ�หรับธุรกิจ ตัวอย่างการท�ำงานของฟลูม (Flume) (ภาพท่ี 1.22) เป็นซอฟต์แวร์โอเพนซอร์สเพื่อรวบรวมและมสธข้อมูลจากแหล่งข้อมูลต้นทางรูปแบบต่าง ๆ เช่น ข้อมูลแบบสตรีมมิง (Streaming Data Flow) ท่ีเกิดจากโซเชียลมีเดีย ได้แก่ เฟซบุ๊ก ทวิตเตอร์ เว็บเซิร์ฟเวอร์ เข้าสู่ระบบแฟ้มข้อมูลฮาดูป (HDFS) หรือ HBaseเป็นต้นมสธ มสธcloudมสธWeb senvers Flume Log/Event data HDFSLog/Event data generatorsFacebookTwitter Log/Event dataมสธ มสธภาพท่ี 1.21 รวมขอ้ มูล (Data Ingestion) ด้วยซอฟตแ์ วร์ฟลมูHBae Centralized storesทม่ี า: http://www.w2bc.com/article/156971 2.4 สว่ นประมวลผลขอ้ มูล (Data Processing) หลักการระบบประมวลผลในข้อมูลขนาดใหญ่ จะเป็นการท�ำงานแบบกระจาย (Distributed System) และการประมวลผลแบบคู่ขนาน (Parallel Procesing)แบ่งเป็น 2 ลักษณะ (ภาพท่ี 1.20) คือ 2.4.1 การประมวลผลแบบแบตช์ (Batch Processing) การประมวลผลแบบแบตช์โดยท่ัวไปมสธคือ การประมวลผลที่มีรวบรวมข้อมูลในปริมาณหน่ึงก่อนจึงท�ำการประมวลผล มักจะประมวลผลตามช่วงเวลาที่ก�ำหนดไว้ ตัวอย่างการประมวลผลแบบแบตช์ในธุรกิจท่ัวไป ซ่ึงใช้ข้อมูลจากภายในองค์กร เช่น การประมวลผลเงินเดือนของพนักงาน การจัดท�ำรายงานสรุปการขายในแต่ละวัน เป็นต้น การประมวลผลแบบแบตชใ์ นขอ้ มลู ขนาดใหญ่ เปน็ หลกั การประมวลผลแบบเดยี วกนั คอื ตอ้ งมีการรวบรวมข้อมูลไว้ก่อน แลัวรอประมวลผลพร้อมกันตามช่วงเวลาที่ธุรกิจก�ำหนดไม่ได้ประมวลผลทันทีมสธ มสธและแหล่งข้อมูลมาจากท่ีต่าง ๆ ทั้งภายในและภายนอกองค์กร การประมวลผลแบบแบตช์จะมีกระบวนการท�ำงานแบ่งแยกอย่างชัดเจนในแต่ละขั้นตอน นับต้ังแต่ การน�ำข้อมูลเข้า (input) การประมวลผล (process)และการได้ผลลัพธ์ (output) ตัวอย่างการประมวลผลแบบแบตช์ของข้อมูลขนาดใหญ่ในการวิเคราะห์ข้อมูลการพยากรณ์ การจัดท�ำรายงาน การศึกษาข้อมูลของลูกค้า (Customer Profiling) เช่น การวิเคราะห์ความคิดเห็นของลูกค้าและผู้เกี่ยวข้องเก่ียวสินค้าหรือบริการของธุรกิจ โดยใช้ข้อมูลท่ีลูกค้า หรือผู้ท่ีติดต่อกับมสธธุรกิจแสดงความคิดเห็นเกี่ยวกับสินค้าหรือบริการในสื่อต่าง ๆ เช่น อีเมล โซเชียลมีเดีย ฐานข้อมูลการขาย
หลักการของข้อมูลขนาดใหญ่ 1-33และประวัติบันทึกการถามตอบของลูกค้าที่ติดต่อเข้ามาทาง Call Center เป็นต้น มีการรวบรวมข้อมูลจากมสธแหล่งขอ้ มูลตา่ ง ๆ ในปรมิ าณหนึ่งกอ่ น หรือตามชว่ งเวลาทผ่ี ้ใู ชง้ านกำ� หนด ผา่ นการรวมข้อมลู (Data Inges-tion) มาจัดเก็บไว้ในท่ีจัดเก็บข้อมูล (Storage Layer) แลัวจึงค่อยประมวลผลพร้อมกันแบบแบตช์ เพ่ือวิเคราะห์ข้อมูลด้วยเทคนิคต่าง ๆ เช่น การท�ำเหมืองข้อความ (Text Mining) ตัวอย่างเครื่องมือประมวลผลแบบแบตช์ ได้แก่มสธ มสธ- อาปาเช ฮาดูป (Apache Hadoop) หรือนิยมเรียกส้ันว่า ฮาดูป (Hadoop ซึ่งเป็นซอฟต์แวร์ที่มีหลักการท�ำงานแบบกระจาย (Distributed Computing) ซ่ึงมีระบบการจัดเก็บข้อมูลเป็นแฟ้มข้อมูลแบบกระจายฮาดูป (Hadoop Distributed File System: HDFS) ภายใต้การท�ำงานของแพลตฟอร์มอาปาเชฮาดูป - แมป รีดิวซ์ (MapReduce-M/R) เป็นเทคนิคใช้ในการประมวลผลข้อมูลขนาดใหญ่โดยใช้หลักการของ Map และ Reduce เพื่อแบ่งข้อมูลขนาดใหญ่ให้เป็นช้ินเล็ก ๆ โดยกระจายงานและแบ่งมสธงานกันท�ำด้วยเคร่ืองคอมพิวเตอร์ที่เช่ือมต่อกันในเครือข่ายเป็นกลุ่มหรือคลัสเตอร์ และเมื่อแต่ละคลัสเตอร์ท�ำงานเสร็จแล้ว จะน�ำผลัพธ์มารวมกัน ซ่ึงวิธีการน้ีท�ำให้มีการเก็บข้อมูลซ�้ำซ้อน และมีระบบการท�ำงานท่ีกระจาย โดยทำ� งานเปน็ คขู่ นาน (Parallel Processing) จงึ ทำ� ใหก้ ารทำ� งานกบั ขอ้ มลู ขนาดใหญม่ คี วามรวดเรว็และช่วยลดความเส่ียงของระบบล่ม หากเครื่องคอมพิวเตอร์ใดขัดข้อง หรือเกิดปัญหาในการท�ำงาน รวมทั้งมสธ มสธการสูญหายของข้อมูลท่ีอาจจะเกิดขึ้นได้ ดังนั้นคอมพิวเตอร์และแฟ้มข้อมูลแบบกระจายที่เชื่อมต่อกันในคลัสเตอร์ ท่ีใช้หลักการท�ำงานแบบกระจาย จะท�ำหน้าที่ช่วยส�ำรองความเสียหายของเคร่ืองหรือข้อมูลให้กันและกันได้ 2.4.2 การประมวลผลแบบเรียลไทม์/สตรีมมิง (Real-time/Streaming Processing) เป็นการประมวลผลข้อมูลที่ถูกส่งเข้ามาจากแหล่งต่าง ๆ โดยจะน�ำไปประมวลผลทันทีหรือเรียลไทม์ ข้อมูลน�ำเข้ามักจะเป็นข้อมูลต่อเน่ืองแบบสตรีม (Streaming Data) เช่น ข้อมูลวิดีโอ เสียง หรือสัญาณคลื่นท่ีส่งมาต่อเนื่องมสธและต้องการประมวลผลเพ่ือให้ได้ผลลัพธ์ทันที หรือใกล้เคียงกับเวลาท่ีได้รับข้อมูล ผลลัพธ์ท่ีได้เพื่อน�ำไปใช้ในการวิเคราะห์หรือประเมินสถานะการณ์ มักจะเป็นสถานการณ์ซับซ้อน (Complex Event Processing:CEP) ในกรณีที่ต้องการประมวลผลรวดเร็ว อาจจะจะใช้การประมวลผลในหน่วยความจ�ำ (in memory)เพื่อช่วยประหยัดเวลาในการประมวลผล ซอฟต์แวร์ส�ำหรับการประมวลผลข้อมูลแบบเรียลไทม์ เช่นอาปาเช่ คาฟคา (Apache Kafka) อาปาเช สตรอม (Apache Strom) เป็นตน้ ตัวอย่าง เช่น ข้อมูลจากระบบมสธ มสธเรดาร์ ข้อมูลจากเฟซบุ๊ก ข้อมูลจากการคลิกเว็บเพจของผู้ใช้ การเฝ้าระวังหรือตรวจสอบการท�ำงานของระบบเครือข่าย (Network Monitor) การฉ้อโกงบัตรเครดิต โดยการติดตามประวัติการใช้เงิน เปรียบเทียบกับแพทเทิร์นท่ีจัดท�ำเป็นแบบจ�ำลอง ดังน้ันหากมีข้อมูลที่เกิดขึ้น ณ จุดขาย ที่ถูกส่งเข้ามา เม่ือเปรียบเทียบว่ารูปแบบการใช้เงินผิดปกติ จะมีการแจ้งเตือนได้ทันทีท�ำให้ช่วยป้องกันความเสียหายท่ีเกิดข้ึน หรือการซื้อขายในตลาดหลักทรัพย์ ซึ่งจะต้องมีข้อมูลซ่ึงอาจจะเป็นสถิติ แบบจ�ำลอง และอื่น ๆ เพื่อประกอบการตัดสินใจมสธเป็นต้น
1-34 การวิเคราะห์ข้อมูลใหญ่สำ�หรับธุรกิจ 2.5 ส่วนจัดการข้อมูล (Data Organizing) เป็นการจัดการข้อมูลให้น�ำมาใช้งานได้ง่าย มีความมสธเกี่ยวข้องกับฐานข้อมูลโนเอสคิวแอล (NoSQL Database) ท่ีไม่ได้ใช้โครงสร้างของฐานข้อมูลแบบสัมพันธ์(No Relational Database) หรืออาจจะเรียกช่ือที่สอดคล้องกับลักษณะฐานข้อมูลแบบไม่มีโครงสร้างแบบสัมพันธ์ว่า “Not Only SQL” เป็นการรองรับข้อมูลท่ีมีรูปแบบไม่มีโครงสร้าง และมีความยืดหยุ่นในการจัดการข้อมูลท่ีมีโครงสร้างหลากหลาย และการท�ำงานในระบบกระจายในเครือข่ายได้ง่ายข้ึน ดังภาพที่ 1.23มสธ มสธตัวอย่างฐานข้อมูลโนเอสคิวแอล ซึ่งแบ่งประเภทของฐานข้อมูลโนเอสคิวแอลได้เป็น 4 ประเภท ได้แก่มสธ มสธ มสธภาพที่1.23ฐานข้อมลู โนเอสควิ แอลท่มี า: http://www.c-sharpcorner.com/UploadFile/f0b2ed/introduction-of-nosql-database/ 2.5.1 ฐานข้อมูลแบบคีย์-แวลู (Key-Value Database) เป็นฐานข้อมูลที่จัดเก็บค่าคีย์ (Key)มสธและข้อมูล (Value) ได้แก่ ฐานข้อมูลแบบคีย์-แวลูของสารบัญโทรศัพท์ (Phone Directory) ฐานข้อมูลรหัสสินค้าและรายละเอียดสินค้า ฐานข้อมูลอีเมล เป็นต้น ตัวอย่างซอฟต์แวร์ เช่น Redis, Oracle NoSQL,Aerospike, Oracle Berkeley DB, Amazon Web Service เป็นต้น 2.5.2 ฐานขอ้ มลู แบบคอลมั น์ (Column-Based Database) บางทีอาจเรยี ก wide-column หรอืcolumn-oriented เป็นฐานข้อมูลที่จัดเก็บข้อมูลในคอลัมน์ ซ่ึงแต่ละคอลัมน์จะใช้อ้างอิงไปยังข้อมูลจริงมสธ มสธตัวอย่างซอฟต์แวร์ เช่น Google BigTable, HBase และ Cassandra เป็นต้น 2.5.3 ฐานขอ้ มลู แบบเอกสาร (Document-Based Database) เปน็ ฐานขอ้ มลู ทอ่ี อกแบบใหร้ องรบัข้อมูลกึ่งโครงสร้าง เช่น XML หรือ JSON สามารถขยายหรือเพ่ิมเติมโครงสร้างได้ ตัวอย่างซอฟต์แวร์ เช่นMongoDB, CouchDB, Amazon Dynamo เป็นต้น 2.5.4 ฐานข้อมูลแบบกราฟ นิยมน�ำมาเก็บข้อมูลท่ีใช้งานเครือข่ายสังคมใน Facebook,Google+, LinkedIn, Twitter, Yammer ฯลฯ และวิดีโอการใช้งานโฮสติงของ Google YouTube, Flickr,มสธYahoo วิดีโอ ฯลฯ ตัวอย่างซอฟต์แวร์ เช่น Neo4j, OreintDB, Titan เป็นต้น
มสธ3. การน�ำขอ้ มลู ขนาดใหญไ่ ปใช้งานหลักการของข้อมูลขนาดใหญ่ 1-35 การน�ำข้อมูลขนาดใหญ่ไปใช้งานต่าง ๆ (Data Consumption) จากภาพที่ 1.24 สถาปัตยกรรมในส่วนสุดท้ายเป็นการน�ำข้อมูลขนาดใหญ่ไปใช้งานต่าง ๆ ได้แก่ การวิเคราะห์ข้อมูล (Data Analysis) การน�ำเสนอข้อมูลเพ่ือน�ำไปใช้งาน (Data Presentation)มสธ มสธBIGDATABIG DATA ECOSYSTEM BIG DATA SOURCE CONSUMPTIONData Real Time/ Data BusnessIngestStreammingOrga- Data Generated DataProcessingnizing Analysis HumanBatch Data Processing PresentationมสธGenerated Data Machine Generated Dataมสธ มสธภาพที่ 1.24 สถาปัตยกรรมของขอ้ มลู ขนาดใหญ่ (ส่วนของการนำ� ข้อมลู ขนาดใหญไ่ ปใชง้ าน)Distributed File System 3.1 ส่วนของการวเิ คราะห์ข้อมูล (Data Analysis)Compute, Storage, Network 3.1.1 วัตถุประสงค์ของส่วนน้ี เพ่ือค้นหารูปแบบความสัมพันธ์ของข้อมูลเหล่านั้นท่ีซ่อนอยู่ Infrastructureมสธข้างใน และหาสิ่งเชื่อมโยงท่ีเช่ือมข้อมูลเหล่าน้ันเข้าไว้ด้วยกัน เช่น การแนวโน้มทางการตลาด การหาความต้องการของลูกค้า และข้อมูลอ่ืน ๆ ท่ีเป็นประโยชน์ต่อธุรกิจ ผลการวิเคราะห์ข้อมูลน้ีสามารถน�ำไปสู่การท�ำแผนการตลาดที่มีประสิทธิภาพ โอกาสในการสร้างผลก�ำไร การให้บริการที่ดีมากขึ้นแก่ลูกค้า การปรับปรุงการท�ำงานให้เกิดประสิทธิภาพ ความได้เปรียบเหนือคู่แข่งในการแข่งขันทางการตลาด และผลประโยชน์ทางธุรกิจด้านอื่น ๆ วิเคราะห์ข้อมูลขนาดใหญ่ เพื่อช่วยในการให้ข้อมูลกับบริษัทเพื่อใช้ในการตัดสินใจทางธุรกิจมสธ มสธโดยการใช้นักวิทยาศาสตร์ข้อมูล (Data Scientists) นักวิเคราะห์ข้อมูลเชิงสถิติ (Predictive Modelers)และผู้เชี่ยวชาญในการวิเคราะห์ข้อมูล ท�ำการวิเคราะห์ข้อมูลที่มาจากแหล่งต่าง ๆ ท้ังภายในและภายนอกองคก์ ร ไดแ้ ก่ ขอ้ มลู ทจี่ ดั เกบ็ ในลอ็ ก (Log) ขอ้ มลู ทม่ี าจากอนิ เทอรเ์ นต็ ขอ้ มลู ทมี่ าจากโซเชยี ลมเี ดยี ขอ้ ความจากอีเมลของลูกค้าและการตอบแบบสอบถาม เสียงบันทึกรายละเอียดทางโทรศัพท์ของลูกค้า และข้อมูลที่มสธมีการบันทึกได้จากเซ็นเซอร์จากอุปกรณ์ที่เชื่อมต่อแบบอัตโนมัติ เป็นต้น
1-36 การวิเคราะห์ข้อมูลใหญ่สำ�หรับธุรกิจ 3.1.2 ความท้าทายในการวิเคราะห์ข้อมูลขนาดใหญ่ ได้แก่ มสธ1) ทักษะการวิเคราะห์ข้อมูลของบุคลากรภายในองค์กร 2) ค่าใช้จ่ายที่ค่อนข้างสูงในการจ้างผู้เชี่ยวชาญท่ีมีประสบการณ์ในการวิเคราะห์ข้อมูล 3) ปริมาณของข้อมูลที่น�ำมาวิเคราะห์ที่มหาศาล 4) รูปแบบข้อมูลและแหล่งข้อมูล มีความหลากหลายมสธ มสธ5) คุณภาพของข้อมูลที่น�ำมาใช้ในการวิเคราะห์ 3.1.3 รูปแบบการวิเคราะห์ข้อมูล ได้แก่ 1) การวิเคราะห์แบบบรรยายหรือพรรณา (Descriptive Analytics) เป็นการวิเคราะห์เพื่อศึกษาข้อเท็จจริงเกี่ยวกับเหตุการณ์ท่ีเกิดข้ึนแล้ว มีความสัมพันธ์กันอย่างไร เป็นการน�ำข้อมูลไปตีความอธิบาย ประเมินผล และเปรียบเทียบ (What has happened?) 2) การวิเคราะห์แบบวินิจฉัย (Diagnostic Anlystics) เป็นการวิเคราะห์ข้อมูลเพ่ือหามสธสาเหตุของส่ิงที่เกิดข้ึน (Why did it happen?) โดยใช้เทคนิคต่าง ๆ เช่น การดิวดาวน์ (Drill-Down) การท�ำเหมืองข้อมูล (Data Mining) เป็นต้น 3) การวิเคราะห์แบบท�ำนายหรือพยากรณ์ (Predictive Analytics) เป็นการวิเคราะห์ข้อมูลโดยสร้างแบบจ�ำลองที่ใช้ข้อมูลที่เกิดข้ึนในอดีต มาจัดท�ำแบบจ�ำลองเพ่ือใช้ท�ำนายหรือพยากรณ์ส่ิง/มสธ มสธเหตกุ ารณอ์ นาคตทย่ี งั ไมเ่ กดิ ขน้ึ (What will happen?) โดยใชเ้ ทคนคิ ของเหมอื งขอ้ มลู สถติ ิ ปญั ญาประดษิ ฐ์(Artificial Intelligence) ท�ำให้วิเคราะห์เพื่อหาโอกาส และความเสี่ยงต่าง ๆ ท่ีจะเกิดข้ึนในอนาคตได้ด้วยเช่น การศึกษาแนวโน้มทางการตลาด การพยากรณ์ยอดการขาย เป็นต้น 4) การวิเคราะห์แบบก�ำหนดทางเลือกในการตัดสิน (Prescriptive Analytics) มีความซบั ซอ้ นและยาก เพราะเปน็ การพยากรณห์ รอื ทำ� นายวา่ อะไรจะเกดิ ขนึ้ และยงั มกี ารใหค้ ำ� แนะนำ� หรอื ทางเลอื กรวมท้ังผลท่ีจะเกิดในแต่ละทางเลือก พร้อมข้อดี และข้อเสียของแต่ละทางเลือก (What should I do?) มสธ3.1.4 เทคนิคในการวิเคราะห์ข้อมูล ตัวอย่างเช่น 1) สถิติ คณิตศาสตร์ เพ่ือค�ำนวณตามตัวแปรที่ก�ำหนด ได้แก่ การใช้ค่าสถิติในการวิเคราะห์ข้อมูลต่าง ๆ เช่น การใช้ค่าเฉล่ีย การหาตัวแปรในการวิเคราะห์ความสัมพันธ์ข้อมูลที่เกิดขึ้น เป็นต้น 2) การท�ำเหมืองข้อมูล เช่น การจ�ำแนกประเภท (Classification) การหาความสัมพันธ์(Association) การจัดกลุ่ม (Clustering) เพื่อพยากรณ์การขาย การวางแผนการตลาด การพยากรณ์อากาศมสธ มสธเป็นต้น การใช้ A/B Testing, Regression, Correlation เพ่ือเปรียบเทียบประสิทธิภาพโฆษณาระหว่างส่ือทางโซเชียลกับส่ือท่ัวไป การเปรียบเทียบจ�ำนวนผู้เข้าชมหน้าเว็บท่ีปรับปรุงใหม่เทียบกับรุ่นเก่า เป็นต้น 3) การเรียนรู้ด้วยเคร่ืองจักร (Machine Learning) การใช้ภาษาธรรมชาติ (NaturalLanguage Processing) การท�ำเหมืองข้อความ (Text Mining) เป็นต้น 3.1.5 ตัวอย่างซอฟต์แวร์เพ่ือวิเคราะห์ข้อมูล เช่น Apache Hive, Spark SQL, AmazonมสธRedshift เป็นต้น
หลักการของข้อมูลขนาดใหญ่ 1-37 3.2 สว่ นของการนำ� เสนอขอ้ มลู (Data Presentation) เป็นการน�ำเสนอข้อมูลภายหลังการวิเคราะห์มสธอาจจะท�ำได้หลายรูปแบบ เช่น การน�ำเสนอด้วยดาตาวิชวลไลเซชัน (Data Visualization) เป็นการน�ำเสนอข้อมูลท่ีเกี่ยวข้องกับการน�ำข้อมูลที่เป็นข้อความ ตัวเลขมาประมวลผลและแสดงผลลัพธ์โดยใช้ภาพต่าง ๆซ่ึงจะช่วยให้ผู้ใช้ข้อมูลเกิดความเข้าใจในเนื้อข้อมูลได้ชัดเจนมากยิ่งข้ึน สามารถน�ำผลลัพธ์ไปใช้ประโยชน์ในด้านต่าง ๆ ได้อย่างมีประสิทธิภาพย่ิงข้ึน ซึ่งรูปแบบของดาตาวิชวลไลเซชันมีด้วยกันหลายประเภท ที่มีมสธ มสธลักษณะแตกต่างกันไป ควรเลือกประเภทของรูปแบบดาตาวิชวลไลเซชันให้เหมาะสมเพ่ือไม่ให้เกิดความสับสนหรือความคลาดเคลื่อนของเน้ือหาข้อมูลเดิม ตัวอย่างการน�ำเสนอข้อมูล ได้แก่ ข้อมูลหนึ่งมิติ ข้อมูลสองมิติ ข้อมูลสามมิติ ข้อมูลหลายมิติ ข้อมูลที่มีโครงสร้างต้นไม้ และข้อมูลท่ีมีโครงสร้างแบบเครือข่ายตัวอย่างเคร่ืองมือ เช่น R Python Java เป็นต้น ส�ำหรับซอฟต์แวร์ด้านการน�ำเสนอ เช่น อีลาสติกเสิร์ช(Elastic Search), คิบาน่า (Kibana), Tableau เป็นต้น มสธหลังจากศึกษาเนือ้ หาสาระเรอื่ งท่ี 1.2.1 แลว้ โปรดปฏบิ ตั กิ ิจกรรม 1.2.1 ในแนวการศกึ ษาหนว่ ยที่ 1 ตอนท่ี 1.2 เรือ่ งที่ 1.2.1มสธ มสธเรื่องที่ 1.2.2 หลกั การทำ� งานของข้อมูลขนาดใหญ่ การท�ำงานของข้อมูลขนาดใหญ่ มีการกระจายงานให้เครื่องคอมพิวเตอร์หลาย ๆ ตัวท่ีเชื่อมโยงกันในเครือข่ายช่วยกันท�ำงาน รวมทั้งป้องกันความผิดพลาดหรือความล้มเหลวท่ีอาจเกิดข้ึนในระบบกระจายมสธดังนั้นหลักการท�ำงานของข้อมูลขนาดใหญ่จึงเก่ียวข้องกับประเด็นต่อไปน้ี • ระบบแฟ้มข้อมูลแบบกระจาย • ความสามารถในการขยายระบบการท�ำงาน • ความคงทนต่อความเสียหาย • การท�ำงานของระบบข้อมูลขนาดใหญ่มสธ มสธ1. ระบบแฟ้มขอ้ มลู แบบกระจาย ในส�ำนักงานท่ัวไปการท�ำงานเก่ียวกับข้อมูลซ่ึงมักจะอยู่ในรูปของเอกสารกระดาษ มีระบบการจัดเก็บข้อมูลเอกสารไว้ในตู้เอกสารหรือในแฟ้มเอกสาร ซึ่งเจ้าของเอกสารแต่ละคนจะมีวิธีการจัดการกับข้อมูลและค้นหาข้อมูลในเอกสารมาใช้งานต่าง ๆ กัน เพ่ือง่ายในการค้นหาและน�ำมาใช้งานภายหลัง เช่น จัดเอกสารมสธเรียงตามตัวอักษร การจัดเอกสารตามกลุ่มงาน การจัดตามวันที่สร้างเอกสาร เป็นต้น
1-38 การวิเคราะห์ข้อมูลใหญ่สำ�หรับธุรกิจ ตอ่ มาเมอื่ มรี ะบบคอมพิวเตอร์มาใชง้ าน การจดั เกบ็ ขอ้ มูล ซึ่งแตเ่ ดมิ อยู่ในแฟม้ เอกสารกระดาษและมสธรวมเป็นกลุ่มไว้ในตู้เอกสาร ได้มีการปรับเปล่ียนมาจัดเก็บไว้ในเครื่องคอมพิวเตอร์แทน ซึ่งการจะใช้งานกับข้อมูลเหล่านั้นจะต้องมีระบบการจัดการกับแฟ้มข้อมูลในระบบคอมพิวเตอร์ เช่น การบันทึกหรือน�ำเข้าข้อมูลเหล่าน้ันจัดเก็บเข้าไปไว้ที่คอมพิวเตอร์ การค้นหาเพ่ือจะได้ข้อมูลท่ีต้องการ การน�ำข้อมูลออกมาใช้งานโดยมีระบบจัดการแฟ้มข้อมูล โดยมีระบบปฏิบัติการ (Operating System) เช่น ระบบปฏิบัติการวินโดส์ ลินุกซ์มสธ มสธเป็นต้น ควบคุมการท�ำงาน ท�ำให้การน�ำมาใช้งานมีความสะดวก รวดเร็ว เช่น ภาพท่ี 1.25 ตัวอย่างการการระบุต�ำแหน่งของข้อมูลที่จัดเก็บท่ีในดิสก์ว่าเป็นต�ำแหน่งใด จะท�ำให้การเข้าถึงข้อมูลและการดึงข้อมูลท่ีตอ้ งการออกมาใชง้ านมปี ระสทิ ธภิ าพ เขา้ ถงึ ขอ้ มลู รวดเรว็ ในเวลาอนั สนั้ โดยเฉพาะอยา่ งยงิ่ ถา้ มขี อ้ มลู ปรมิ าณมาก ๆ แบบข้อมูลขนาดใหญ่ กระบวนการจัดการแฟ้มข้อมูลเป็นเรื่องท่ีส�ำคัญอย่างย่ิงมสธ มสธ มสธภาพที่1.25ระบบการจดั การแฟ้มขอ้ มลู หลักการท�ำงานของแฟ้มข้อมูลแบบกระจาย (Distributed File System) การใช้งานของผู้ใช้คอมพิวเตอร์ทุกวันนี้ มีความหลากหลายทั้งอุปกรณ์ท่ีใช้งานและความต้องการใช้งาน เช่น การใช้แทบเล็ตมสธเพ่ือดูข่าว การท�ำงานด้วยโน้ตบุคเพ่ือพิมพ์เอกสาร การใช้พีซีเพ่ือท�ำงานกับแอปพลิเคชันภายในองค์กร ท�ำให้เกิดปริมาณข้อมูลท่ีท่ีเพิ่มขึ้นอย่างรวดเร็ว หากองค์กรต้องขยายฮาร์ดดิสก์หรือคอมพิวเตอร์เพ่ือรองรับการท�ำงานกับข้อมูลเหล่าน้ัน อาจจะเป็นการลงทุนท่ีไม่รู้จบได้ หลักการของแฟ้มข้อมูลแบบกระจาย เป็นการน�ำข้อมูลที่รับเข้ามาจากแหล่งต่าง ๆ กระจายไปยังคอมพิวเตอร์หลายตัวท่ีเช่ือมโยงกันในเครือข่ายเพ่ือช่วยกันท�ำงาน โดยแต่ละเคร่ืองมีการท�ำงานแบบคู่ขนานมสธ มสธ(Parallel Processing) ใชท้ รพั ยากรของตนเองทำ� งานกบั ขอ้ มลู ทไี่ ดร้ บั อยา่ งเปน็ อสิ ระตอ่ กนั เมอ่ื แตล่ ะเครอื่ งได้ผลลัพธ์ย่อยของตนเองแล้ว จะน�ำผลลัพธ์ที่แยกส่วนกันท�ำจากเครื่องคอมพิวเตอร์แต่ละตัว มารวมกันเพื่อให้ได้ผลลัพธ์ของงานนั้น ๆ หลักการท�ำงานของแฟ้มข้อมูลแบบกระจาย (ภาพท่ี 1.26) ดังนี้ มสธ
หลักการของข้อมูลขนาดใหญ่ 1-39มสธ มสธ มสธภาพที่1.26การท�ำงานของแฟ้มขอ้ มูลแบบกระจาย การรับข้อมูลจากแหล่งต่าง ๆ ส่งเข้ามาที่เคร่ืองคอมพิวเตอร์ ไม่จ�ำเป็นต้องเป็นเคร่ืองมสธคอมพิวเตอร์ที่อยู่ในที่เดียวกัน อาจเช่ือมต่อกันด้วยเครือข่ายแลน (Local Area Network) หรือเครื่องที่ห่างไกลกันเช่ือมต่อด้วยเครือข่ายแวน (Wide Area Network: WAN) เป็นต้น เคร่ืองคอมพิวเตอร์แต่ละตัวที่เชื่อมต่อในเครือข่าย มีทรัพยากรในการท�ำงานของตนเอง เช่นมี CPU ท่ีจัดเก็บข้อมูล หน่วยความจ�ำของเคร่ืองคอมพิวเตอร์นั้น ฯลฯ ในแต่ละคอมพิวเตอร์แบ่งพ้ืนท่ีในการท�ำงานเป็นส่วน ๆ เช่น ภาพท่ี 1.26 เคร่ืองคอมพิวเตอร์ท่ีเชื่อมต่อกันในกลุ่มมี 5 เคร่ือง แต่ละเครื่องแบ่งมสธ มสธพ้ืนท่ีในการท�ำงานเป็น 5 ส่วน หรือท่ีเรียกท่ัวไปว่าแร็ค (Rack) ข้อมูลขนาดใหญ่ท่ีส่งเข้ามาจากแหล่งต่าง ๆ เช่น รายการท่ี 1, 2, 3, 4, 5 การท�ำงานของแฟ้มข้อมูลแบบกระจาย จะน�ำไปบันทึกไว้ท่ีเคร่ืองคอมพิวเตอร์ท้ัง 5 เครื่อง และในแต่ละเคร่ืองจะมีการน�ำข้อมูลไปไว้ในพ้ืนท่ีตามแร็ค (Rack) ต่าง ๆ จะเห็นว่าข้อมูล 1 2 3 4 5 มีการจัดเก็บซ้�ำกันในทุกเคร่ืองท้ังหมด5 เคร่ือง ท�ำให้ประสิทธิภาพในการให้บริการผู้ใช้ข้อมูลสามารถน�ำข้อมูลมาท�ำงานพร้อม ๆ กันได้ (HighConcurrency) เช่น ผู้ใช้แต่ละคนเรียกใช้ข้อมูลถึงแม้จะเป็นข้อมูลรายการเดียวกัน เช่น รายการที่ 5 มีผู้มสธเรียกใช้งานมากว่าหน่ึงคน ไม่จ�ำเป็นต้องอ่านข้อมูลจากแร็ค (Rack) เดียวกัน สามารถไปเอาข้อมูลรายการท่ี5 จากแร็คอื่นได้ ท�ำให้ท�ำงานแบบพร้อมกัน และกระจายภาระงานในการให้บริการผู้ใช้งานได้อย่างมีประสิทธิภาพมากข้ึนมสธ มสธ2. ความสามารถในการขยายระบบการท�ำงาน จากอดีตจนถึงปัจจุบันมีการพัฒนารูปแบบ และขีดความสามารถการท�ำงานของระบบคอมพิวเตอร์ดังน้ี 2.1 คอมพวิ เตอรส์ ำ� หรบั ทำ� งานเดย่ี ว (Single Computer) เป็นเครื่องคอมพิวเตอร์ที่ใช้ท�ำงานท่ัวไปมักจะเป็นเคร่ืองคอมพิวเตอร์ที่ท�ำงานเป็นโหนดเดี่ยว ๆ มีทรัพยากรในการท�ำงานภายในเคร่ืองน้ัน ๆ เช่นมสธCPU ฮาร์ดดิสก์ส�ำหรับจัดเก็บข้อมูล สมรรถะของเครื่องเป็นการใช้งานทั่วไป
1-40 การวิเคราะห์ข้อมูลใหญ่สำ�หรับธุรกิจ 2.2 คอมพิวเตอร์ส�ำหรับท�ำงานแบบขนาน (Parallel Computer) ในอดีตหากต้องการท�ำงานมสธซับซ้อน เช่น เคร่ืองคอมพิวเตอร์ส�ำหรับประมวลผลแบบขนาน จะต้องใช้เครื่องคอมพิวเตอร์ที่มีสมรรถนะการท�ำงานสูง เช่น ซูเปอร์คอมพิวเตอร์ (Supercomputer) ซ่ึงเป็นเคร่ืองคอมพิวเตอร์ขนาดใหญ่ ประกอบด้วยเคร่ืองคอมพิวเตอร์ย่อย ๆ หรือเรียกว่า โหนดย่อยจ�ำนวนมาก แต่ละโหนดมีหน่วยประมวลผล และหนว่ ยความจำ� ของตนเอง การทำ� งานแตล่ ะโหนดเชอื่ มกนั ดว้ ยเครอื ขา่ ยแลน (LAN) ภายในศนู ยค์ อมพวิ เตอร์มสธ มสธของหนว่ ยงานนนั้ ๆ การทำ� งานจะชว่ ยกนั ทำ� งานเปน็ แบบขนาน (Parallel Computing) นน่ั คอื เมอ่ื มงี านใด ๆเขา้ มาประมวลผล จะมกี ารสบั แบง่ งานทงั้ หมดเปน็ สว่ นยอ่ ย ๆ แลวั กระจายใหค้ อมพวิ เตอรย์ อ่ ย ๆ หรอื โหนดเหล่าน้ันช่วยกันท�ำงานเป็นคู่ขนานพร้อมกัน และเม่ือแต่ละโหนดได้ผลลัพธ์ก็จะส่งผลลัพธ์มารวมกันเป็นผลลัพธ์ท่ีต้องการ จากหลักการน้ีจึงท�ำให้เครื่องซูปเปอร์คอมพิวเตอร์ ท�ำงานได้รวดเร็วและมีประสิทธิภาพตัวอย่างเช่น ซูเปอร์คอมพิวเตอร์ ซ่ึงประกอบด้วยคอมพิวเตอร์ย่อย ๆ เช่น 1024 เคร่ือง แต่ละเคร่ือง/โหนดมีหน่วยประมวลผล และหน่วยความจ�ำ 16 ชุด ซ่ึงรวมแล้วมีหน่วยประมวลผลและหน่วยความจ�ำ ท้ังหมดมสธเท่ากับ 1024 × 16 = 16,384 หน่วย จึงท�ำให้การท�ำงานมีประสิทธภาพ และราคาสูงมาก 2.3 คอมโมดิตีคลัสเตอร์ (Commodity Cluster) เป็นการน�ำคอมพิวเตอร์ที่ใช้งานท่ัวไป ราคาไม่แพง ไมไ่ ดม้ สี มรรถนะหรอื คณุ สมบตั พิ เิ ศษใด ๆ เหมอื นซเู ปอรค์ อมพวิ เตอร์ โดยนำ� เครอื่ งคอมพวิ เตอรท์ วั่ ไปเหล่านี้มาเชื่อมต่อผ่านเครือข่ายเป็นกลุ่มคอมพิวเตอร์ เรียกว่า คลัสเตอร์ (Cluster) ท�ำให้สามารถท�ำงานมสธ มสธแบบขนาน (Parallel Computer) ท�ำงานร่วมกับแฟ้มข้อมูลแบบกระจาย ให้รองรับปริมาณข้อมูลขนาดใหญ่ได้ ถึงแม้ว่าประสิทธิภาพเคร่ืองคอมพิวเตอร์จะไม่เทียบเท่าซูเปอร์คอมพิวเตอร์ แต่สามารถใช้งานท่ัวไปได้ในวงกว้างมากกว่า และช่วยลดค่าใช้จ่ายในประมวลผลข้อมูลขนาดใหญ่ได้อย่างมีประสิทธิภาพ สถาปัตยกรรมของคอมโมดิตีคลัสเตอร์ ประกอบด้วย 2.3.1 คอมพิวเตอร์ทั่วไป (Commodity Computer) เป็นคอมพิวเตอร์ที่ใช้ในการประมวลผลท่ัวไป มสธ2.3.2 คอมพิวเตอร์คลัสเตอร์ (Computer Cluster) เป็นการน�ำคอมพิวเตอร์มาเชื่อมโยงกันเป็นกลุ่มคลัสเตอร์เพ่ือขยายทรัพยากร และเช่ือมโยงการท�ำงาน ดังภาพท่ี 1.25 เป็นคอมพิวเตอร์คลัสเตอร์ทเี่ ชื่อมกนั ในเครอื ขา่ ยโดยแตล่ ะคอมพิวเตอร์ หรอื แตล่ ะโหนด ประกอบด้วยอุปกรณเ์ ป็นชน้ั หรอื แร็ค (Rack)เพ่ือใช้ในการประมวลผลและจัดเก็บข้อมูล ถ้าโหนดท่ีต้องการเช่ือมต่ออยู่ในบริเวณใกล้กัน สามารถใช้เครือข่ายแลน (Local Area Network: LAN) แต่ถ้าโหนดท่ีจะเช่ือมต่ออยู่ห่างไกลออกไป อาจจะใช้เครือข่ายมสธ มสธอนิ เทอรเ์ นต็ เชอื่ มตอ่ ทำ� ใหส้ ามารถขยายอปุ กรณท์ ำ� งานหรอื โหนด โดยการเพม่ิ โหนดหรอื เพม่ิ แรค็ ผา่ นเครอื ขา่ ยมสธที่มีอยู่ได้โดยง่าย
หลักการของข้อมูลขนาดใหญ่ 1-41มสธ มสธ มสธภาพที่1.27คอมพวิ เตอร์คลสั เตอร์ 2.3.3 การน�ำคอมพิวเตอร์คลัสเตอร์มาประมวลผลแบบกระจาย (Distributed Computing)เป็นการท�ำงานด้วยคอมพิวเตอร์ที่เช่ือมโยงในระบบเครือข่าย ไม่ใช่การท�ำงานภายใต้เครื่องคอมพิวเตอร์มสธเดยี่ ว ๆ ดงั นนั้ การทำ� งานของขอ้ มลู ขนาดใหญใ่ นแตล่ ะคลสั เตอร์ แตล่ ะโหนดจะทำ� งานตามทไี่ ดร้ บั มอบหมายด้วยข้อมูลท่ีส่งเข้ามาให้ท�ำงาน ในลักษณะคู่ขนานในระดับงาน (Job Level Parallelism) และคู่ขนานระดับข้อมูล (Data-Parallelism) ซึ่งแต่ละโหนดจะท�ำงานป็นอิสระตามงานและข้อมูลที่มีอยู่ และจะไม่เก่ียวข้องกับโหนดอ่ืน ภาพท่ี 1.28 คอมโมดิตีคลัสเตอร์ (Commodity Cluster) ประกอบด้วย 3 คลัสเตอร์ย่อย ท่ีมสธ มสธเชื่อมต่อกันด้วยเครือข่ายความเร็วสูง และแต่ละคลัสเตอร์ประกอบด้วยโหนดย่อย ๆ 5 โหนด แต่ละโหนดประกอบด้วย 5 แร็ค ซึ่งรองรับการประมวลผลแบบกระจายมสธ มสธ มสธภาพที่1.28การประมวลผลแบบกระจาย(DistributedComputing) 2.4 การเพ่ิมขนาดระบบการท�ำงาน ได้แก่ แบบสเกลเอาต์ (Scale Out) และสเกลอัป (Scale Up)มสธดังภาพท่ี 1.29
1-42 การวิเคราะห์ข้อมูลใหญ่สำ�หรับธุรกิจมสธ มสธ มสธภาพท่ี1.29การขยายระบบทำ� งานแบบสเกลอัปกับสเกลเอาต์(ScaleUpvsScaleOut)ทีม่ า: https://navcode.info/2012/12/24/cloud-scaling-schemes/ มสธ2.4.1 สเกลอปั (Scale Up หรอื Scale Vertical) เป็นการขยายทรัพยากรในแนวตั้ง เช่น ซื้ออุปกรณ์เพิ่มเติมและติดต้ังเพื่อขยายขีดความสามารถของการท�ำงานของระบบฮาร์ดแวร์ท่ีมีอยู่ เช่น การซื้อเซิร์ฟเวอร์เพื่อเพิ่มความเร็วในการท�ำงานภายในองค์กร หรือการขยายพื้นที่ในการจัดเก็บข้อมูล (Storage)ซึ่งจะเก่ียวโยงไปถึงการจัดเตรียมสถานท่ีในวางอุปกรณ์ ระบบไฟฟ้า และระบบความเย็นเพื่อรองรับอุปกรณ์มสธ มสธมากข้ึน เป็นการขยายในแนวตั้ง (Vertical) เพ่ือขยายขีดความสามารถของอุปกรณ์ท่ีมีอยู่ภายในองค์กรให้มากขึ้น 2.4.2 สเกลเอาต์ (Scale Out หรือ Scale Horizontal) เป็นเพิ่มโหนดคอมพิวเตอร์ในแนวราบ(Horizontal) ในระบบการท�ำงานของข้อมูลขนาดใหญ่หรือบิกดาตาน้ันใช้รูปแบบสเกลเอาต์ เพื่อขยายระบบการท�ำงานโดยใช้เครื่องคอมพิวเตอร์ที่มีอยู่ ประสิทธิภาพการท�ำงานระดับท่ัวไป (Commodity Computer)ซ่ึงแต่ละเคร่ืองอาจจะมีแพลตฟอร์มในการท�ำงานท่ีแตกต่างกัน มาเชื่อมต่อกันในเครือข่ายในรูปแบบของคลัสเตอร์ (Cluster) การเชื่อมโยงนี้ท�ำให้ศักยภาพของเครื่องคอมพิวเตอร์ท่ีใช้งานท่ัวไป มีประสิทธิภาพในมสธการท�ำงานในเครือข่ายอาจจะมากกว่าเครื่องคอมพิวเตอร์ขนาดใหญ่ในอดีตที่มีราคาแพง การเพ่ิม/ลดจ�ำนวนกี่โหนดก็ได้ และอาจจะอยู่ในท่ีห่างไกลออกไปได้ โดยผู้ใช้งานจะท�ำงานเสมือนอยู่ในระบบเดียวกัน เทคนิคในการจัดการให้ระบบการท�ำงานกระจายเป็นแบบสเกลเอาต์ ได้แก่ Cluster Storage System หรือ GridStorage เป็นต้นมสธ มสธ3. ความคงทนต่อความเสยี หาย ความคงทนต่อความเสียหาย (Fault Tolerance) เป็นการท�ำให้ระบบคอมพิวเตอร์สามารถท�ำงานได้อย่างต่อเนื่อง ถึงแม้ว่าในระหว่างการท�ำงานจะพบความผิดปกติของระบบที่เกิดขึ้น ความเสี่ยงของการท�ำงานแบบกระจายของข้อมูลขนาดใหญ่แบบสเกลเอาต์มีโอกาสเกิดข้ึนได้ตลอดเวลาท่ีจะเกิดข้อบกพร่องกับโหนดใดโหนดหน่ึง ท�ำให้ท�ำงานไม่ได้ เช่น 3.1 ระบบเครอื ขา่ ยทเ่ี ชอื่ มโยงการทำ� งานในแตล่ ะคลสั เตอรอ์ าจจะถกู ตดั ขาดการสอื่ สาร ทำ� ให้มสธการส่งข้อมูลขาดการติดต่อ
หลักการของข้อมูลขนาดใหญ่ 1-43 3.2 อุปกรณ์แต่ละโหนด อาจจะเกิดความเสียหายของแร็คทั้งหมดหรือบางส่วน มสธ3.3 ข้อมูลท่ีจัดเก็บในแต่ละโหนดอาจจะสูญหาย หรือน�ำมาใช้งานไม่ได้ เป็นต้น ดังนั้นการจัดการต่อความเสียหาย หรือป้องกันความล้มเหลวในการท�ำงานของระบบ (Fault Toler-ance) ของข้อมูลขนาดใหญ่ ได้แก่ การให้มีพ้ืนท่ีจัดเก็บข้อมูลซ้�ำซ้อน (Redundancy) โดยจัดเก็บข้อมูลที่เหมือนกันให้มีมากกว่า 1 ชุดในหลาย ๆ แห่ง เช่น ภาพท่ี 1.28 ข้อมูลมีการจัดเก็บ 1 2 3 4 5 ทุกแร็ค ถ้ามสธ มสธแร็คแรกเกิดเสียหายทั้งหมด และแร็คสุดท้าย ต�ำแหน่งจัดเก็บข้อมูลท่ี 2 เสียหาย ก็ยังมีข้อมูล 1 2 3 4 5ในแร็คอื่น ๆ อีกที่สามารถน�ำมาใช้งานได้ ถึงแม้มีข้อมูลบางส่วนเสียหายก็ตามมสธ มสธ มสธภาพที่1.30ความคงทนตอ่ ความเสียหาย(FaultTolerance)4. การทำ� งานของระบบขอ้ มูลขนาดใหญ่ การทำ� งานของโปรแกรมของขอ้ มลู ขนาดใหญใ่ นระบบแฟม้ ขอ้ มลู แบบกระจาย มคี วามสามารถ ดงั น้ี 4.1 สามารถรองรับการปฏิบัติงานข้อมูลขนาดใหญ่ (Support Big Data Operation) 4.1.1 การสับแบ่งข้อมูลขนาดใหญ่ปริมาณมาก ๆ ให้เป็นข้อมูลส่วนย่อย ๆ (Split volumeมสธof big data) เพ่ือน�ำข้อมูลไปจัดเก็บในโหนดต่าง ๆ ซ่ึงเตรียมพ้ืนท่ีไว้ 4.1.2 การจัดการเข้าถึงข้อมูลได้อย่างรวดเร็ว (Access data fast) 4.1.3 การประมวลผลแบบกระจายตามโหนดตา่ ง ๆ (Distributed Computation to Node) 4.2 สามารถจัดการความคงทนต่อความเสียหาย (Fault Tolerance) มีการจัดเก็บข้อมูลที่เหมือนกันซ้�ำ ๆ หลายแห่ง ในแต่ละแร็คและกระจายไปทุกโหนด (Replicate Data Partitions) และสามารถกู้คืนมสธ มสธระบบเมื่อมีปัญหาในการท�ำงาน (Recover file as needed) 4.3 สามารถรองรับการท�ำงานแบบสเกลเอาต์ โดยเพ่ิมจ�ำนวนแร็คในคลัสเตอร์ได้ 4.4 สามารถรองรบั ข้อมลู ประเภทตา่ ง ๆ ได้ เช่น ข้อมูลแบบคีย์แวลู ข้อมูลแบบกราฟ ขอ้ มูลเอกสารข้อมูลมัลติมีเดีย ข้อมูลต่อเน่ืองแบบสตรีม เป็นต้น หลังจากศกึ ษาเน้อื หาสาระเร่ืองท่ี 1.2.2 แลว้ โปรดปฏิบตั ิกจิ กรรม 1.2.2 มสธในแนวการศึกษาหนว่ ยท่ี 1 ตอนท่ี 1.2 เรอื่ งท่ี 1.2.2
1-44 การวิเคราะห์ข้อมูลใหญ่สำ�หรับธุรกิจบรรณานุกรม มสธAT. Kearney Inc. (2013). Big Data and the Creative Destruction of Today’s Business Model. สืบค้นมสธ มสธจาก https://www.atkearney.com/documents/10192/698536/Big+Data+and+the+Creative+ Destruction+of+Todays+Business+Models.pdf/f05aed38-6c26-431d-8500-d75a2c384919 เม่ือ วันท่ี 5 กันยายน 2560Edd Dumbill. (2012). Big Data Now: 2012 Edition สืบค้นจาก http://eecs.wsu.edu/~yinghui/mat/ courses/fall%202015/resources/Big%20Data%20Now.pdf เม่ือวันท่ี 10 สิงหาคม 2560McKinsey Global Institute. (2011). The next frontier for Innovation, Competition, and Productivity มสธสืบค้นจาก https://www.mckinsey.com/ เมื่อวันที่ 10 สิงหาคม 2560Rajcharawee Jarupreechachan. (2016). Big Data สืบค้นจาก http://bigdataexperience.org เม่ือวันที่ 10 August 2017Thomas Erl. (2016). Big Data Fundamentals: Concepts, Drvivers & Techniques. Pearson Education.The Three Generations of Big Data Processing. สืบค้นจาก https://www.slideshare.net/Datadopter/มสธ มสธthe-three-generations-of-big-data-processing เมื่อวันที่ 10 สิงหาคม 2560Watson, Hugh J. (2014). Tutorial: Big Data Analytics: Concepts, Technologies, and Applications, Communications of the Association for Information Systems: Vol. 34, Article 65. สืบค้นจาก http://aisel.aisnet.org/cais/vol34/iss1/65 เม่ือวันที่ 10 สิงหาคม 2560What is big data? [Online] Available from: http://radar.oreilly.com/2012/01/what-is-big-data.html [Accessed 9th July 2012].มสธIntroduction to Big Data. (2017). สืบค้นจาก https://www.coursera.org และ https://www.slideshare.มสธ มสธ มสธnet/smongeau1/acfe-presentation-on-fraud เมื่อวันที่ 5 กันยายน 2560
Search
Read the Text Version
- 1 - 44
Pages: