Important Announcement
PubHTML5 Scheduled Server Maintenance on (GMT) Sunday, June 26th, 2:00 am - 8:00 am.
PubHTML5 site will be inoperative during the times indicated!

Home Explore กรอบการวิเคราะหข้อมูลขนาดใหญ่ภาครัฐ

กรอบการวิเคราะหข้อมูลขนาดใหญ่ภาครัฐ

Published by 3Hmoob Start Up, 2022-04-18 02:35:45

Description: กรอบการวิเคราะหข้อมูลขนาดใหญ่ภาครัฐ

Keywords: กรอบการวิเคราะ,ข้อมูลขนาดใหญ่ภาครัฐ

Search

Read the Text Version

กรอบการวิเคราะห์ข้อมลู ขนาดใหญภ่ าครัฐ (Government Big Data Analytics Framework) 99 นอกจากนี้ ยังสามารถวิเคราะห์ข้อมูลแนวโน้มการเปล่ียนแผนรายกลุ่มได้จาก Dashboard แสดงข้อมูลการเปลี่ยนแผนย้อนหลังของกลุ่มสมาชิกประเภทต่าง ๆ ดังภาพที่ 7.21 เพอื่ ใชเ้ ลอื กพจิ ารณากลมุ่ ทมี่ แี นวโนม้ ทจี่ ะเปลยี่ นแผนสงู ได้ ส�ำหรบั ใชส้ ง่ เสรมิ การตลาด ผ่านการท�ำกิจกรรม หรือการจัดสัมมนา เป็นต้น โมเดลต้นแบบเหล่าน้ีสามารถน�ำไปปรับใช้ และเช่ือมต่อกับข้อมูลในฐานข้อมูลจริงของกองทุนบ�ำเหน็จบ�ำนาญข้าราชการ และสามารถ น�ำผลวิเคราะห์ไปใชใ้ นกจิ กรรมส่งเสรมิ การลงทุนตามเปา้ หมายขององคก์ ร ภาพท่ี 7.21 ภาพรวม Dashboard ประเมินรายกล่มุ ของสมาชิก ทมี่ ีแนวโน้มออมเพ่ิมและเปล่ยี นแผน Use Cases in Finance [ตอนท่ี 1] - การวิเคราะหโ์ อกาส การลงทุนของสมาชกิ กบข.

100 กรอบการวิเคราะห์ขอ้ มูลขนาดใหญ่ภาครัฐ (Government Big Data Analytics Framework) จะเหน็ ได้วา่ การใช้ประโยชนข์ อ้ มลู เชงิ วเิ คราะหข์ องหนว่ ยงานภาครัฐใน 10 ตวั อย่าง กรณีศึกษาท่ีกล่าวในบทน้ี เป็นก้าวส�ำคัญของการพัฒนาสู่ความเป็นรัฐบาลอัจฉริยะของ ประเทศไทยในอนาคต ส�ำหรับผู้ที่สนใจกรณีศึกษาเพ่ิมเติมจากหน่วยงานรัฐอื่น ๆ สามารถ ติดต่อขอข้อมูลมายัง GBDi หรือ สถาบันส่งเสริมการวิเคราะห์และบริหารข้อมูลขนาดใหญ่ ภาครฐั ได้ ตามช่องทางต่อไปน้ี [email protected]หrร.อืth Govbigdata 1แเลข0ข9วทง0จี่08อ0มพลาลดเพขรตา้จวตซจุ อักยร4กทม. Govbigdata 02026-2333 ตอ่ 2508, 2525 Govbigdata Govbigdata @gbdi

ภาคผนวก



กรอบการวิเคราะห์ข้อมูลขนาดใหญ่ภาครฐั (Government Big Data Analytics Framework) 103 ภาคผนวก ก โครงสร้างกรอบหลักสูตร กรอบโครงสรา้ งหลกั สตู รจ�ำแนกตามกลมุ่ เปา้ หมายออกเปน็ 3 กลมุ่ ไดแ้ ก่ นกั วเิ คราะห์ ข้อมูล (Data Analyst) นักวิทยาศาสตร์ข้อมูล (Data Scientist) และวิศวกรข้อมูล (Data Engineer) โดยมรี ายละเอยี ดของแต่ละหลักสตู ร ดงั น้ี 1. หลักสตู รเพ่ือพัฒนาเปน็ นกั วเิ คราะหข์ ้อมูล (Data Analyst) 1.1. หลักสูตรการวิเคราะห์ข้อมูลส�ำหรับผู้ปฏิบัติ (ระยะเวลา 7-13 วัน) Data Analytics for Analysts เง่ือนไขทีต่ ้องมีมากอ่ น (Prerequisite) : ไม่มี รูปแบบการสอน : Lecture, Problem-based Learning, In-class Discussion, Workshop ผลของการเรียน (Learning Outcome) : ผลของการเรียน วธิ วี ัดผล สนทนาในหอ้ งเรยี น ผู้เรียนสามารถออกแบบวิธีการและน�ำข้อมูลมา ใช้ไดอ้ ยา่ งเหมาะสม สอบขอ้ เขียน ผู้เรียนสามารถก�ำหนดประเด็นท่ีจะน�ำข้อมูลมาใช้ และระบุประเภทขอ้ มูลที่จ�ำเปน็ ไดอ้ ย่างถูกต้อง ผู้เรียนสามารถออกแบบวิธีการเก็บข้อมูลได้อย่าง สอบโดยการนำ�เสนอผลงาน ถูกต้องและสามารถสรุปผลเชิงสถิติจากข้อมูลได้ (Presentation) อยา่ งถกู ต้อง ผู้เรียนสามารถเล่าผลสรุปจากการวิเคราะห์และ สอบปฏบิ ัติ ออกแบบการน�ำเสนอผลไดอ้ ยา่ งมปี ระสทิ ธผิ ลและ สามารถใช้เครื่องมอื ประเภท Data Visualization ขนั้ พ้นื ฐานได้

104 กรอบการวเิ คราะหข์ อ้ มลู ขนาดใหญ่ภาครัฐ (Government Big Data Analytics Framework) องคป์ ระกอบของหลักสตู ร : เน้ือหา รายละเอียด 1. การเก็บและการบูรณาการข้อมูล (Data Collection and Integration) ระยะเวลา 1-2 วัน - ก า ร สำ � ร ว จ ค ว า ม เ ห็ น การส�ำ รวจดว้ ยตวั อยา่ ง การส�ำ รวจความคดิ เหน็ สาธารณะ สาธารณะและประชามติ และประชามติ การกำ�หนดกรอบแนวคิดและวัตถุประสงค์ (Poll and Public Opinion ในการสำ�รวจด้วยตัวอย่าง การออกแบบแบบสอบถาม Survey) และการร่างแบบสัมภาษณ์ การทดลองแบบสอบถาม และแบบสัมภาษณ์ก่อนการลงพ้ืนท่ี วิธีการเก็บข้อมูลด้วย การสำ�รวจและการสัมภาษณ์ การตรวจสอบคุณภาพของ ข้อมูลภาคสนาม การจัดเตรียมข้อมูลและวิเคราะห์ข้อมูล สำ�รวจ การนำ�ความคิดเห็นสาธารณะและประชามติไปใช้ ในการวางนโนบายและแผนการพัฒนา การประเมินผล กระทบของการบังคับใช้กฎหมาย (Regulatory Impact Assessment) ด้วยการสำ�รวจความคดิ เห็นสาธารณะ - การสำ�รวจออนไลน์ การออกแบบแบบสอบถามสำ�หรับการสำ�รวจออนไลน์ (Online Survey) การจัดทำ�แบบสอบถามออนไลน์และ Platform สำ�หรับ การสำ�รวจออนไลน์ การบริหารจัดการการเก็บข้อมูล ออนไลน์ การตรวจสอบคุณภาพของข้อมูลจากการสำ�รวจ ออนไลน์ - เสน้ ทางการไหลของข้อมลู การวิเคราะห์ระบบและเส้นทางการไหลของข้อมูล (Data Pipeline) การเชือ่ มต่อข้อมูลเขา้ สู่ฐานขอ้ มลู การออกแบบฐานข้อมูล เพื่อการเชื่อมต่อข้อมูล การบันทึกและการจัดเก็บข้อมูล การส�ำ รองข้อมลู

กรอบการวิเคราะหข์ อ้ มูลขนาดใหญ่ภาครฐั (Government Big Data Analytics Framework) 105 เนือ้ หา รายละเอียด 2. บทนำ�สู่สถิตศิ าสตร์ (Introduction to Statistics) ระยะเวลา 2-4 วนั - สถิติเชงิ บรรยาย ระดับการวัดตัวแปร ความรู้เบื้องต้นเก่ียวกับสถิติ (Descriptive Statistics) เชงิ พรรณนา ไดแ้ ก่ ค่าเฉล่ียชนดิ ต่าง ๆ มัธยฐาน ฐานนยิ ม ความแปรปรวน สว่ นเบย่ี งเบนมาตรฐาน ความเบ้ ความโดง่ สหสัมพันธ์ระหว่างตัวแปรท้ังตัวแปรจัดประเภท และ ตัวแปรจัดกลุ่ม ดัชนีขนาดอิทธิพล การนำ�เสนอค่าสถิติให้ เหมาะสมกบั ข้อมูลแตล่ ะประเภท - สถติ เิ ชิงอนมุ านขน้ั พ้ืนฐาน สมมุติฐานการวิจัยและสมมุติฐานทางสถิติ ความรู้ (Basic Statistical Inference) เบ้ืองต้นเก่ียวกับสถิติเชิงอนุมาน ความผิดพลาดใน การทดสอบสมมตุ ฐิ านทางสถติ ิ การประมาณคา่ พารามเิ ตอร์ แบบจดุ และแบบชว่ ง การทดสอบค่าเฉล่ีย ค่าสัดส่วน และความแปรปรวน สำ�หรับประชากรเดียว สองประชากร และหลาย ประชากร การทดสอบความเป็นอิสระแก่กันของตัวแปร จดั ประเภทดว้ ยไคก�ำ ลงั สอง การทดสอบสมมตุ ฐิ านเกย่ี วกบั ค่าสหสัมพนั ธ์

106 กรอบการวิเคราะหข์ อ้ มลู ขนาดใหญภ่ าครฐั (Government Big Data Analytics Framework) เน้ือหา รายละเอียด 3. การวิเคราะห์ขอ้ มูลเชงิ บกุ เบกิ และภาพนทิ ัศนจ์ ากข้อมลู (Exploratory Data Analysis and Data Visualization) ระยะเวลา 3-4 วัน การวิเคราะห์ข้อมูลเชิงบุกเบิก ได้แก่ การตรวจสอบความผิดพลาดในการกรอกข้อมูล ค่าสูญหาย (Missing value) ค่าสุดโต่ง (Outlier) การตรวจสอบแจกแจงของข้อมูลและ การแปลงไม่เชิงเส้นตรง การตรวจสอบความแปรปรวนของข้อมูล ภาพนิทัศน์สำ�หรับ ขอ้ มลู จดั ประเภท ภาพนทิ ัศน์ส�ำ หรบั การแจกแจงของขอ้ มูล ภาพนิทัศน์ส�ำ หรบั สหสัมพันธ์ และการถดถอยรวมถึงความสัมพันธ์ท่ีไม่เป็นเชิงเส้นตรงและการวิเคราะห์ส่วนเหลือ (Residual Analysis) ภาพนิทัศน์สำ�หรับข้อมูลอนุกรมเวลา ภาพนิทัศน์สำ�หรับข้อมูลเชิง พื้นที่ การออกแบบภาพนิทัศนส์ �ำ หรับข้อมูล การเลา่ เร่ืองจากภาพนิทัศน์ การใช้โปรแกรม สำ�เร็จรปู ในการวเิ คราะหข์ ้อมลู เชิงบุกเบกิ และการสรา้ งภาพนทิ ัศน์จากขอ้ มลู 4. การวเิ คราะหเ์ ชงิ ท�ำ นายและการพยากรณข์ น้ั พนื้ ฐาน (Basic Predictive Analytics and Forecasting) ระยะเวลา 2-3 วัน (ไม่บังคบั ) - การวิเคราะห์ถดถอยและ สหสัมพันธ์และแนวคิดของการวิเคราะห์การถดถอย สหสมั พนั ธอ์ ย่างง่าย เชิงเส้นอยา่ งง่าย (Simple Correlation and Regression Analysis) - การวเิ คราะหส์ หสมั พนั ธแ์ ละ การวเิ คราะหส์ หสมั พนั ธแ์ ละการวเิ คราะหถ์ ดถอยพหคุ ณู การวิเคราะหถ์ ดถอยพหุคณู การสรา้ งแบบตวั แบบและการคดั เลอื กตวั แปรในแบบจ�ำ ลอง (Multiple Correlation and การวเิ คราะหส์ ว่ นเหลอื (Residual Analysis) การวเิ คราะห์ Regression Analysis) ถดถอยโพลโิ นเมยี ล (Polynomial Regression Analysis) ตัวอย่างการประยุกต์ใช้การวิเคราะห์สหสัมพันธ์และ การวิเคราะห์ถดถอยพหุคูณในการบริหารรัฐกิจ อันได้แก่ การพยากรณ์เพ่ือการบริหาร การศึกษาปัจจัยสัมพันธ์กับ ผลการปฏิบัติราชการ การศึกษาความสัมพันธ์ระหว่าง ต้นทนุ และตัวขบั ต้นทนุ

กรอบการวเิ คราะห์ข้อมลู ขนาดใหญ่ภาครัฐ (Government Big Data Analytics Framework) 107 เนือ้ หา รายละเอียด - การวิเคราะห์อนุกรมเวลา ความรู้เบื้องต้นเก่ียวกับข้อมูลอนุกรมเวลา ความ แบบคลาสสิก คลาดเคลื่อนในการพยากรณ์อนุกรมเวลา การพยากรณ์ (Classical Decomposition อนุกรมเวลาโดยการวิเคราะห์การถดถอย การพยากรณ์ of Time Series) โดยการปรับให้เรียบ ตัวแบบอนุกรมเวลาท่ีมีแนวโน้ม และมีฤดูกาล ตัวแปรอนุกรมเวลาคลาสสิกแบบผลคูณ (Multiplicative Classical Decomposition Model) ตัวอย่าง การประยุกต์ใช้การวิเคราะห์อนุกรมเวลา แ บ บ ค ล า ส สิ ก ใ น ก า ร ว า ง แ ผ น ก า ร จั ด เ ก็ บ ภ า ษี การประยุกต์ใช้การวิเคราะห์อนุกรมเวลาแบบคลาสสิกใน การพยากรณ์ราคาสินค้าเกษตรและการวางแผนการผลิต ทางการเกษตร 5. การวิเคราะห์ข้อมูลเชิง ลักษณะของข้อมูลเชิงเวลาและพ้ืนที่ ตัวอย่างการ พื้นท่ี-เวลา ประยุกต์ใช้ข้อมูลเชิงพื้นท่ีและเวลาในการบริหารรัฐกิจ (Spatial-Temporal Data แหล่งข้อมูลเชิงพ้ืนท่ีและเวลาของภาครัฐ การจัดเตรียม Analysis) ข้อมูลเชิงพ้ืนที่-เวลา การสร้างภาพนิทัศน์สำ�หรับข้อมูล ระยะเวลา 1 วนั (ไมบ่ งั คับ) เชิงพื้นที่และเวลา สหสัมพันธ์เชิงพ้ืนที่ สหสัมพันธ์เชิง พื้นท่ีแบบท้องถ่ิน (Local Indicator of Spatial Autocorrelation) การวิเคราะห์การถดถอยเชิงพื้นท่ี การวเิ คราะหถ์ ดถอยเชงิ พนื้ ทแ่ี ละเวลา

108 กรอบการวิเคราะห์ข้อมูลขนาดใหญภ่ าครัฐ (Government Big Data Analytics Framework) 1.2. หลักสูตรการวิเคราะห์ข้อมูลส�ำหรับผู้บริหาร (ระยะเวลา 1-4 วัน) Data Design for Executives เงอ่ื นไขที่ต้องมีมาก่อน (Prerequisite) : ไม่มี รปู แบบการสอน : Lecture, In-class Discussion, Workshop ผลของการเรียน (Learning Outcome) : ผลของการเรยี น วธิ ีวดั ผล สามารถตัดสินใจจากการประยุกต์ใช้หลักฐาน นำ�เสนอผลงาน (Presentation) เชงิ ประจกั ษ์ นำ�เสนอผลงาน (Presentation) ชป้ี ระเดน็ ในการนำ�ข้อมูลมาใช้ไดอ้ ย่างเหมาะสม ให้แนวทางการดำ�เนินงานด้านข้อมูลต่อผู้ใต้บังคับ อภปิ รายในชั้นเรยี นด้วยกรณีศกึ ษา บญั ชาไดอ้ ยา่ งเหมาะสม องค์ประกอบของหลักสูตร : หลักสูตรนี้ถูกออกแบบเป็นหลักสูตรระยะส้ันส�ำหรับผู้บริหารเพ่ือสร้างความเข้าใจ ทางด้านการใช้ประโยชน์ข้อมูลขององค์กรโดยผ่านการอธิบายกรณีศึกษา (Case Studies) ผู้สอนเลือกกรณีศึกษาเพียงบางส่วน (จากหัวข้อ 4-10) ท่ีเกี่ยวข้องกับงานของผู้เรียน เพื่อใช้ประกอบการอภิปราย นอกจากน้ีเน้ือหารวมถึงการปูพ้ืนฐานด้านการใช้ประโยชน์ จากการวิเคราะห์ข้อมูลและการก�ำหนดโจทย์ปัญหาโดยอาศัยเครื่องมือ Design Thinking Canvas

กรอบการวิเคราะหข์ ้อมลู ขนาดใหญภ่ าครัฐ (Government Big Data Analytics Framework) 109 เนื้อหา รายละเอียด 1. Introduction to Data หลกั การ ความหมาย และตวั อยา่ งการใช้งานของข้อมลู Analytics ขนาดใหญ่และคลังข้อมูล ความรู้พื้นฐานดา้ นการวิเคราะห์ ระยะเวลา 1 ชว่ั โมง ขอ้ มลู เพ่อื ประกอบการตัดสินใจ โดยกล่าวถึง การวิเคราะห์ แบบ Descriptive, Predictive, และ Prescriptive ผ่านกรณศี ึกษา 2. Data Project กระบวนการของวิทยาการข้อมูล กระบวนการใน Management การพฒั นาผลติ ภณั ฑข์ อ้ มลู การวางแผนโครงการทเ่ี กยี่ วขอ้ ง ระยะเวลา 2 ชวั่ โมง กับขอ้ มูล หลกั การระบบแบบน้ำ� ตก (Water fall Model) และแบบอาไจล์ (Agile Development) การบริหารทีม และการจัดการทรัพยากรมนุษย์ในการบริหารโครงการ การประเมินและการติดตามความก้าวหน้าของโครงการ การจดั สรรและการบรหิ ารทรพั ยากรในการวเิ คราะหข์ อ้ มลู 3. Introduction to Data การท�ำ Workshop เพื่อการก�ำหนดโจทย์ปัญหาท่ี Analytics ชัดเจนและเป็นไปได้ ในกรอบเวลาและงบประมาณที่มีอยู่ ระยะเวลา 3 ช่วั โมง โดยอาศัยเครื่องมือ Design thinking Canvas (ฉบับ ปรับปรุงส�ำหรับโครงการข้อมูล) ประกอบการเรียนรู้และ ระดมสมอง พร้อมท้ังน�ำเสนอผลงานและแลกเปล่ียน ความคิดเหน็ ระหว่างผู้สอนและผเู้ ขา้ รว่ มอบรม 4. การวิเคราะห์ทรัพยากร ตัวแปรเกณฑ์และตัวแปรพยากรณ์ในการจัดการ มนุษย์ (Human Resource ทรัพยากรบุคคล การวิเคราะห์อัตราก�ำลัง การวางแผน Analytics) การสบื ทอดต�ำแหนง่ การวดั ความผกู พนั ใจมนั่ ของบคุ ลากร ระยะเวลา 3 ชว่ั โมง และเจตคติที่มีต่อองค์กร การศึกษาพฤติกรรมองค์กร การศึกษาการเปลี่ยนพฤติกรรมองค์กร การศึกษาโค้ง การเรียนรู้ของบุคลากร ตัวแบบท�ำนายการลาออก ของบุคลากร ตัวอย่างและการประยุกต์ใช้การวิเคราะห์ ทรพั ยากรมนุษยใ์ นการจดั การภาครัฐ

110 กรอบการวิเคราะห์ข้อมลู ขนาดใหญภ่ าครฐั (Government Big Data Analytics Framework) เนอ้ื หา รายละเอยี ด 5. การวเิ คราะหห์ ว่ งโซอ่ ปุ ทาน การวิเคราะห์ต้นทุน ด้วยการบัญชีต้นทุนตามกิจกรรม และโลจิสตกิ ส์ (Activity-Based Costing) การจัดสรรทรัพยากร ด้วย (Supply Chain and ก�ำหนดการเชิงเส้น การจัดการโลจิสติกส์ด้วยตัวแบบ Logistics Analytics) การขนส่ง การบริหารสินค้าคงคลัง การจัดการการรอ ระยะเวลา 3 ชวั่ โมง (Waiting Time Management) การวางแผนและควบคุม โครงการ การวิเคราะห์การแข่งขันด้วยทฤษฎีเกมส์ ตวั อยา่ งและการประยกุ ตใ์ ชก้ ารวเิ คราะหห์ ว่ งโซอ่ ปุ ทานและ โลจสิ ติกสใ์ นการจัดการภาครัฐ 6. การวเิ คราะหก์ ารเงิน การประเมนิ มลู คา่ ของการลงทนุ (Financial Valuation) (Financial Analytics) และการวิเคราะห์ความคุ้มค่าทางการเงินด้วยคณิตศาสตร์ ระยะเวลา 3 ช่ัวโมง การเงินข้ันพื้นฐาน การวิเคราะห์งบการเงิน ทฤษฎีการจัด พอร์ตการลงทุนและตัวแบบ Capital Asset Pricing การวิเคราะห์ทางเทคนิคด้วยการวิเคราะห์อนุกรมเวลา การพยากรณ์ทางการเงิน ตัวอย่างและการประยุกต์ใช้ การวิเคราะหก์ ารเงินในการจัดการภาครฐั 7.การวิเคราะห์ความเสี่ยง การตรวจสอบและการตรวจจับทุจริต/การตรวจจับ เชงิ ปรมิ าณ ความผิดปกติ (Fraud and Anomaly Detection) การ (Quantitative Risk จัดอันดับความน่าเชื่อถือ (Credit Scoring) การวิเคราะห์ Analytics) พฤติกรรม ตัวแบบการล้มละลาย ตัวแบบจ�ำแนกการจ่าย ระยะเวลา 3 ชว่ั โมง คนื หนี้ (Debt Aging) การวดั และจ�ำลองความเสยี่ ง ตวั อยา่ ง และการประยุกต์ใช้การวิเคราะห์ความเส่ียงเชิงปริมาณใน การจดั การภาครัฐ

กรอบการวเิ คราะหข์ อ้ มลู ขนาดใหญ่ภาครฐั (Government Big Data Analytics Framework) 111 เนอ้ื หา รายละเอียด 8. การวิเคราะห์เศรษฐมิติ การวิเคราะห์เศรษฐมิติเบ้ืองต้น การวิเคราะห์ (Econometric Analysis) อัตสหสัมพันธ์ (Autocorrelation) ปัญหาการร่วมเชิง ระยะเวลา 3 ชว่ั โมง เส้นพหุ (Multicollinearity) ตัวแบบ Autoregressive Integrated Moving Average (ARIMA) ตัวแบบ Generalized Autoregressive Conditional Heteroscedasticity (GARCH) การวเิ คราะหค์ วามสมั พนั ธ์ เชงิ สาเหตแุ ละ Cointegration และการวิเคราะห์ Vector Autoregressive ตวั อยา่ งและการประยกุ ตใ์ ชก้ ารวเิ คราะห์ เศรษฐมติ ิในการจัดการภาครฐั 9. การวิเคราะห์ประชากร การวิเคราะห์ทางประชากร ส่วนประกอบประชากร (Demographic Analysis) การสมรสและภาวะเจริญพันธุ์ การเจ็บป่วยและการตาย ระยะเวลา 3 ชั่วโมง การวัดภาวะการตาย การกระจายของประชากรและ การย้ายถ่ิน การปรับเข้ามาตรฐาน การเปล่ียนแปลงของ ประชากรและการคาดคะเน การสรา้ งตารางชพี แบบจ�ำลอง ทางประชากร การประมาณค่าสถิติประชากรจากข้อมูล ที่ไม่สมบูรณ์ ตัวอย่างและการประยุกต์ใช้การวิเคราะห์ ประชากรในการจัดการภาครฐั 10. การวิเคราะห์การตลาด การศกึ ษาพฤตกิ รรมประชาชนและผใู้ ชบ้ รกิ ารสาธารณะ ส�ำหรับการจัดการภาครัฐ ด้วยการวิจัยเชิงส�ำรวจและการออกแบบสอบถาม (Marketing Analytics for การวัดความพึงพอใจของประชาชนด้วยการวิเคราะห์ Public Management) องค์ประกอบเชิงยืนยัน การวิเคราะห์จัดกลุ่ม (Market ระยะเวลา 3 ชั่วโมง segmentation) ผู้ใช้บริการสาธารณะ การก�ำหนดส่วน ประสมทางการตลาด (Marketing Mix) ส�ำหรับบริการ สาธารณะด้วย Conjoint Analysis การวัดต�ำแหน่งทาง การตลาด (Market Positioning) และแผนท่ีความคิด (Perceptual Mapping) ของหนว่ ยงาน/บรกิ ารภาครฐั ดว้ ย การวิเคราะห์ Multidimensional Scaling และ Correspondence Analysis

112 กรอบการวเิ คราะหข์ อ้ มลู ขนาดใหญ่ภาครฐั (Government Big Data Analytics Framework) 2. หลกั สูตรเพื่อพัฒนาเป็นนกั วิทยาศาสตรข์ ้อมลู (Data Scientist) 2.1. หลักสูตรวิทยาศาสตร์ข้อมูลพ้ืนฐาน (ระยะเวลา 17-25 วัน) Basic Data Science เง่ือนไขท่ีต้องมีมาก่อน (Prerequisite) : ผู้เข้ารับการอบรมจ�ำเป็นต้องมี ทักษะภาษาโปรแกรมภาษาใดกไ็ ด้โดยผา่ นการทดสอบตรรกะดว้ ยผงั งาน (Flowchart) รปู แบบการสอน : Lecture, Problem-based Learning, Project-based Learning, Workshop ผลของการเรียน (Learning Outcome) : ผลของการเรยี น วธิ ีวดั ผล สอบข้อเขยี น ผู้เรียนสามารถทำ�ความเข้าใจข้อมูลแต่ละประเภท และสรุปผลเชงิ สถิตจิ ากขอ้ มลู ไดอ้ ย่างถกู ตอ้ ง สอบปฏิบัติ ผู้เรียนสามารถเขียนโปรแกรมภาษา R หรือ Python เพื่อทำ�ความสะอาดข้อมูลและขึ้นโมเดล สอบโดยการอภิปรายกลมุ่ และ วิเคราะหพ์ นื้ ฐานได้ นำ�เสนอผลงาน ผเู้ รยี นสามารถสรา้ งโมเดลคณติ ศาสตรพ์ น้ื ฐานตาม บริบทของงานได้ด้วยตวั เอง สอบโดยการนำ�เสนอผลงาน ผู้เรียนสามารถเล่าผลสรุปจากการวิเคราะห์และ (Presentation) ออกแบบการนำ�เสนอผลไดอ้ ย่างมปี ระสิทธผิ ล

กรอบการวเิ คราะห์ข้อมลู ขนาดใหญ่ภาครฐั (Government Big Data Analytics Framework) 113 องคป์ ระกอบของหลกั สตู ร : เน้ือหา รายละเอยี ด 1. การเกบ็ และการบรู ณาการ ความรู้เบื้องต้นเก่ียวกับการวิเคราะห์ข้อมูล รวมถึง ข้อมูล (Data Collection การอภิปรายเทคนิคท่ัวไปที่ส�ำคัญส�ำหรับการวิเคราะห์ and Integration) และแปลงให้ได้มาซึ่งสารสนเทศที่มีความหมายจากชุด ระยะเวลา 1 วนั ข้อมูลต่าง ๆ อธิบายหลักการท่ีเกี่ยวข้องกับการด�ำเนิน การเกบ็ รวบรวมขอ้ มลู การแปลง การท�ำความสะอาดขอ้ มลู (Data Cleaning and Integration) และการตดั สนิ ใจขอ้ มลู โดยเน้นการคิดเชิงวิเคราะห์ 2. Data Science with Basic สอนการเขียนโปรแกรมพ้ืนฐานเฉพาะเพื่อการวิเคราะห์ Python Programing or R ข้อมูล โดยการพัฒนาความรู้ความสามารถในการเขียน Programing โปรแกรมภาษา Python หรอื ภาษา R ซงึ่ เป็นภาษาท่ีใชก้ ัน ระยะเวลา 3 วัน อย่างแพรห่ ลาย 3. Introduction to Statistics ระยะเวลา 2-4 วัน - Descriptive Statistics ความรเู้ บื้องต้นเก่ยี วกบั สถติ ิเชิงพรรณนา ไดแ้ ก่ คา่ เฉลี่ย - Basic Statistical มัธยฐาน ฐานนิยม ความแปรปรวน และค่าเบ่ียงเบน Inference มาตรฐาน ความรู้เบื้องต้นเก่ียวกับสถิติเชิงอนุมาน การประเมิน ค่าพารามิเตอร์ในประชากร การทดสอบสมมติฐาน ความคลาดเคลื่อนในการทดสอบสมมติฐาน การประมาณ แบบชว่ ง การประเมนิ สมบตั แิ ละการควบคมุ ความผดิ พลาด ของการทดสอบสมมติฐานและการประมาณแบบช่วง ตัวอย่างเน้ือหาเช่น Frequency Distributions, Central Tendency, Correlation, Hypothesis Testing, ANOVA

114 กรอบการวิเคราะหข์ ้อมลู ขนาดใหญ่ภาครัฐ (Government Big Data Analytics Framework) เน้ือหา รายละเอียด 4. Exploratory Data การวเิ คราะหข์ อ้ มลู เบอ้ื งตน้ ประกอบดว้ ย การตรวจสอบ Analysis ความผิดพลาดในการกรอกข้อมูล ค่าสูญหาย (Missing ระยะเวลา 2-3 วัน value) ค่าผิดปกติ (Outlier) การแจกแจงของข้อมูล ความเท่ากันของความแปรปรวน (Homogeneity of Variance or Equality of Variance) ความสัมพันธ์ เชิงเส้นตรง ภาวะร่วมเส้นตรงพหุ (Multicollinearity) และส่วนเหลือ (Residual) รวมทั้งการน�ำเสนอข้อมูล การแสดงความถี่ การแสดงการเปรียบเทียบและแนวโน้ม การแสดงการจัดล�ำดบั 5. Data Cleansing with การท�ำความสะอาดข้อมูล เพื่อเตรียมการส�ำหรับ Python or R การวิเคราะห์ โดยเรียนรู้หลักการพ้ืนฐานของการประเมิน ระยะเวลา 1-2 วัน ข้อมูลและท�ำความสะอาดข้อมูลด้วยการเขียนโปรแกรม ภาษา R หรือ Python

กรอบการวเิ คราะหข์ อ้ มลู ขนาดใหญ่ภาครฐั (Government Big Data Analytics Framework) 115 เนือ้ หา รายละเอยี ด 6. Basic Machine Learning ความรู้เบ้ืองต้นเกี่ยวกับการเรียนรู้ของเครื่อง ข้ันตอน ระยะเวลา 4-6 วนั ที่จ�ำเป็นส�ำหรับการสร้างแบบจ�ำลองการเรียนรู้ของ เครอ่ื ง แนวคดิ การเรยี นรดู้ ว้ ยเครอื่ งและประเภทการเรยี นรู้ แบบมีผู้สอน (Supervised Learning) และการเรียนรู้ แบบไม่มีผู้สอน (Unsupervised Learning) การประเมิน ขั้นตอนวิธีการเรียนรู้ของเครื่อง การวิเคราะห์ที่ไม่ข้ึนกับ ข้ันตอนวิธี การเรียนรู้แบบเสริมก�ำลัง (Reinforcement Learning) อัลกอริทึมส�ำหรับการจัดแบ่งประเภท เรียนรู้ คลังโปรแกรมท่ีใช้อย่างแพร่หลายของอัลกอริทึมส�ำหรับ การเรยี นรดู้ ว้ ยเครอ่ื ง การเตรยี มประมลู ผลขอ้ มูลเพื่อสร้าง Data Set ท่ีมีคุณภาพ การบีบอัดเพื่อลดมิติของข้อมูล การประเมนิ ผลแบบจ�ำลองและการปรับแตง่ พารามิเตอร์ - Linear Regression (Generalized Linear Model, Linear Regression, Poisson Regression, Survival Analysis) - Classification (Decision Three, Support Vector Aachine, Random Forest) - Clustering (kNN, Hierarchical Clustering, K-Mean Clustering) - Co-Occurrence Analysis (Content-Based Filtering, Collaborative Filtering) - Performance Evaluation and Cost-Benefit (Accuracy, ROC, RMSE, Cost-Benefit) 7. Data Modeling Project เลือกโจทย์ปัญหาพื้นฐานขององค์กรท่ีมีข้อมูลพร้อมอยู่ ระยะเวลา 4-6 วัน แลว้ มาสรา้ งโมเดลคณติ ศาสตรท์ เ่ี หมาะสมเพอ่ื การวเิ คราะห์ เชิงพยากรณ์และน�ำเสนอผลงาน

116 กรอบการวิเคราะห์ข้อมลู ขนาดใหญภ่ าครัฐ (Government Big Data Analytics Framework) 2.2. หลักสตู รวทิ ยาศาสตรข์ ้อมูลขั้นกลาง (ระยะเวลา 9-12 วัน) Intermediate Data Science เงื่อนไขท่ีตอ้ งมีมาก่อน (Prerequisite) : ผู้เขา้ รับการอบรมจ�ำเปน็ ต้องผา่ น หลกั สตู รวทิ ยาศาสตรข์ อ้ มลู พนื้ ฐาน (Basic Data Science) หรอื มคี วามรพู้ น้ื ฐานตามหลกั สตู ร วทิ ยาศาสตร์ข้อมูลพน้ื ฐานโดยผ่านการทดสอบแบบออนไลน์ รูปแบบการสอน : Lecture, Problem-Based Learning, Project-Based Learning, Workshop ผลของการเรยี น (Learning Outcome) : ผลของการเรียน วธิ ีวัดผล ผู้เรียนสามารถท�ำความเข้าใจข้อมูลขนาดใหญ่ การอภิปรายและการสอบขอ้ เขียน เทคโนโลยีที่เก่ียวข้องและยกตัวอย่างการประยุกต์ ใชง้ านได้ สอบปฏบิ ัติ ผเู้ รยี นสามารถพฒั นาโมเดลคณติ ศาตรพ์ นื้ ฐานดว้ ย สอบโดยการนำ�เสนอผลงาน Spark R หรอื PySpark ผู้เรียนสามารถแสดงผลการวิเคราะห์ข้อมูล (Presentation) ขนาดใหญ่และออกแบบการน�ำเสนอผลได้อย่าง มปี ระสทิ ธผิ ล

กรอบการวเิ คราะหข์ อ้ มลู ขนาดใหญ่ภาครฐั (Government Big Data Analytics Framework) 117 องค์ประกอบของหลักสูตร : เน้อื หา รายละเอียด 1. Basic Big Data ความรู้เบื้องต้นเก่ียวกับความหมายและคุณลักษณะ Management ของข้อมูลขนาดใหญ่ เรียนรู้การประยุกต์ใช้ข้อมูลขนาด ระยะเวลา 2 วนั ใหญ่ผา่ นการอภิปรายกรณีศกึ ษาในบริบทต่างๆ เทคโนโลยี และแพลตฟอร์มพ้นื ฐาน เชน่ Hadoop, Spark วิธกี ารจดั เก็บข้อมูลขนาดใหญ่ หลักการใช้ข้อมูลเพื่อการวิเคราะห์ ผ่านเครือ่ งมือดา้ น Big Data การน�ำ เสนอข้อมลู ขนาดใหญ่ ด้วยภาพ 2. Basic Big Data Analytics ความรเู้ บอ้ื งตน้ ส�ำ หรบั การวเิ คราะหข์ อ้ มลู ขนาดใหญ่ และ and Programming การเขยี นโปรแกรมโดยใช้ Library และ Software Package ระยะเวลา 7-10 วนั ส�ำ หรับการวเิ คราะหข์ ้อมลู ขนาดใหญ่ผา่ นการลองทำ�จรงิ - Spark Ecosystem - PySpark หรอื Spark R - Basic Algorithm and Mathematics for Big Data Analysis - Basic Data Mining Over Massive Dataset Using Spark - Storytelling: Big Data Visualization

118 กรอบการวิเคราะหข์ อ้ มูลขนาดใหญภ่ าครัฐ (Government Big Data Analytics Framework) 2.3. หลักสูตรวิทยาศาสตร์ข้อมูลขั้นสูง (ระยะเวลา 8-16 วัน) Advance Data Science เงื่อนไขที่ต้องมมี าก่อน (Prerequisite) : ผเู้ ข้ารบั การอบรมจ�ำเปน็ ต้องผ่าน หลักสตู รวทิ ยาศาสตรข์ อ้ มลู ขั้นกลาง (Intermediate Data Science) หรอื มีความรพู้ ื้นฐาน ตามหลกั สตู รวทิ ยาศาสตร์ขอ้ มูลพน้ื ฐานและขนั้ กลางโดยผา่ นการทดสอบแบบออนไลน์ รูปแบบการสอน : Lecture, Workshop ผลของการเรียน (Learning Outcome) : ผลของการเรียน วิธวี ัดผล การสอบข้อเขยี นและสอบปฏิบัติ ผ้เู รยี นมีความเขา้ ใจและสามารถประมวลผล/ การสอบข้อเขียนและสอบปฏิบตั ิ วเิ คราะหข์ อ้ มลู ประเภทไฟลอ์ กั ษร (Text File) ได้ การสอบขอ้ เขยี นและสอบปฏิบัติ ผเู้ รียนมีความเขา้ ใจและสามารถประมวลผล/ วิเคราะหข์ ้อมลู ประเภทไฟล์ภาพได้ การสอบข้อเขยี นและสอบปฏิบตั ิ ผูเ้ รียนมีความเขา้ ใจและสามารถประมวลผล/ วิเคราะหข์ ้อมูลประเภทไฟล์วีดีโอได้ ผู้เรยี นมคี วามเขา้ ใจและสามารถประมวลผล/ วิเคราะห์ข้อมลู ประเภทไฟลเ์ สยี งได้

กรอบการวิเคราะห์ข้อมูลขนาดใหญภ่ าครฐั (Government Big Data Analytics Framework) 119 องค์ประกอบของหลักสูตร : หลักสูตรน้ีถูกออกแบบเพ่ือเสริมองค์ความรู้ในการประมวลผลข้อมูลประเภทไม่มี โครงสรา้ ง เชน่ ไฟลเ์ สยี ง ไฟลว์ ดี โี อ และไฟลอ์ กั ษร รวมทงั้ กลา่ วถงึ อลั กอรทิ มึ ทางสาขาปญั ญา ประดิษฐ์ (AI) และการประยุกต์ใช้อัลกอริทึมเพื่อการวิเคราะห์ข้อมูล โดยการสอนจะเน้น หลักการ ทฤษฎีพื้นฐาน และการพัฒนาโมเดลการวิเคราะห์โดยใช้ไลบาร่ีส�ำเร็จรูปและ เคร่ืองมือ เช่น Tensorflow เป็นต้น เน้ือหาหลักสูตรแบ่งเป็นโมดูลย่อยโดยในแต่ละโมดูล ผู้สอนจะบรรยายหลักการและทฤษฎีก่อนและ Workshop เพื่อให้ผู้เรียนได้ทดลองใช้ เคร่ืองมือเพื่อทดสอบการประมวลผลข้อมูลประเภทต่าง ๆ โดยประมาณการเวลาการสอน 2 วนั ตอ่ โมดูล ผสู้ อนจะเลือกโมดลู ท่ีเหมาะสมกบั บรบิ ทในการท�ำงานของผู้เรยี น เนอ้ื หา รายละเอียด 1. Neural Network ระยะเวลา 2 วัน 2. Deep Learning ระยะเวลา 2 วัน 3. GPU-Based Deep Learning Library and Tools ระยะเวลา 2 วัน 4. Basic Natural Language Processing ระยะเวลา 2 วัน 5. Text Mining ระยะเวลา 2 วัน 6. Social Network Analysis ระยะเวลา 2 วนั 7. Image Analytics ระยะเวลา 2 วัน 8. Voice Analytics ระยะเวลา 2 วัน 9. Voice Recognition ระยะเวลา 2 วัน

120 กรอบการวเิ คราะหข์ ้อมูลขนาดใหญ่ภาครัฐ (Government Big Data Analytics Framework) 3. หลกั สตู รเพ่อื พัฒนาเป็นนักวศิ วกรข้อมลู (Data Engineering) 3.1. หลกั สตู รนกั วศิ วกรขอ้ มลู (ระยะเวลา 17-25 วนั ) Basic Data Engineering เงื่อนไขที่ต้องมีมาก่อน (Prerequisite) : ผู้เข้ารับการอบรมจ�ำเป็นต้องมี ทกั ษะภาษาโปรแกรมภาษาใดกไ็ ดโ้ ดยผา่ นการทดสอบตรรกะดว้ ยผงั งาน (Flowchart) รปู แบบการสอน : Lecture, Problem-based Learning, Project-based Learning, Workshop ผลของการเรียน (Learning Outcome) : ผลของการเรียน วธิ วี ดั ผล การสอบขอ้ เขียน ผู้เรียนมีความเข้าใจพื้นฐานเรื่องวิศวกรรมข้อมูล การอภปิ รายหรอื สอบปากเปล่า และการให้บริการข้อมูล การสอบปฏิบตั ิ ผู้เรียนสามารถอธิบายถึงหลักการการกำ�กับดูแล ขอ้ มลู การสอบปฏบิ ัติ ผเู้ รยี นสามารถตดิ ตงั้ และตงั้ คา่ พนื้ ฐานส�ำ หรบั ระบบ ฐานข้อมูลแบบ SQL และ เข้าใจหลักการของ คลังข้อมลู ผู้เรียนสามารถทำ�กระบวนการ ETL (SQL to Datawarehouse) ได้

กรอบการวเิ คราะห์ขอ้ มลู ขนาดใหญภ่ าครัฐ (Government Big Data Analytics Framework) 121 องคป์ ระกอบของหลกั สตู ร : เนื้อหา รายละเอียด 1. Introduction to Data หลักการพ้ืนฐานและภาพรวมของวิศวกรรมข้อมูล Engineering (การแปลงข้อมูล การท�ำความสะอาดข้อมูลการบูรณาการ ระยะเวลา 3 วัน ข้อมูลพื้นฐาน) และวิทยาศาสตร์ข้อมูล (การตรวจวินิจฉัย ข้อมูล การมองภาพข้อมูลการประมวลผลคุณลักษณะ) รวมไปถึงกระบวนการการก�ำกับดูแลคุณภาพข้อมูล และกฎเกณฑ์/กฎหมายต่าง ๆ ที่เก่ียวข้องการรักษา ความลบั ขอ้ มลู - Data Engineering Concept - Data Science Concept - Data Governance Methodology - Thai Data Privacy Law and Regulations 2. Relational Database / หลกั การเบอ้ื งตน้ และการเปรยี บเทยี บระหวา่ งฐานขอ้ มลู NoSQL / Data Warehouse แบบสัมพันธ์ ฐานข้อมูลแบบ NoSQL และระบบบริหาร Concept จัดการคลังข้อมูล ผู้สอนอธิบายหลักการการประยุกต์ใช้ ระยะเวลา 2 วนั เทคโนโลยีท้ัง 3 ร่วมกันเพื่อจัดการการประมวลผล ขอ้ มลู ขนาดใหญ่ 3. Basic ETL and Data พ้ืนฐานการ Extract, Transform, Load (ETL) ข้อมูล Cleans จากฐานข้อมูลเพื่อน�ำเข้าสู่ระบบคลังข้อมูลและการท�ำ ระยะเวลา 3 วัน ความสะอาดข้อมูลเพื่อเตรียมส�ำหรับการวิเคราะห์ โดยทดสอบท�ำจริงดว้ ยเครอ่ื งมอื ส�ำเรจ็ รปู 4. Cloud Data Storage and หลกั การและการทดลองเรอื่ งการใชง้ านระบบคลาวดแ์ ละ Backup Process การดูแลกระบวนการด้านการส�ำรองขอ้ มลู พนื้ ฐาน ระยะเวลา 2 วัน 5. Open/Government หลักการและกรณีศึกษาด้านการให้บริการข้อมูล Data and Data Services สาธารณะของหน่วยงานภาครัฐ รวมไปถึงการบรรยาย ระยะเวลา 1 วัน สถาปัตยกรรมพืน้ ฐานที่เหมาะสมเร่ืองการให้บริการข้อมูล

122 กรอบการวิเคราะหข์ ้อมลู ขนาดใหญ่ภาครฐั (Government Big Data Analytics Framework) 3.2. หลักสูตรวิศวกรข้อมูลขั้นกลาง (ระยะเวลา 12 วัน) Intermediate Data Engineering เงือ่ นไขทตี่ อ้ งมีมากอ่ น (Prerequisite) : ผูเ้ ขา้ รบั การอบรมจ�ำเป็นตอ้ งผา่ น หลักสูตรวิศวกรรมข้อมูลพื้นฐาน (Basic Data Engineering) หรือมีความรู้พ้ืนฐานตาม หลักสตู รวิศวกรรมข้อมูลพ้ืนฐาน โดยผ่านการทดสอบแบบออนไลน์ รปู แบบการสอน : Lecture, Project-based Learning, Workshop ผลของการเรียน (Learning Outcome) : ผลของการเรียน วธิ ีวดั ผล ผเู้ รยี นสามารถคน้ หา ดงึ และ Preprocess ขอ้ มลู สอบโดยการน�ำ เสนอผลงาน จากแหลง่ ขอ้ มลู ทางเลอื กทเ่ี กย่ี วขอ้ งกบั บรบิ ทงานได้ (Presentation) ผเู้ รยี นเขา้ ใจหลกั การและเทคนคิ ส�ำ หรบั การพฒั นา บรกิ ารขอ้ มลู ภาครฐั สอบโดยการอภิปราย

กรอบการวเิ คราะห์ข้อมูลขนาดใหญ่ภาครัฐ (Government Big Data Analytics Framework) 123 องคป์ ระกอบของหลักสตู ร : หลักสูตรน้ีถูกออกแบบเพ่ือเสริมองค์ความรู้ในการบริหารจัดการข้อมูลประเภทไม่มี โครงสร้าง โดยรวมถึงการจัดหา จัดเก็บ และจัดการข้อมูลจากแหล่งข้อมูลท้ังภายใน และภายนอกองคก์ ร รวมทั้งเทคนคิ เทคโนโลยีและวธิ กี ารต่าง ๆ ท่เี ก่ียวขอ้ งกับการใหบ้ ริการ ข้อมูลอย่างเป็นระบบ โดยการสอนจะเน้นหลักการ ทฤษฎีพ้ืนฐาน และการทดลองใช้ เคร่อื งมอื ส�ำเรจ็ รปู หรือระบบงานตัวอยา่ งเพ่ือเสริมความเข้าใจ เนอ้ื หา รายละเอียด 1. Data Sources เทคนิคและเทคโนโลยีส�ำหรับการจัดหา จัดการ และ ระยะเวลา 1 วนั จัดเก็บข้อมูลที่ได้จากแหล่งข้อมูลที่ใช้งานกันอย่าง แพร่หลาย เช่น Blog, IoTs, CCTV, Datawarehouse, Social Media, Mobile Apps, News and Websites, etc. รวมทั้งตวั อย่างการใชป้ ระโยชน์ขอ้ มูล 2. Web Scraping / Internet เทคนิคพน้ื ฐานและเครอ่ื งมอื ส�ำเรจ็ รปู ส�ำหรับประยกุ ต์ใช้ Crawler ในการดึงข้อมูลจากอินเทอเน็ต เพื่อการใช้ประโยชน์ใน ระยะเวลา 2 วัน เชงิ วเิ คราะห์ 3. Data Preprocessing วิธีการ เทคนิคและเคร่ืองมือส�ำเร็จรูปต่างๆ ที่ใช้ใน ระยะเวลา 2 วัน การประมวลผลก่อนการใช้งาน (Preprocess) ของข้อมูล ท่ไี ดจ้ ากแหลง่ ขอ้ มลู หลากหลาย 4. Metadata Management หลกั การเรอื่ งเมทาดาตา้ ของขอ้ มลู เพอ่ื จดั ท�ำแคต็ ตาลอ็ ก System / Data Catalog ข้อมูล และตัวอย่างบริการและ/หรือระบบสารสนเทศ ระยะเวลา 2 วนั เพื่อการค้นหาข้อมลู ในมิติต่าง ๆ 5. Data Exchange Services หลกั การและวธิ กี ารทใ่ี ชก้ นั อยา่ งแพรห่ ลายพรอ้ มตวั อยา่ ง ระยะเวลา 1 วนั กรณศี กึ ษาเรอื่ งการแลกเปลยี่ นขอ้ มลู ของหนว่ ยงานภาครฐั 6. Micro-Service Concept, การสรา้ งบริการข้อมลู ในรปู แบบพน้ื ฐาน Programming, and API Design for Data Services ระยะเวลา 4 วนั

124 กรอบการวิเคราะหข์ อ้ มูลขนาดใหญ่ภาครฐั (Government Big Data Analytics Framework) 3.3. หลกั สตู รวศิ วกรขอ้ มลู ขน้ั สงู (ระยะเวลา 12 วนั ) Advance Data Engineering เงื่อนไขท่ีต้องมมี ากอ่ น (Prerequisite) : ผู้เขา้ รับการอบรมจ�ำเปน็ ต้องผ่าน หลกั สตู รวศิ วกรรมขอ้ มลู ขนั้ กลาง (Intermediate Data Science) หรอื มคี วามรพู้ นื้ ฐานตาม หลักสูตรวิศวกรรมขอ้ มูลพื้นฐานและข้นั กลางโดยผ่านการทดสอบแบบออนไลน์ รูปแบบการสอน : Lecture, Workshop ผลของการเรียน (Learning Outcome) : ผลของการเรียน วิธีวดั ผล สอบปฏิบัติ ผู้เรียนมีความเข้าใจและสามารถติดตั้งและตั้งค่า พื้นฐานระบบฐานข้อมลู แบบ NoSQL ได้ สอบปฏบิ ตั ิ ผู้เรียนสามารถท�ำกระบวนการ ETL (NoSQL and File System to Data lake) ได้ สอบโดยการน�ำ เสนอผลงาน ผู้เรียนสามารถออกแบบสถาปัตยกรรมระบบ (Presentation) บิก๊ ดาตา้ ตามบริบทการใชง้ านได้ สอบขอ้ เขียน ผเู้ รยี นเข้าใจหลักการเรื่องความปลอดภัยข้อมลู สอบข้อเขียน ผู้เรียนเขา้ ใจหลกั การเรื่อง Data Virtualization สอบปฏบิ ัติ ผู้เรียนสามารถจัดการและบูรณาการข้อมูลแบบ Streaming ได้

กรอบการวิเคราะห์ขอ้ มูลขนาดใหญภ่ าครัฐ (Government Big Data Analytics Framework) 125 องค์ประกอบของหลักสตู ร : หลักสูตรน้ีถูกออกแบบเพ่ือเสริมองค์ความรู้ในการบริหารจัดการระบบการประมวล บ๊ิกดาต้า โดยการสอนจะเน้นหลักการ ทฤษฎีพื้นฐาน และการทดลองใช้เคร่ืองมือส�ำเร็จรูป และ/หรือ การเขียน Script หลงั จากผ้เู รยี นผ่านเนอื้ หาในหวั ขอ้ 1-4 แล้ว ผู้สอนและผู้เรียน สามารถเลือกโมดลู ย่อยเพือ่ เสรมิ องคค์ วามรู้ใหเ้ หมาะกบั บรบิ ทของงานได้ เนือ้ หา รายละเอียด 1. No SQL Database Management ระยะเวลา 3 วนั 2. Big Data Ecosystem and Platform ระยะเวลา 2 วัน 3. Data Integration and Service ระยะเวลา 2 วนั 4. Big Data Architectural การออกแบบสถาปตั ยกรรมส�ำหรบั Big Data Platform Design โดยเน้น Hadoop Ecosystem และการเลือก Service ระยะเวลา 2 วัน Components ที่เหมาะสมส�ำหรับข้อมูล/โจทย์ปัญหา และระบบงานท่ีจะพัฒนา การคัดเลือกเทคโนโลยีด้าน การการบูรณาการข้อมูลเพ่ือน�ำเข้าข้อมูลและกลไกการ เชื่อมต่อฐานข้อมูลท้ังแบบ Relational Database และ แบบ NoSQL เข้ากบั Big Data Platform 5. Data Virtualization Concept and Tools ระยะเวลา 2 วัน

126 กรอบการวิเคราะห์ขอ้ มลู ขนาดใหญภ่ าครัฐ (Government Big Data Analytics Framework) เน้อื หา รายละเอียด 6. Information Security and Tools ระยะเวลา 2 วนั 7. Data Streaming Concept and Tools ระยะเวลา 2 วัน

กรอบการวิเคราะหข์ ้อมูลขนาดใหญ่ภาครัฐ (Government Big Data Analytics Framework) 127 ภาคผนวก ข.1 โครงสร้างและการใชง้ านของรายการข้อมลู (Data Catalog) ข.1.1 ข้นั ตอนของการสรา้ งระบบสารสนเทศรายการขอ้ มูลโดยสรปุ ภาพที่ ข.1.1 ขั้นตอนของการสร้างระบบสารสนเทศรายการขอ้ มูล ข้ันตอนในการสร้างระบบสารสนเทศรายการข้อมูลเร่ิมจากหน่วยงานจะต้องส�ำรวจ แหล่งข้อมูล (Data Source) ท่ีเป็นรูปแบบดิจิทัล ภายในหน่วยงานทั้งหมดไม่ว่าจะเป็นรูป แบบฐานข้อมูล ไฟล์ข้อความ ไฟล์ CSV ฯลฯ แหล่งข้อมูลเหล่านี้จะถูกเช่ือมต่อกันด้วย ซอฟต์แวร์บูรณาการข้อมูล (Data Integration Tools) เพื่อท�ำการรวบรวมข้อมูลส�ำคัญใน หน่วยงานพร้อมท้งั ระบแุ หล่งข้อมูลแต่ละชดุ จากนั้นขอ้ มลู เหล่านี้จะถูกจัดเป็นชดุ ขอ้ มูลตามความต้องการของผู้ใชง้ าน โดยขอ้ มูล ภายในชุดข้อมูลหน่ึง ๆ สามารถมาจากแหล่งข้อมูลที่หลากหลายได้ และข้อมูลแต่ละชิ้น สามารถอยู่ในชุดข้อมูลได้มากกว่า 1 ชุดตามความเหมาะสม ชุดข้อมูลแต่ชุดจะถูกก�ำหนด ค�ำอธบิ ายข้อมลู หรือเมทาดาต้า (Metadata) เพ่ือระบุรายละเอียดทัง้ เชิงเทคนิคและเชิงการ ใช้งาน เช่น ช่ือเจ้าของข้อมูล สิทธิการใช้งาน ความถ่ีในการปรับปรุงข้อมูล รวมไปถึงวิธีการ รอ้ งขอและเข้าถึงขอ้ มลู ต่าง ๆ (อา้ งองิ จากมาตรฐานเมทาดาต้าที่ สพร. ก�ำหนด) รายชอ่ื และเมทาดาตา้ ของชดุ ขอ้ มลู เหลา่ นจ้ี ะถกู น�ำไปสรา้ งเปน็ รายการขอ้ มลู และน�ำ ไปเผยแพร่ในรูปแบบที่ง่ายแก่การสืบค้นและใช้งาน เช่นในลักษณะระบบพอร์ทัลบริการ นามานุกรมข้อมูล (Directory Services) ท่ีมีกล่องให้ใส่ค�ำสืบค้น (Search Box) ทั้งน้ี ค�ำอธบิ ายขอ้ มลู ของชดุ ขอ้ มลู แตล่ ะชดุ ตอ้ งมกี ารปรบั ปรงุ ใหม้ คี วามเปน็ ปจั จบุ นั อยา่ งสมำ�่ เสมอ ตามความเหมาะสมของขอ้ มลู

128 กรอบการวเิ คราะหข์ ้อมลู ขนาดใหญภ่ าครฐั (Government Big Data Analytics Framework) ข.1.2 โครงสร้างส�ำคญั ของระบบสารสนเทศรายการข้อมูล สว่ นประกอบหลกั ของระบบสารสนเทศรายการขอ้ มูลดงั แสดงในภาพที่ ก.1.2 โดยมี องค์ประกอบส�ำคัญอยู่ทง้ั หมด 3 สว่ น ไดแ้ ก่ 1.) โปรแกรมเพื่อเช่ือมโยงพอร์ทัลบริการกับฐานข้อมูล ซ่ึงจะเป็นซอฟต์แวร์ตระกูล ที่ใช้ในการบูรณาการข้อมูล มีหน้าที่เชื่อมต่อแหล่งข้อมูลและรวบรวมข้อมูลทั้งหมดภายใน หน่วยงาน 2.) ระบบพอร์ทัลบริการนามานุกรมข้อมูล ส�ำหรับให้ผู้ใช้เข้าสืบค้นรายช่ือและ วธิ รี อ้ งขอชดุ ข้อมูลท่มี ีสทิ ธเิ ขา้ ถงึ ได้ 3.) เมทาดาต้าของชุดข้อมูลแต่ละชุด ซึ่งบอกถึงลักษณะของชุดข้อมูลท้ังในทาง เทคนิคและการใช้งาน รวมไปถึงพจนานุกรมข้อมูล (Data Dictionary) ที่บอกรายละเอียด เชงิ ลึกของข้อมูลช้ินต่าง ๆ ในแตล่ ะชุดข้อมลู Type: Public Owner: กบง Location: Local Database Domain: Research Usage: High Frequency Collection: นักวิจยั กรอก ภาพท่ี ข.1.2 โครงสรา้ งส�ำคญั ในระบบสารสนเทศรายการขอ้ มลู ภาครฐั

กรอบการวิเคราะห์ข้อมลู ขนาดใหญภ่ าครฐั (Government Big Data Analytics Framework) 129 หน่วยงานสามารถเลือกท่ีจะสร้างระบบสารสนเทศรายการข้อมูลได้โดยการจัดซื้อ จากเอกชนหรือสร้างต่อยอดจากซอฟต์แวร์ที่มีลักษณะท่ีเป็นโอเพ่นซอร์ส (Open Source) โดยปกติแล้วชุดซอฟต์แวร์ส�ำหรับบริหารจัดการระบบข้อมูลขนาดใหญ่ที่จัดจ�ำหน่ายใน ท้องตลาดปัจจุบันมักมีความสามารถในการสร้างระบบสารสนเทศรายการข้อมูลรวมอยู่ด้วย โดยจะมีทั้งระบบท่ีจัดการบูรณาการข้อมูลและหน้าจอสืบค้น รวมอยู่ในระบบนิเวศน์ (Ecosystems) เดยี วกนั เพอื่ ความสะดวกในการใชง้ าน อยา่ งไรกด็ ี หากหนว่ ยงานภาครฐั เลอื ก ท่ีจะใช้ซอฟต์แวร์ท่ีเป็นโอเพ่นซอร์สซ่ึงโดยปกติมีศักยภาพท่ีจ�ำกัดกว่า หน่วยงานอาจจะต้อง บูรณาการซอฟต์แวร์ร่วมกันมากกว่า 1 ระบบ และอาจมีความจ�ำเป็นต้องพัฒนาเพ่ิมเติม บางสว่ นจึงจะสามารถใช้งานได้สมบูรณ ์ ข.1.3 ซอฟต์แวร์ส�ำหรบั บรู ณาการขอ้ มลู (Data Integration) ซอฟต์แวร์ส�ำหรับบูรณาการข้อมูลจะท�ำงานอยู่เบ้ืองหลัง (Backend) ของระบบ สารสนเทศรายการขอ้ มลู โดยจะเชอื่ มตอ่ และรวบรวมขอ้ มลู จากหลายแหลง่ และหลายรปู แบบ หน้าที่หลักของซอฟต์แวร์น้ีจะเป็นการเป็นตัวกลางในการเช่ือมโยงพอร์ทัลกับฐานข้อมูล มคี ณุ ลักษณะดังต่อไปนี้ 1.) ผู้ดูแลระบบสามารถน�ำข้อมูลจากแหล่งต่าง ๆ ท่ีโปรแกรมเช่ือมต่อมาจัดสร้าง ชดุ ขอ้ มลู ใหมไ่ ดอ้ ยา่ งอสิ ระ ชดุ ขอ้ มลู แตล่ ะชดุ สามารถประกอบดว้ ยขอ้ มลู จากแหลง่ ทแี่ ตกตา่ ง กันได้ 2.) ซอฟตแ์ วรค์ วรมพี น้ื ทหี่ ลายสว่ นส�ำหรบั จดั เกบ็ ชดุ ขอ้ มลู ทถ่ี กู สรา้ งขน้ึ โดยแบง่ เปน็ สัดส่วนเพ่ือช่วยให้ง่ายแก่การจัดระเบียบชุดข้อมูลตามระดับชั้นความลับและจุดประสงค์ใน การใช้ขอ้ มลู 3.) เนื่องจากตัวซอฟต์แวร์มีหน้าท่ีเพียงดึงข้อมูลจากแหล่งข้อมูลมาจัดเตรียม (Preprocess) และส่งต่อให้ผู้ที่ร้องขอข้อมูล ซอฟต์แวร์น้ีจึงไม่มีความจ�ำเป็นต้องท�ำหน้าที่ เป็นแหลง่ เก็บข้อมลู กลางของหน่วยงาน ชดุ ขอ้ มลู ท่ีถูกสร้างสามารถอยู่ในรปู แบบของค�ำร้อง ส�ำหรับฐานข้อมูล (Database Query) ซ่ึงจะถูกประมวลผลเพ่ือดึงข้อมูลจากแหล่งต่าง ๆ ตามความต้องการของผู้ใชง้ าน

130 กรอบการวิเคราะหข์ ้อมูลขนาดใหญ่ภาครฐั (Government Big Data Analytics Framework) 4.) มีการให้บริการ API (Application Programming Interface) ส�ำหรับให้ผู้ใช้ ดึงข้อมูลของชุดข้อมูลแต่ละชุด และสามารถท�ำหน้าท่ีเป็นตัวเช่ือมระหว่างข้อมูลจริงกับ แอปพลิเคชนั หรือผู้ร้องขอข้อมลู เมื่อระบบได้รับค�ำร้องขอชุดข้อมูลจากผู้ใช้ ซอฟต์แวร์จะท�ำการส่งค�ำร้องขอข้อมูล (Query) ไปท่ีแหล่งข้อมูลต่าง ๆ เพื่อดึงข้อมูลส่วนท่ีต้องการมาให้แก่ผู้ร้องขอแบบเรียลไทม์ โดยข้อมลู ที่ได้จะมีความเปน็ ปจั จุบัน ดงั แสดงในภาพที่ ก.1.3 ทง้ั นซ้ี อฟตแ์ วร์อาจจะสามารถ ท�ำการเก็บข้อมูลช่ัวคราว (Caching) และปรับปรุงความทันสมัยเป็นระยะ ๆ เพ่ือช่วยลด ความคบั คงั่ (Congestion) ในการดงึ ขอ้ มลู พรอ้ มทง้ั เพมิ่ ประสทิ ธภิ าพในการท�ำงานไดอ้ กี ดว้ ย ภาพที่ ข.1.3 การส่งค�ำร้องขอขอ้ มลู จากชุดข้อมลู โดยโปรแกรมที่เชอื่ มโยงพอร์ทัลกับฐานข้อมลู

กรอบการวเิ คราะห์ขอ้ มูลขนาดใหญ่ภาครฐั (Government Big Data Analytics Framework) 131 ข.1.4 ระบบพอร์ทัลบริการนามานุกรมข้อมูล (Directory Services) ระบบพอร์ทัลบริการนามานุกรมข้อมูลจะท�ำงานเป็นเบื้องหน้า (Frontend) ของ ระบบสารสนเทศรายการขอ้ มลู ทม่ี ปี ฏสิ มั พนั ธก์ บั ผใู้ ชโ้ ดยตรง ระบบพอร์ทลั มหี นา้ ทใี่ นการให้ บรกิ ารสบื คน้ ขอ้ มลู ภายในองคก์ รและอ�ำนวยความสะดวกในการดงึ ขอ้ มลู มาใชง้ าน ระบบควร มคี ณุ สมบัตดิ งั ตอ่ ไปน้ี 1.) หน่วยงานสามารถจัดเก็บรายการชุดข้อมูลท้ังหมดภายในองค์กรได้อย่างสะดวก และครบถ้วน 2.) ระบบสามารถแสดงรายละเอยี ดเมทาดาตา้ ของแตล่ ะชดุ ขอ้ มลู รวมไปถงึ ตวั อยา่ ง ข้อมูลให้ผู้ใช้งานทราบได้ โดยผู้สร้างชุดข้อมูลสามารถก�ำหนดเมทาดาต้าของชุดข้อมูลให้ สอดคล้องกับระเบยี บแบบแผนไดด้ ้วยตนเอง 3.) หนว่ ยงานสามารถจัดหมวดหม่ขู องรายชือ่ ชดุ ข้อมูลได้ตามความต้องการ 4.) ผใู้ ชง้ านสามารถสบื คน้ ชดุ ขอ้ มลู ไดด้ ว้ ยตวั กรอง (Filter) ในมติ ติ า่ ง ๆ เชน่ รปู แบบ ของข้อมูล ช่ือของแผนก/หน่วยงานท่ีเป็นเจ้าของ ค�ำส�ำคัญ และอื่น ๆ แล้วแต่ลักษณะ การใชง้ าน 5.) ผู้สร้างชุดข้อมูลสามารถก�ำหนดค�ำค้น (Tag) ของชุดข้อมูลแต่ละชุดเพื่อช่วยใน การสืบค้นชุดข้อมูลได้ โดยค�ำค้นอาจถูกสร้างโดยอัตโนมัติด้วยความสามารถของซอฟต์แวร์ หรอื ผสู้ รา้ งเปน็ ผู้ก�ำหนดไวเ้ อง 6.) ผู้ดูแลระบบสามารถควบคุมสิทธิการใช้งานชุดข้อมูลต่าง ๆ ภายในระบบด้วย การก�ำหนดชน้ั ความลบั ของชดุ ขอ้ มลู ได้ สามารถยนื ยนั ตวั ตนของผใู้ ช้ (Authentication) ดว้ ย การล็อกอิน และสามารถจ�ำกัดขอบเขตในการมองเห็นและเข้าถงึ ชดุ ขอ้ มลู ตา่ ง ๆ ของผ้ใู ช้ได้ 7.) ผู้ใช้สามารถดึงรายละเอียดชุดข้อมูลต่าง ๆ ได้อย่างสะดวก เช่น มี API ส�ำหรับ ใช้งาน หากหน่วยงานเลือกใช้ซอฟต์แวร์โอเพ่นซอร์สในการสร้างระบบ ซอฟต์แวร์ท่ี เลอื กควรจะมีฐานผู้ใช้ทม่ี ขี นาดใหญ่ มกี ารปรับปรงุ โปรแกรมอยา่ งต่อเนอื่ ง และมกี ารพฒั นา ปลั๊กอิน (Plugins) เสริมจากกลุ่มผู้ใช้งาน ท้ังนี้เนื่องจากโปรแกรมโอเพ่นซอร์สส่วนมากไม่มี การสนับสนนุ โดยตรงจากทางผ้สู รา้ ง การเลือกโปรแกรมท่ีมีจ�ำนวนผใู้ ชส้ งู จะท�ำให้หน่วยงาน มที รัพยากรในการแก้ปญั หาที่อาจเกิดขึน้ จากการใชง้ านมากขึน้ นอกจากนี้ การที่โปรแกรมมี ปลั๊กอินเสริม ก็จะช่วยลดภาระของหน่วยงานในการพัฒนาความสามารถของระบบเพิ่มเติม ในอนาคตอีกทางหนึง่

132 กรอบการวิเคราะหข์ อ้ มูลขนาดใหญภ่ าครฐั (Government Big Data Analytics Framework) ภาพที่ ข.1.4 ตวั อย่างหน้าจอสืบคน้ (บน) และแสดงรายละเอยี ดชดุ ขอ้ มลู (ลา่ ง) ของระบบพอรท์ ลั บริการนามานกุ รมขอ้ มูล

กรอบการวเิ คราะหข์ อ้ มลู ขนาดใหญภ่ าครฐั (Government Big Data Analytics Framework) 133 หมายเหต:ุ หนา้ จอสบื คน้ และแสดงรายละเอยี ดชดุ ขอ้ มลู ในรปู ที่ ก.1.4 นน้ั ถกู พฒั นา จากซอฟตแ์ วรโ์ อเพน่ ซอรส์ ทมี่ ชี อ่ื วา่ “ckan” ซงึ่ เปน็ เพยี งตวั อยา่ งหนงึ่ ของซอฟตแ์ วรท์ ส่ี ามารถ น�ำมาชว่ ยสรา้ งระบบพอรท์ ลั บรกิ ารนามานกุ รมขอ้ มลู ได้ โดยซอฟตแ์ วรน์ ถ้ี กู ใชง้ านเปน็ วงกวา้ ง ในการท�ำระบบเพื่อเผยแพร่ข้อมูลของภาครัฐในนานาประเทศเช่น ข้อมูลเปิดของรัฐบาล สหรฐั อเมริกา (Data.gov) และของสหภาพยุโรป (Europeandataportal.eu)

134 กรอบการวเิ คราะหข์ ้อมลู ขนาดใหญภ่ าครฐั (Government Big Data Analytics Framework) ข.1.5 เมทาดาต้า (Metadata) ค�ำอธิบายข้อมูลหรือเมทาดาต้า มีหน้าที่ช่วยให้ข้อมูลเกี่ยวกับชุดข้อมูลต่าง ๆ เพมิ่ เตมิ ทง้ั ในดา้ นการบรหิ ารจดั การชดุ ขอ้ มลู และลกั ษณะของขอ้ มลู ภายใน รายละเอยี ดเหลา่ น้ีสามารถใช้เป็นข้อมูลเบ้ืองต้นเพื่อช่วยเหลือนักวิเคราะห์ข้อมูล นักวิทยาศาสตร์ข้อมูล และ ผู้ใช้ข้อมูล ในการวางแผนและใช้ประกอบการตัดสินใจเบื้องต้นในการใช้ประโยชน์ข้อมูล โดยเนอื้ หาสว่ นมากของเมทาดาตา้ จะเปน็ การอธบิ ายภาพรวมของทงั้ ชดุ ขอ้ มลู เชน่ ชอื่ เจา้ ของ ชุดข้อมูล ความถี่ในการปรบั ปรงุ ขอ้ มูล ระดบั ช้ันความลบั เปน็ ต้น ท้ังน้ีส�ำนักงานพัฒนารัฐบาลดิจิทัลร่วมกับส�ำนักงานสถิติแห่งชาติและสถาบัน สง่ เสรมิ การวเิ คราะหแ์ ละบรหิ ารขอ้ มลู ขนาดใหญภ่ าครฐั ไดอ้ อกเอกสารเพอ่ื ก�ำหนดมาตรฐาน ขน้ั ตำ�่ ใหห้ นว่ ยงานน�ำไปใชจ้ ดั ท�ำเมทาดาตา้ ภายในหนว่ ยงาน ส�ำหรบั การจดั ท�ำรายการขอ้ มลู (Data Catalog) ของหน่วยงานและของประเทศเพื่อการเช่ือมโยงและแลกเปล่ียนข้อมูล ภาครฐั ในอนาคต โดยแนะน�ำให้หนว่ ยงานภาครัฐใช้เมทาดาตา้ ดงั แสดงในตารางที่ ข.1.1 ตารางที่ ข.1.1 เมทาดาต้าทีส่ �ำคัญตอ่ การใชป้ ระโยชน์ No. ชอื่ รายการ ช่ือทางเทคนคิ ค�ำอธบิ าย ตัวเลอื ก / ไทย data_type ชุดขอ้ มูลนี้เป็นขอ้ มูล รูปแบบ ประเภทใด 1 ประเภทข้อมูล title Code data_owner ชื่อของชุดข้อมลู ทก่ี �ำหนด (Character 1 2 ชื่อชุดข้อมูล โดยองค์กรทร่ี ับผิดชอบ digits (0-9)) 3 องค์กร ขอ้ มูล หรือ CHAR(1) ชื่อองคก์ รทร่ี บั ผิดชอบ ขอ้ มูล Text (150 Characters) Code (Character 6 digits (0-9)) หรือ CHAR(6) (ดรู ายละเอียด ภาคผนวก ข.2)

กรอบการวเิ คราะห์ขอ้ มูลขนาดใหญ่ภาครฐั (Government Big Data Analytics Framework) 135 No. ชื่อรายการ ชอ่ื ทางเทคนคิ ค�ำอธิบาย ตวั เลอื ก / ไทย รปู แบบ 4 ชือ่ ผู้ตดิ ตอ่ contact_person ชือ่ กอง ส�ำนัก ฝ่าย Text หรือบคุ คลที่ได้รับการ (150 มอบหมายใหร้ บั ผิดชอบ Characters) ข้อมลู หรอื VARCHAR (150) 5 อีเมลผู้ติดต่อ contact_email อีเมลกอง ส�ำนกั ฝา่ ย Text หรอื บคุ คลที่ไดร้ บั การ (50 Charac- มอบหมายให้รับผดิ ชอบ ters) ขอ้ มลู หรือ VARCHAR (50) 6 ค�ำ สำ�คญั tag_string หวั ข้อ ค�ำ วลี หรอื แท็ก Text แยกแตล่ ะ (tag) ท่ีใชร้ ะบคุ �ำส�ำคัญ keywords ด้วย “,”(comma) 7 รายละเอยี ด notes ค�ำอธบิ ายรายละเอียด (200 ทีส่ �ำคญั ของชุดขอ้ มลู Characters) อยา่ งส้ัน เช่น ค�ำนิยาม หรือ VARCHAR ชุดขอ้ มูลเก่ยี วกับอะไร (200) มีวธิ ีการจดั เก็บแบบใด Text (1,000 กลุ่มเปา้ หมายผ้ใู ชง้ าน Characters) ขอ้ มูล เปน็ ใคร หรือ VARCHAR (1,000)

136 กรอบการวิเคราะห์ขอ้ มูลขนาดใหญภ่ าครฐั (Government Big Data Analytics Framework) No. ชือ่ รายการ ช่ือทางเทคนคิ ค�ำอธิบาย ตัวเลอื ก / ไทย รปู แบบ 8 วตั ถปุ ระสงค์ objective อธบิ ายทมี่ าและวตั ถปุ ระสงค์ Code ของการจดั ท�ำชดุ ข้อมูล (Character 2 เชน่ กฎหมาย ภารกิจ digits (0-9)) โครงการตามแผน หรอื CHAR(2) ยทุ ธศาสตร์ และเพือ่ ใช้ (ดูรายละเอียด ในการวเิ คราะห์หรอื ภาคผนวก ข.2) ตอบโจทยใ์ นประเดน็ ยทุ ธศาสตรใ์ นเรือ่ งใดที่ ผูใ้ ช้ตอ้ งการ 9.1 หนว่ ยความถี่ update_ ส�ำหรับขอ้ มลู ทะเบียน Code ของการ frequency_unit ข้อมลู ระดับยอ่ ย และ (Character 1 ปรบั ปรุงข้อมลู ขอ้ มลู ภมู ิสารสนเทศเชงิ digits (A-Z)) พน้ื ท่ี : ความถ่ีท่ีขอ้ มลู ใน หรือ CHAR (1) ระบบคลังข้อมลู ถกู (ดรู ายละเอยี ด ปรับปรงุ /เพิ่ม หรอื ภาคผนวก ข.2) เปล่ยี นแปลงส�ำหรับทว่ั ไป และสถิติทางการ : ความถี่ ในการเผยแพร่ตอ่ ผู้ใช้ ข้อมลู 9.2 คา่ ความถข่ี อง update_ ใช้คุณสมบตั ินี้ประกอบ Number หรอื การปรับปรงุ frequency_ กับหน่วยความถใ่ี นการ เวน้ วา่ งไว้ หรือ ข้อมูล ปรับปรงุ ข้อมลู ตวั อยา่ ง INTEGER (2) interval เช่น ถา้ ชดุ ขอ้ มูลมีการ ปรับปรุงทกุ ๆ 2 ปี ทา่ น สามารถใส่ “2”ส�ำหรับ ค่าความถ่ี และ “รายป”ี ส�ำหรบั หนว่ ยความถี่

กรอบการวเิ คราะห์ขอ้ มลู ขนาดใหญ่ภาครัฐ (Government Big Data Analytics Framework) 137 No. ชอื่ รายการ ชือ่ ทางเทคนคิ ค�ำอธบิ าย ตัวเลือก / ไทย รูปแบบ 10 ขอบเขตเชิง geo_coverage ส�ำหรับข้อมูลทะเบียน Code ภูมิศาสตร์หรือ ข้อมลู ระดบั ยอ่ ย และ (Character 2 เชงิ พ้ืนท่ี ข้อมูลภูมสิ ารสนเทศเชงิ digits (0-9)) พื้นท่ี: มติ กิ ารจัดจ�ำแนก หรอื CHAR(2) ขอ้ มลู พื้นท่ใี นระดับยอ่ ย (ดูรายละเอียด ทสี่ ดุ ในการจดั เกบ็ ข้อมูล ภาคผนวก ข.2) ส�ำหรับสถิตทิ ั่วไปและ สถติ ิทางการ: มิติการจดั จ�ำแนกขอ้ มลู พน้ื ทใี่ น ระดับย่อยท่สี ดุ ใน การน�ำเสนอขอ้ มูล 11 แหล่งทมี่ า data_source แหล่งที่มาของข้อมูลท่นี �ำ Text มาจดั ท�ำชุดข้อมูล พรอ้ ม (200 หนว่ ยงานที่จัดท�ำ เชน่ Characters) ส�ำรวจภาวะการท�ำงาน หรือ VARCHAR ของประชากร (ส�ำนักงาน (200) สถิตแิ ห่งชาติ) ฐานข้อมลู ทะเบียนราษฎร์ (กรม การปกครอง) 12 รปู แบบการ data_format รูปแบบของการจัดเกบ็ Code เก็บขอ้ มลู ข้อมูล (Character 2 digits (0-9)) หรือ CHAR(2) (ดูรายละเอยี ด ภาคผนวก ข.2)

138 กรอบการวเิ คราะหข์ ้อมลู ขนาดใหญภ่ าครฐั (Government Big Data Analytics Framework) No. ชือ่ รายการ ชอื่ ทางเทคนคิ ค�ำอธิบาย ตัวเลือก / ไทย รูปแบบ 13 หมวดหมู่ data_category หมวดหมขู่ ้อมลู ตาม Code ข้อมูลตาม ธรรมาภบิ าลขอ้ มลู ภาครัฐ (Character 1 ธรรมาภิบาล digits (1-4)) ข้อมูลภาครัฐ หรอื CHAR (1) (ดูรายละเอยี ด ภาคผนวก ข.2) 14 สญั ญาอนุญาต right_of_usage สญั ญาอนุญาตใหใ้ ชข้ ้อมูล Code ใหใ้ ช้ขอ้ มลู ตอ้ งสอดคลอ้ งกับหมวด (Character 1 หมขู่ ้อมูลตามธรรมาภบิ าล digits (0-9)) ข้อมลู ภาครัฐ หรอื CHAR (1) (ดูรายละเอยี ด ภาคผนวก ข.2)

กรอบการวิเคราะหข์ อ้ มลู ขนาดใหญภ่ าครัฐ (Government Big Data Analytics Framework) 139 พจนานกุ รมขอ้ มูล (Data Dictionary) เป็นส่วนหนึง่ ของเมทาดาต้าท่ีมหี นา้ ท่อี ธบิ าย ขอ้ มูลภายในชดุ ข้อมลู อยา่ งละเอียดเปน็ รายตัวแปร พรอ้ มทงั้ อาจมีตวั อยา่ งของขอ้ มูลภายใน ชุดประกอบอยู่ด้วย รูปที่ ข.1.5 แสดงตัวอย่างของเมทาดาต้าและพจนานุกรมข้อมูลของชุด ขอ้ มูล ภาพที่ ข.1.5 ตวั อย่างของเมทาดาตา้ ของชดุ ขอ้ มูล (บน) และตัวอยา่ งของพจนานกุ รมขอ้ มลู (ล่าง)

140 กรอบการวเิ คราะหข์ อ้ มลู ขนาดใหญภ่ าครฐั (Government Big Data Analytics Framework) ข.1.6 การใช้งานระบบสารสนเทศรายการข้อมลู ส�ำหรับการสร้างระบบสารสนเทศรายการข้อมูลน้ัน นอกจากจะช่วยให้เจ้าหน้าที่ ภายในหนว่ ยงานทราบถงึ ขอ้ มลู ทห่ี นว่ ยงานครอบครองและแหลง่ ทเี่ กบ็ ของขอ้ มลู เหลา่ นน้ั แลว้ จดุ ประสงคห์ ลกั อกี ขอ้ หนง่ึ คอื การใหค้ วามสะดวกผใู้ ชใ้ นการคน้ หาขอ้ มลู อยา่ งมปี ระสทิ ธภิ าพ โดยระบบจะสามารถช่วยตอบผู้ใช้ว่า ข้อมูลท่ีต้องการน้ันมีอยู่ภายในหน่วยงานหรือไม่ และ สามารถเขา้ ถงึ ไดอ้ ยา่ งไร การใชง้ านระบบสารสนเทศรายการขอ้ มลู ของผใู้ ชข้ อ้ มลู จะมขี น้ั ตอน ดังตอ่ ไปนี้ 1) ผู้ใช้ท่ีต้องการข้อมูลท�ำการเข้าสู่หน้าจอแสดงผลของระบบพอร์ทัลบริการ นามานุกรมขอ้ มูลของหนว่ ยงาน ซงึ่ อาจอย่ใู นรูปแบบของหนา้ เวบไซต์ 2) ผู้ใช้ท�ำการค้นหาข้อมูลท่ีเกี่ยวข้องกับโจทย์ของตนผ่านทางกล่องใส่ค�ำค้น โดย ใช้กลุ่มค�ำที่มีความส�ำคัญกับข้อมูลที่ต้องการค้นหา ถ้าหากค�ำค้นที่ใช้ตรงกับชุดข้อมูลใด ชุดข้อมูลเหล่านั้นจะถูกน�ำมาแสดงผลบนหน้าจอให้ผู้ใช้ได้พิจารณา ในลักษณะเดียวกับ การสบื คน้ บนหน้าจอของ Google 3) จากรายช่ือชุดข้อมูลที่ค้นเจอในขั้นตอนท่ี 2) ผู้ใช้ระบบจะท�ำการเลือกชุดข้อมูล และตรวจสอบรายละเอยี ดของชดุ ขอ้ มลู เหลา่ นนั้ เพอื่ ความแนใ่ จวา่ เปน็ ชดุ ขอ้ มลู ทตี่ นตอ้ งการ โดยจะท�ำการส�ำรวจดเู มทาดาต้าและพจนานกุ รมขอ้ มลู ของชดุ ขอ้ มลู น้ัน ถ้าหากขอ้ มูลในชุด สามารถตอบโจทยไ์ ด้ ผใู้ ชจ้ ะท�ำการร้องขอข้อมูลตามชอ่ งทางทร่ี ะบุไวใ้ นเมทาดาตา้ หลังจากผู้ใช้ยืนยันค�ำขอข้อมูลตามสิทธิระบบจะท�ำการประมวลผลค�ำร้องเพื่อ ดงึ ขอ้ มลู และสง่ กลบั ไปหาผรู้ อ้ งขอทม่ี สี ทิ ธใิ นการเขา้ ถงึ ขอ้ มลู แบบเรยี ลไทม์ ผใู้ ชจ้ งึ ไดร้ บั ขอ้ มลู ทม่ี ีความเปน็ ปัจจุบันมากทีส่ ดุ ภาพที่ ข.1.6 การใช้งานระบบสารสนเทศรายการขอ้ มลู

กรอบการวเิ คราะห์ขอ้ มูลขนาดใหญ่ภาครฐั (Government Big Data Analytics Framework) 141 ภาคผนวก ข.2 แนวทางปฏบิ ตั ทิ างเทคโนโลยสี �ำหรบั การแปลงขอ้ มลู ใหอ้ ยใู่ นรปู แบบพรอ้ มใชง้ าน เอกสารฉบับน้ีอธิบายแนวทางปฏิบัติในการแปลงข้อมูลในรูปแบบ CSV (ย่อมาจาก Comma-Separated Values) ให้อยู่ในรูปแบบ XML (ย่อมาจาก Extensible Markup Language) และ JSON (ย่อมาจาก JavaScript Object Notation) ท่ีพร้อมส�ำหรับ การน�ำไปพฒั นาตอ่ ยอดเปน็ รปู ธรรม เชน่ พฒั นาเปน็ โปรแกรมพรอ้ มใชง้ านผา่ น Web/Mobile Applications หรือการวิเคราะห์ข้อมูล Data Analytics โดยเอกสารฉบับน้ีมีท่ีมาจากผล การส�ำรวจที่พบว่าข้อมูลในหน่วยงานภาครัฐส่วนใหญ่ยังถูกเก็บอยู่ในรูปแบบท่ีหลากหลาย แต่สามารถแปลงออกมา (Export) ให้ในรปู แบบ CSV ได้เป็นอย่างนอ้ ย ดงั น้ันแนวทางปฏบิ ตั ิ จงึ ตงั้ ตน้ ดว้ ยการทขี่ อ้ มลู ในรปู แบบ CSV ถกู แปลงใหอ้ ยใู่ นรปู แบบทมี่ มี าตรฐานพรอ้ มน�ำไปใช้ งานมากข้ึน ได้แก่ XML หรือ JSON ซึ่งมีการใช้งานอย่างแพร่หลายทั้งในและต่างประเทศ สามารถใช้งานได้สะดวก และท่ีส�ำคัญคือ มีข้ันตอนการแปลงข้อมูลท่ีชัดเจนพร้อมส�ำหรับ การน�ำไปปฏิบตั ิใช้และเชือ่ ถือได้ วิธีการแปลงขอ้ มลู เปน็ JSON และ XML ในเอกสารฉบบั น้ี แบ่งออกเปน็ 2 วิธี ไดแ้ ก่ 1. การแปลงดว้ ยเครอ่ื งมอื ออนไลน์ : เหมาะส�ำหรบั ขอ้ มลู ทไ่ี มต่ อ้ งการความปลอดภยั สูง และจ�ำนวนไม่มากนัก สามารถแปลงข้อมูลได้อย่างรวดเร็วทั้งยังไม่ต้องติดตั้งโปรแกรม ในเครื่อง 2. การแปลงด้วยเคร่ืองมือท่ีติดตั้งบนเคร่ือง : เหมาะส�ำหรับข้อมูลท่ีต้องการ ความปลอดภัยสูงมีขั้นตอนที่เยอะกว่าการใช้เคร่ืองมือออนไลน์ เคร่ืองมือที่เอกสารฉบับนี้ แนะน�ำคอื Openrefine ซงึ่ เปน็ โปรแกรม Open Source ทไ่ี ดร้ บั การยอมรบั จาก European Open Data Portal https://www.europeandataportal.eu ผู้ใช้สามารถดาวน์โหลด ซอฟต์แวร์ Openrefine ส�ำหรับระบบปฏิบัติการต่าง ๆ ได้จาก http://openrefine.org/ download.html จากนั้นท�ำการตดิ ตง้ั ตามขนั้ ตอนทีร่ ะบุในเว็บไซตด์ ังกลา่ ว

142 กรอบการวเิ คราะหข์ ้อมูลขนาดใหญ่ภาครัฐ (Government Big Data Analytics Framework) ข.2.1. วธิ ีการแปลงขอ้ มูลจาก CSV เปน็ JSON ข.2.1.1 การแปลงขอ้ มลู เครื่องมอื ออนไลน์ สามารถเลอื กได้ 2 วิธีดังน้ี • กรณขี อ้ มลู ถกู เกบ็ อยใู่ นเครอ่ื งอยา่ งเดยี ว สามารถแปลงขอ้ มลู ผา่ น URL: https:// www.csvjson.com/csv2json โดยผู้ใช้งานต้องอัปโหลดไฟล์ CSV โดยคลิก “Select a file..” จากน้ันคลิกปุ่ม “Convert” ระบบจะแปลงข้อมูลในรูปแบบ CSV ไปยัง JSON โดยอัตโนมัติ จากน้ันคลิก “Download” เพ่ือเก็บข้อมูลใน รปู แบบ JSON ไปใช้ในขน้ั ตอนตอ่ ไป • กรณีมีข้อมูลท่ีถูกเก็บอยู่บนคลาวด์ สามารถแปลงข้อมูลผ่าน URL: https:// codebeautify.org/csv-to-json-converter โดยผู้ใช้งานต้องอัปโหลดไฟล์ CSV โดยคลิก “Browse” หรือคลิก “Load Url” ในกรณีท่ีไฟล์อยู่บนคลาวด์ จากน้ันคลิกปุ่ม “CSV to JSON” ระบบจะแปลงไฟล์ในรูปแบบ CSV ไปยัง JSON โดยอัตโนมัติจากนั้นผู้ใช้งานคลิก “Download” เพื่อเก็บไฟล์ JSON ไปใชใ้ นขน้ั ตอนตอ่ ไป

กรอบการวเิ คราะห์ขอ้ มลู ขนาดใหญ่ภาครฐั (Government Big Data Analytics Framework) 143 ข.2.1.2 การแปลงขอ้ มลู ดว้ ยเครอื่ งมอื ทต่ี ดิ ตง้ั บนเครอ่ื ง สามารถใช้ Openrefine 3.0 ตามขนั้ ตอนดงั น้ี • ดับเบ้ลิ คลกิ เพ่ือเปิด Openrefine

144 กรอบการวเิ คราะห์ข้อมลู ขนาดใหญภ่ าครฐั (Government Big Data Analytics Framework) • เลือกไฟล์ CSV ทต่ี อ้ งการแปลง • คลกิ Create project

กรอบการวเิ คราะหข์ อ้ มลู ขนาดใหญภ่ าครัฐ (Government Big Data Analytics Framework) 145 • คลิก Templating • การเปล่ียน Template จาก CSV ไปเป็น JSON นน้ั ผู้ใช้ต้องท�ำการแก้ไข Prefix และ Suffix โดย Prefix จะอยใู่ นรปู แบบ “ [ ” และSuffix จะอยใู่ นรปู แบบ “ ] ” ท้ังนี้ผ้ใู ชส้ ามารถใช้ Row template เป็นคา่ default ได้ • เมอื่ แกไ้ ขเสรจ็ คลกิ “Export” เพอ่ื ดาวน์โหลดไฟล์

146 กรอบการวิเคราะหข์ อ้ มูลขนาดใหญภ่ าครัฐ (Government Big Data Analytics Framework) ข.2.2 วิธีการแปลงขอ้ มูลจาก CSV เปน็ XML ข.2.2.1 การแปลงข้อมูลเครอ่ื งมือออนไลน์ สามารถเลอื กได้ 2 วิธี ดังน้ี • แปลงข้อมลู ผ่าน URL: http://convertcsv.com/csv-to-xml.htm ผใู้ ชง้ านตอ้ ง อัพโหลดไฟล์ CSV โดยคลิก “Choose File” หรือคลิก “Enter URL” ในกรณี ทไ่ี ฟลอ์ ยบู่ นคลาวด์ จากนน้ั คลกิ ปมุ่ “Convert CSV to XML” ระบบจะแปลงไฟล์ ในรูปแบบ CSV ไปยัง XML โดยอัตโนมัติจากนั้นผู้ใช้งานคลิก “Download” เพอื่ เก็บขอ้ มูลในรปู แบบ XML ไปใชใ้ นข้ันตอนต่อไป • แปลงข้อมูลผ่าน URL: https://codebeautify.org/csv-to-xml-converter ผู้ใช้งานต้องอัปโหลดไฟล์ CSV โดยคลิก “Browse” หรือคลิก “Load Url” ในกรณีทไ่ี ฟลอ์ ยบู่ นคลาวด์ จากนัน้ คลกิ ปมุ่ “CSV to XML” ระบบจะแปลงไฟล์ ในรูปแบบ CSV ไปยัง XML โดยอัตโนมัติจากน้ันผู้ใช้งานคลิก “Download” เพื่อเก็บขอ้ มลู ในรูปแบบ XML ไปใช้ในขนั้ ตอนต่อไป ข.2.2.2 การแปลงขอ้ มลู ดว้ ยเครอื่ งมอื ทต่ี ดิ ตง้ั บนเครอ่ื ง สามารถใช้ Openrefine 3.0 ตามขนั้ ตอนดังน้ี • ดับเบ้ิลคลกิ เพือ่ เปิด Openrefine • เลอื กไฟล์ CSV ท่ตี ้องการแปลง • คลิก Create project ตามดว้ ย Export • คลกิ Templating • เพิม่ Prefix, Row Template และ Suffix ดงั ตัวอยา่ งตอ่ ไปน้ี ขอ้ มลู ทีถ่ กู เก็บเปน็ XML โดยปกตจิ ะมรี ปู แบบดงั นี้ <row> <ชื่อ Attribute1> คา่ ของ Attribute1 </ชอื่ Attribute1> <ชอ่ื Attribute2> คา่ ของ Attribute2 </ช่อื Attribute2> <ชอื่ Attribute3> คา่ ของ Attribute3 </ชื่อ Attribute3> </row> ตัวอย่างเชน่ <food> <name> Belgian Waffles </name> <price> $5.95 </price> <description> Two of our famous Belgian Waffles with plenty of real maple syrup

กรอบการวเิ คราะห์ข้อมูลขนาดใหญ่ภาครัฐ (Government Big Data Analytics Framework) 147 </description> <calories> 650 </calories> </food> โดยความหมายของตวั อย่างนค้ี ือข้อมูลอาหาร (food) ถกู เกบ็ ในรปู แบบของ XML และมี Attribute สีช่ นดิ คือ name มคี า่ Belgian Waffles price มีค่า $5.95 description มีค่า Two of our famous Belgian Waffles with plenty of real maple syrup calories มคี า่ 650 ในกรณีท่ีผู้ใช้งานต้องการแปลงข้อมูล CSV เป็น XML โดยใช้ Openrefine ซึง่ โปรแกรมจะอา่ นค่า {{cells [“ชอ่ื Attribute1”].value }} เปน็ ค่าของ Attribute น้นั ๆ ในขน้ั ตอนการเขยี น row template ดงั นน้ั จากตวั อยา่ งผใู้ ชง้ านสามารถเขยี น row template ไดด้ งั น้ี <food> <name> {{cells[“name”].value}} </name> <price> {{cells[“price”].value}} </price> <description> {{cells[“description”].value}} </description> <calories> {{cells[“calories”].value}} </calories> </food> • จากนัน้ คลกิ Export เพ่ือดาวน์โหลดไฟล์

148 กรอบการวเิ คราะหข์ อ้ มูลขนาดใหญภ่ าครัฐ (Government Big Data Analytics Framework) ข.2.3 ขั้นตอนหลงั จากการแปลงไฟล์เป็น JSON และ XML เพอื่ น�ำไปสู่การตอ่ ยอดใชง้ าน AB 3 Web/Mobile Analytics 2 Customize, RDF/ Prioritize Linked RDF 1 XML/JSON Data (CSV) แผนภาพแสดงขน้ั ตอนหลงั จากแปลงไฟลเ์ ปน็ JSON และ XML เพอ่ื น�ำไปสกู่ ารตอ่ ยอดใชง้ าน ใน Web/Mobile App หรือการวิเคราะห์ข้อมูล (Analytics) โดยสามารถเลือกใช้งานจาก ขอ้ มลู ในรปู แบบ XML/JSON ไดโ้ ดยตรงหรอื แปลงเปน็ รปู แบบของ RDF / Linked RDF กอ่ น


Like this book? You can publish your book online for free in a few minutes!
Create your own flipbook