การเตรยี มขอ้ มลู (Data Preparation)
การเตรียมข้อมูล (Data Preparation) หลงั จากเลือกแหล่งขอ้ มูลและรวบรวมขอ้ มูลเรียบร้อยแลว้ ข้นั ตอนต่อไปคือการ เตรียมขอ้ มูล เพ่อื ทาใหข้ อ้ มูลมีความถูกตอ้ ง ครบถว้ น สมบูรณ์ ไม่มีค่าผดิ ปกติ เพอ่ื เตรียมพร้อมสาหรับการประมวลผลขอ้ มูล
1. การทาความสะอาดข้อมูล (Data Cleansing) ขอ้ มูลที่รวบรวมมาน้นั อาจมีขอ้ ผดิ พลาดซ่ึงไม่เหมาะต่อการนาไปประมวลผล ไดแ้ ก่ • มีคา่ วา่ ง • มีค่าท่ีอยนู่ อกขอบเขตจากค่าที่เป็นไปได้ • ใชห้ น่วยนบั ผดิ • เป็นค่าผดิ ปกติ (outlier) • ใชร้ ูปแบบขอ้ มูลแตกต่างกนั • พมิ พผ์ ดิ
ซ่ึงสาเหตุเกิดจากผใู้ หข้ อ้ มูลกรอกขอ้ มูลไม่ครบถว้ น ผบู้ นั ทึกขอ้ มูลพมิ พ์ ขอ้ มูลผดิ พลาด หรือการขาดขอ้ กาหนดในการบนั ทึกขอ้ มูลการแกไ้ ขขอ้ มูลเม่ือ พบวา่ มีขอ้ ผดิ พลาด สามารถทาไดโ้ ดยการแกไ้ ขใหถ้ ูกตอ้ ง หรือลบขอ้ มูลท่ีไม่ ส่งผลกระทบต่อการประมวลผล หากขอ้ มูลมีจานวนไม่มาก สามารถใชค้ น ดาเนินการตรวจสอบและแกไ้ ขขอ้ มูล แต่หากขอ้ มูลมีจานวนมาก ตอ้ งอาศยั โปรแกรมคอมพวิ เตอร์ในการดาเนินการจดั เตรียมขอ้ มูลใหส้ อดคลอ้ งกบั เงื่อนไข และรูปแบบขอ้ มูลท่ีกาหนดในโปรแกรม
2. การแปลงข้อมูล (Data Transformation) เป็นการเตรียมขอ้ มูลใหอ้ ยใู่ นรูปแบบที่พร้อมสาหรับการประมวลผล โดยรูปแบบของขอ้ มูลที่ พร้อมประมวลผลในโปรแกรมตารางทางานน้นั แตล่ ะแถว (บรรทดั ) คือขอ้ มูล 1 รายการ และแตล่ ะ คอลมั น์ (หลกั ) คือ คุณลกั ษณะ หรือแอตทริบิวต์ ตวั อยา่ งตาราง แสดงตาแหน่งของแถวและคอลมั น์
3. การเชื่อมโยงข้อมูล (Data Combining) กรณีท่ีตอ้ งการใชข้ อ้ มูลของกลุ่มตวั อยา่ งที่มีการเผยแพร่จากหลายแหล่ง หรือมีหลายไฟลข์ อ้ มูล ตอ้ งทาการเชื่อมโยงขอ้ มูลจากหลายแหล่งเขา้ ดว้ ยกนั โดยใชค้ ุณลกั ษณะหรือแอตทริบิวต์ ที่มีอยรู่ วมกนั ของหลายแหล่งขอ้ มูล เป็น ตวั เช่ือมโยง
ตวั อยา่ งการเช่ือมโยงขอ้ มูลจาก 2 ตาราง ท่ีมีคุณลกั ษณะ “ช่ือ” ร่วมกนั
Search
Read the Text Version
- 1 - 7
Pages: