แหล่งที่มาของข้อมูล (Source of Data) ข้อมูลสถิติอาจจำแนกตามแหล่งที่มาได้ 2
ทาง คือ
1. ข้อมูลปฐมภูมิ (Primary Data) เป็นข้อมูลที่ผู้ใช้หรือหน่วยงานที่ใช้เป็นผู้ทำการเก็บข้อมูลด้วยตนเอง
ซึ่งวิธีการเก็บรวบรวมข้อมูลอาจใช้วิธีการสัมภาษณ์ การทดลอง หรือการสังเกตการณ์
ข้อมูลปฐมภูมิเป็นข้อมูลที่มีรายละเอียดตรงตามที่ผู้ใช้ต้องการ
แต่มักจะเสียเวลาในการจัดหาและมีค่าใช้จ่ายสูง
2. ข้อมูลทุติยภูมิ (Secondary Data) เป็นข้อมูลที่ผู้ใช้ไม่ได้เก็บรวบรวมเอง
แต่มีผู้อื่นหรือ หน่วยงานอื่นๆ ทำการเก็บรวบรวมไว้แล้ว เช่น จากรายงาน
ที่พิมพ์แล้ว หรือยังไม่ได้พิมพ์ของ หน่วยงานของรัฐบาล สมาคม บริษัท สำนักงานวิจัย
นักวิจัย วารสาร หนังสือพิมพ์ เป็นต้น
การนำเอาข้อมูลเหล่านี้มาใช้เป็นการประหยัดเวลาและค่าใช้จ่าย
แต่ในบางครั้งข้อมูลอาจจะไม่ตรงกับความต้องการของผู้ใช้
หรือมีรายละเอียดไม่เพียงพอที่จะนำไปวิเคราะห์ นอกจากนี้ในบางครั้ง
ข้อมูลนั้นอาจมีความผิดพลาดและผู้ใช้มักจะไม่ทราบข้อผิดพลาดดังกล่าว
ซึ่งอาจมีผลกระทบต่อการสรุปผล ดังนั้น
ผู้ที่จะนำข้อมูลทุติยภูมิมาใช้ควรระมัดระวังและตรวจสอบคุณภาพข้อมูลก่อนที่จะนำไปวิเคราะห์
ความเหมาะสมของแหล่งข้อมูล
การเลือกใช้แหล่งข้อมูลที่ไม่เหมาะสมหรือมีการบิดเบือน
อาจทํา ให้ข้อสรุปที่ได้ผิดพลาดหรือชี้นํา
ผิดทาง นอกจากนี้อาจทํา ให้เกิดอันตรายและสร้างความเสียหายในรูปแบบต่าง ๆ ได้
ผิดทาง นอกจากนี้อาจทํา ให้เกิดอันตรายและสร้างความเสียหายในรูปแบบต่าง ๆ ได้
ความทันสมัยของข้อมูล
(currency) ควรตรวจสอบว่าข้อมูลเผยแพร่เมื่อใด
สํารวจและปรับปรุงเมื่อใด นอกจากนี้ในปัญหาที่สนใจ
ควรตรวจสอบว่าสามารถใช้ข้อมูลที่เผยแพร่นานมาแล้วได้หรือไม่
ความสอดคล้องกับการใช้งาน
(relevance) ควรตรวจสอบว่าข้อมูลเกี่ยวข้องกับปัญหาที่ต้องการหรือไม่
ความน่าเชื่อถือของแหล่งข้อมูล
(authority) พิจารณาความน่าเชื่อถือของแหล่งข้อมูล
ผู้เผยแพร่มีความชํา
นาญพอที่จะให้ข้อมูลในเรื่องดังกล่าวหรือไม่สามารถติดต่อผู้เผยแพร่ได้หรือไม่
ความถูกต้องแม่นยํา
(accuracy) ตรวจสอบความถูกต้องพื้นฐานของข้อมูล
ตรวจสอบว่ามีการนํา ข้อมูลไปอ้างอิงที่อื่น หรือไม่
หรือมีการตรวจสอบยืนยันความถูกต้องของข้อมูลหรือไม่
จุดมุ่งหมายของแหล่งข้อมูล
(purpose) ตรวจสอบว่าข้อมูลดังกล่าวถูกพัฒนาขึ้นเพื่อเป้าหมายใด
เช่น เพื่อใช้ในการรณรงค์ เผยแพร่เพื่อการโฆษณา หรือเพื่อการศึกษาอื่น ๆ
การเตรียมข้อมูล เมื่อเลือกแหล่งข้อมูลและรวบรวมข้อมูลได้แล้ว ขั้นตอนต่อไปคือ การเตรียมข้อมูล เพื่อเตรียมพร้อมสำหรับการประมวลผล ซึ่งเราก็ทราบแล้วว่า ข้อมูลที่ต้องใช้ในการประมวลผลต้องเป็นข้อมูลที่ถูกต้อง สมบูรณ์ ถ้าข้อมูลมีความผิดพลาดไม่สมบูรณ์เราก็จะได้ผลลัพธ์หรือสารสนเทศที่ไม่ถูกต้องสมบูรณ์ เช่นกัน ดังนั้น เราจึงต้องมีการเตรียมข้อมูล ซึ่งแบ่งออกได้เป็น 3 ขั้นตอน
1. 1. ทำความสะอาดข้อมูล เป็นการตรวจสอบความผิดพลาดของข้อมูล เช่น มีค่าว่าง มีค่าที่อยู่นอกขอบเขตค่าที่เป็นไปได้ หน่วยนับไม่ตรงกัน ค่าผิดปกติ หรือมีรูปแบบไม่ตรงกัน เป็นต้น การแก้ไขข้อมูลเมื่อพบว่ามีข้อผิดพลาดหากสามารถแก้ไขได้ให้ดำเนินการแก้ไขให้ถุกต้อง หรือลบข้อมูลส่วนนั้นออกไปถ้าไม่ส่งผลกระทบต่อการประมวลผล
2. 2. แปลงข้อมูล การแปลงข้อมูล คือ การเตรียมข้อมูลให้อยู่ในรูปแบบที่พร้อมสำหรับการประมวลผล โดยรูปแบบของข้อมูลที่พร้อมสำหรับการประมวลผล ซึ่งสามารถทำได้หลายรูปแบบ ขึ้นอยู่กับว่าเราสนใจจะนำข้อมูลนั้นไปทำอะไร หรือไปหาคำตอบเรื่องใด เช่น
2.1 การลดจำนวนข้อมูล เป็นการเลือกเฉพาะข้อมูลที่สนใจ หรือตัดข้อมูลที่ไม่จำเป็นต้องใช้ออกไป
2.2 การเพิ่มจำนวนข้อมูล เป็นการเพิ่มข้อมูลที่จำเป็นต้องใช้ในการประมวลผลเข้าไป
2.3 การรวมข้อมูล เป็นการจัดกลุ่มข้อมูลที่มีความสอดคล้องกันเข้าด้วยกัน
3. 3. เชื่อมโยงข้อมูล เป็นการเชื่อมโยงข้อมูลที่อยู่คนละรูปแบบ หรือ อยู่คนละแหล่งข้อมูลเข้าด้วยกัน
*** นักเรียนสามารถทำความเข้าใจเรื่อง การเตรียมข้อมูลได้ในวีดีโอด้านล่างนี้***
วีดีโอแสดงการเตรียมข้อมูล
การสำรวจข้อมูล
ในขั้นการสำรวจข้อมูลนั้น ขั้นตอนหลักคือ การทดลองวาดแผนภาพหรือกราฟของข้อมูลในรูปแบบต่าง ๆ เพื่อพิจารณาภาพรวมของข้อมูล ซึ่งจะทำให้เราพบข้อผิดพลาดหรือปัญหาที่เกิดจากการตั้งคำถามหรือการรวบรวมข้อมูล ซึ่งต้องกลับไปแก้ไขให้ถูกต้อง เช่น อาจพบ ข้อมูลสูญหาย ข้อมูลไม่ครบ ข้อมูลที่ค่าผิดปกติไป เป็นต้น