[Visualization] Human Readable Format and Machine Readable Format
ทุกคนเคยสงสัยกันไหม ทำไมข้อมูลบางรูปแบบถึงต้องใช้เวลาและความพยายามอย่างมากในการสร้าง Visualization หรือบางทีก็ไม่สามารถสร้างได้
ในบทความนี้เราจะมาทำความรู้จักกับรูปแบบข้อมูลที่เหมาะสำหรับนำไปใช้สร้าง Visualization กัน จริง ๆ แล้ว ข้อมูลสามารถแบ่งได้หลากหลายรูปแบบ แต่รูปแบบหลัก ๆ ที่เราจะอ้างถึงในบทความนี้มีทั้งหมด 2 แบบด้วยกัน คือ Human Readable Format และ Machine Readable Format แต่ละรูปแบบคืออะไร? แบบไหนที่เหมาะสำหรับนำไปใช้สร้าง Visualization ? เราไปดูกันเลย
Human Readable Format หรือ Report Format ที่หลายคนอาจได้ยินหรือต้องเห็นอยู่บ่อยๆ ข้อมูลรูปแบบนี้จะเป็นข้อมูลที่มนุษย์สามารถเข้าใจได้โดยง่าย
ไม่ว่าจะเป็นรายงานสรุปยอดขายประจำเดือน รายงานโครงสร้างรายได้ และรายงานผู้ติดเชื้อโควิด ตามตัวอย่างด้านล่าง ล้วนแต่เป็นข้อมูลรูปแบบ Report Format นี้
แล้วข้อมูลรูปแบบนี้เหมาะสำหรับนำไปสร้าง Visualization หรือไม่ ?
คำตอบคือ ไม่ เพราะ Computer ไม่เหมือนมนุษย์ จึงไม่สามารถรู้ได้ว่า Column ไหนเป็นข้อมูลเกี่ยวกับอะไร Computer จะรู้แค่ว่า Column ชื่ออะไร และมีข้อมูลอะไรอยู่บ้าง ทำให้เวลาเรานำข้อมูล Report Format ไปใช้ในการสร้าง Visualization แล้ว Computer ไม่สามารถระบุได้ว่า Column ไหนเป็นเรื่องเดียวกันหรือเปล่า เช่นในตัวอย่างด้านล่าง ซึ่งเป็นข้อมูลยอดขายสินค้ารายวัน ถ้าเราลองมองดูเราจะสังเกตได้ว่ามีข้อมูลหลักๆ 3 อย่างคือ รหัสสินค้า, วันที่ และยอดขาย
ลองอ่านดูเร็ว ๆ ก็จะรู้เลยว่า
- Product 1 ขายวันที่ 1/1/2021 ได้ 300 บาท
- Product 1 ขายวันที่ 2/1/2021 ได้ 200 บาท
แล้ว Computer เห็นอะไร?
Computer จะเห็นแค่ว่าข้อมูลนี้มีทั้งหมด 4 Columns ด้วยกันคือ Product No, 1/1/2021, 2/1/2021 และ 3/1/2021 ซึ่งค่าข้างในเป็นตัวหนังสือ และตัวเลข
ซึ่งพอเรานำข้อมูลประเภทนี้ไปทำ Visualization แล้วเราอาจจะพบว่า ค่อนข้างยากเพราะว่าเราต้องเลือกข้อมูลทุกอันที่เรามีไปใช้ ยกตัวอย่างเช่น เราอยากจะสร้าง Line Chart เพื่อบอกว่า แต่ละวัน Product ไหนขายได้เท่าไรบ้าง เพื่อดูแนวโน้มต่าง ๆ สิ่งที่เราสามารถลองทำได้เป็นอันดับแรก คือ นำ Column ที่ชื่อว่า Product No และ 1/1/2021, 2/1/2021, 3/1/2021 ที่เป็นข้อมูลยอดขายไปใช้สร้าง Visualization ซึ่งสิ่งที่ได้จะเป็น Bar Chart แบบรูปด้านล่างซึ่งไม่ตรงตามที่เราต้องการ
และหากข้อมูลวันถัดมา เข้ามาเพิ่มดังรูปด้านล่าง เราก็ต้องลาก Column ‘4/1/2021’ มาใส่เพิ่มเติม ทำแบบนี้ไปเรื่อย ๆ ทุก ๆ วัน ถ้าเกิดเราลาหยุดไปเที่ยว Report ก็ไม่ Update ผู้บริหารก็ไม่สามารถดูข้อมูลล่าสุดได้ เราอาจจะต้องเปิดคอมขณะอยู่ที่พัทยา แล้วลาก ๆ วาง ๆ ทั้งหมดนี้จึงนำไปสู่ ข้อมูลอีกรูปแบบนึงที่เรียกว่า Machine Reable Format ซึ่งจะเป็นข้อมูลที่ Computer สามารถเข้าใจได้ และเหมาะสำหรับนำไปใช้ในการสร้าง Visualization
Machine Readable Format ข้อมูลรูปแบบนี้ ในแต่ละ Column จะเก็บข้อมูล เพียง 1 อย่างเท่านั้น เช่นตัวอย่างตามตารางด้านล่าง ข้อมูลประกอบไปด้วยข้อมูลทั้งหมด 3 อย่าง คือ วันที่, รหัสสินค้า และยอดขาย
แล้วพอเราลองนำข้อมูลนี้ไปใช้สร้าง Visualization หละ เราก็จะสามารถสร้าง Line Chart ได้อย่างง่ายดายดังรูปภาพด้านล่าง
แล้วถ้าข้อมูลวันถัดมา มาเพิ่มเราก็แค่เพิ่มข้อมูลต่อท้ายไป Line Chart ของเราก็จะ Update เองเรียบร้อย
เท่านี้เราก็จะสามารถสนุกสนานกับการสร้าง Visualization ของเราได้ สุดท้ายนี้
หวังว่าทุกคนจะสามารถเตรียมข้อมูลสำหรับสร้าง Visualization ได้ง่ายยิ่งขึ้น