เวลาเราใช้ Excel แล้วเราก็คอยใส่ข้อมูลเพิ่มเข้าไปในไฟล์ไปเรื่อยๆ วันนึงข้อมูลอาจจะเยอะขึ้นจนทำให้เวลาเราเปิดไฟล์แล้ว เครื่องคอมพิวเตอร์ของเราก็ช้าไปทันที หรืออาจจะไม่ตอบสนองไปเลย ทั้งนี้เป็นเพราะข้อมูลใน Excel ของเรามากเกินไป ทำให้ทรัพยากรของเครื่องคอมพิวเตอร์ของเราโดนใช้หมด วิธีแก้ที่ดีที่สุดก็คือการเลือกใช้ Tool ให้เหมาะสม ซึ่งอาจจะต้องเปลี่ยนไปใช้ database หรือ data warehouse ในการจัดเก็บข้อมูล

การเข้าถึงข้อมูล ถ้าเราเลือกใช้ Excel แล้วต่างคนต่างใช้ จะทำให้ข้อมูลกระจัดกระจาย และทำให้จัดการยาก

ขนาดของข้อมูลที่ Excel สามารถทำงานได้ ตัว Excel เองไม่ได้ถูกออกแบบมาเพื่อจัดการข้อมูลขนาดใหญ่ ดังนั้นถ้าข้อมูลมีเยอะขึ้นเรื่อยๆ ก็เริ่มจะไม่ตอบโจทย์ด้านการวิเคราะห์ Excel ก็สามารถทำกราฟแบบง่ายๆ ได้ แต่ถ้าเราต้องการ insight ที่ซับซ้อนมากขึ้น ตัว Excel ก็อาจจะเริ่มไม่ตอบโจทย์นี้

ถ้าเราตัดสินใจแล้วว่า Excel ไม่สามารถตอบสนองความต้องการการใช้งานได้ Tool แรกที่แนะนำเพราะคิดว่าเริ่มต้นง่ายคือ BigQuery BigQuery เป็นเครื่องมือที่ช่วยจัดการ data ได้ โดยที่ยังคงความง่ายอยู่ เพราะเราสามารถเริ่มต้นด้วยการส่งไฟล์ excel ขึ้นไปก็จัดเก็บได้แล้ว รวมถึงยังสามารถทำ visualization ได้แบบง่ายๆ อีกด้วย

ถ้าเราไป export ข้อมูลจากระบบอื่นๆ มาไว้บน Excel แล้วเราเปิดใช้ไม่ได้ สำหรับไอซ์ คิดว่าเรากำลังใช้ Big Data แล้ว

จริงๆ เราก็สามารถดึงกลับข้อมูลจาก BigQuery กลับมาที่ Excel เพื่อใช้งานข้อมูลได้ แต่จะมีความยากลำบากอยู่

Excel สามารถทำการเก็บข้อมูล คำนวณ และแสดงผล แต่ว่า BigQuery จะสามารถทำได้เพียงแค่การเก็บข้อมูลและคำนวณเท่านั้น ส่วนการแสดงผลอาจจะต้องพึ่ง Tool อื่น เช่น Tableau, Power BI หรือ Looker Studio และ Visualization Tool เหล่านี้ จะสร้างสิ่งที่เรียกว่า Interactive Dashboard ที่ทำให้ผู้ใช้สามารถปรับเปลี่ยนข้อมูลที่อยากเห็นได้ทันที ก็จะเป็นการทำให้เอาข้อมูลมาใช้ประโยชน์ได้สะดวกขึ้น

การใช้ BigQuery แล้วช้า ก็อาจจะเป็นเพราะข้อมูลมีมาก และซับซ้อนเกินไป จริงๆ ต้องมาดูว่าความต้องการของเราคืออะไร แล้วสร้างสิ่งที่เรียกว่า Materialized View ที่เป็นการเตรียมการคำนวณไว้ล่วงหน้า เรียกว่าให้ BigQuery ทำการสร้าง Table ที่มีการคำนวณเสร็จแล้ว และเป็นข้อมูลเฉพาะที่จะใช้เท่านั้น ก็จะทำให้การแสดงผลทำได้เร็วขึ้น

เวลาใช้ BigQuery เราสามารถที่จะ Upload Excel ขึ้นไปได้ แต่ก็จะมีข้อจำกัดที่ขนาดของไฟล์อยู่ แต่ถ้าไฟล์มีขนาดใหญ่มาก ก็อาจจะเอาเข้า Google Drive หรือ One Drive ก่อนแล้วเอา link มาให้ BigQuery ดึงข้อมูลเข้าไปได้

ทางเลือกอื่นก็จะมีเช่น ClickHouse ที่เป็น open source สามารถไปติดตั้งเองในองค์กรได้ แต่ก็อาจจะไม่สะดวกเท่า BigQuery 

ส่วนใครที่อยากจะทำ Data Pipeline เองก็อาจจะลอง Mage.ai ได้

ส่วน BI แบบที่เป็น open source ก็อาจจะลอง Apache Superset ได้

หากใครเจอปัญหานี้ ก็ลองเอาเทคนิคไปลองใช้ในองค์กรดูนะครับ

วรุฒ กฤษรุ่งเรือง

I'm a multi-faceted enthusiast at the forefront of technology, specializing in data engineering, DevOps, and machine learning engineering (MLE). My career is dedicated to crafting data-driven solutions and ensuring they are seamlessly deployed and served in real-world applications