ปัจจุบันนี้แทบทุกองค์กรได้มีการนำข้อมูลมาใช้ขับเคลื่อนธุรกิจ โดยจะมีขั้นตอนและกระบวนการในการรวบรวมข้อมูลต่างๆ หรือเรียกว่าการทำ Data Pipelines ก่อนที่จะนำข้อมูลไปใช้งาน แต่ด้วยปริมาณของข้อมูลที่มากขึ้นและการนำข้อมูลไปใช้งานมีความซับซ้อนขึ้นเรื่อยๆ ทำให้บางครั้งการนำเอาข้อมูลไปใช้งานเกิดความผิดพลาดหรือคุณภาพของข้อมูลไม่เพียงพอ เมื่อเหตุการณ์เหล่านี้เกิดขึ้น สิ่งที่ Developer หรือ Data Engineer จะต้องทำคือการ monitor ข้อมูลเพื่อหาสาเหตุของปัญหาตั้งแต่ข้อมูลปลายทางย้อนกลับไปตามกระบวนการของ Data Pipeline เรื่อยๆ จนกว่าจะเจอต้นเหตุของปัญหา เพื่อแก้ไขข้อมูลให้ถูกต้อง ซึ่งทำให้เสียเวลาเป็นอย่างมากและอาจจะทำให้เกิดผลกระทบในนำข้อมูลไปใช้ในการขับเคลื่อนธุรกิจอีกด้วย
Data Monitoring vs Data Observability
ถ้าพูดถึงคำว่า data monitoring หลายๆ คนคงพอเดาได้ว่ามันคือการเฝ้าสังเกตกับข้อมูลที่เกิดขึ้น ณ เวลานั้น แต่ data observability จะเป็นนิยามของการเฝ้าสังเกตมากขึ้นอีกระดับ data monitoring นั้นจะมีข้อจำกัดอยู่หลายอย่างในการสังเกตข้อมูล ยกตัวอย่างเช่น สามารถดูสิ่งที่เกิดขึ้นกับข้อมูลได้เท่านั้น หรือในบางครั้งถ้ามี environment ในการจัดเก็บข้อมูลที่แตกต่างกันก็อาจจะต้องคอยทำการ monitoring ข้อมูลทีละตัว นอกจากนั้นระบบ monitoring เองอาจจะสามารถแจ้งผู้ใช้งานเกี่ยวกับความผิดปกติข้อมูลได้ แต่ไม่สามารถบอกได้ว่าทำไมความผิดปกตินั้นถึงเกิดขึ้น ปัญหาเหล่านี้เกิดขึ้นจากที่จุดไหน คนที่ดูแลข้อมูลจะต้องทำการแก้ไขปัญหาทีละจุดย้อนกลับไปเรื่อยๆ ซึ่งในบางครั้งอาจจะต้อง monitoring ย้อนกลับไปถึงปัญหาตั้งแต่ข้อมูลต้นทางเลยทีเดียว ในทางกลับกัน data observability สามารถบอกผู้ดูแลข้อมูลได้ว่าสาเหตุที่ข้อมูลผิดพลาดเกิดขึ้นจากอะไร, ทำไมถึงมีปัญหาเกิดขึ้นกับข้อมูล, ข้อมูลที่มีความผิดปกตินั้นเกิดขึ้นจากที่ไหน, ทำไม applications ที่มีการใช้งานข้อมูลถึงเกิด error และสามารถช่วยลดปัญหาเหล่านี้ไม่ให้เกิดขึ้นอีกในอนาคต เป็นการเฝ้าสังเกตข้อมูลลักษณะที่เป็นแบบ proactive เมื่อข้อมูลเกิดปัญหาและรู้ได้ว่าต้นเหตุของปัญหาอยู่ที่ไหนทำให้เราสามารถแก้ปัญหาข้อมูลที่ผิดพลาดได้ทันที
IBM Databand
IBM Databand คือซอฟต์แวร์ที่มีความสามารถในการทำ data observability ช่วยให้ทีม data engineer หรือผู้ดูแลข้อมูลสามารถใช้งานข้อมูลที่มีความถูกต้องและมีความน่าเชื่อถือมากยิ่งขึ้น โดยใช้ความสามารถในการเฝ้าสังเกตข้อมูลลักษณะที่เป็นแบบ proactive ในการติดตามข้อมูลตั้งแต่ขั้นตอนการเตรียมข้อมูลต้นทางไปจนถึงการนำข้อมูลไปใช้งาน ช่วยแก้ไขปัญหาของข้อมูลที่เกิดขึ้นได้ เช่น pipelines ของข้อมูลที่เสียหาย, มีการเปลี่ยนแปลงหรือมีความผิดปกติกับ schema ต่างๆ ใน database และช่วยแก้ไขปัญหาต่างๆ ที่เกี่ยวกับข้อมูลก่อนที่จะสร้างผลกระทบทางธุรกิจ นอกจากนั้น IBM Databand ยังช่วยยกระดับการดูแลข้อมูลในรูปแบบเดิมโดยใช้แนวโน้มในอดีตมาคำนวณสถิติเกี่ยวกับ data workloads และ data pipelines เพื่อแจ้งเตือนทีมที่ดูแลข้อมูลได้รู้ถึงความผิดปกติของข้อมูลก่อนที่จะเกิดปัญหา
IBM Databand มีคุณสมบัติต่างๆ เพื่อตอบโจทย์การทำ Data Observability ดังนี้
Data incident management เมื่อมีปัญหาเกิดขึ้นกับข้อมูล ผู้ดูแลผู้มูลสามารถบริหารจัดการทุกอย่างได้จากหน้าจอเดียว สามารถรู้สาเหตุของปัญหาที่เกิดขึ้นว่ามาจากจุดไหนและแก้ไขปัญหาที่เกิดขึ้นกับข้อมูลได้อย่างรวดเร็ว
Data pipeline monitoring ช่วยตรวจจับกระบวนการต่างๆ ของ data pipelines ที่เกิดปัญหาไม่ว่าจะเป็นข้อมูลที่ขาดหายไป, jobs ที่เกิดเกิดความผิดพลาดหรือมีการทำงานใช้เวลานานเกินกว่าปกติ
Data quality monitoring สามารถตรวจสอบและแจ้งเตือนในกรณีที่คุณภาพของข้อมูลไม่ตรงตามเงื่อนไขกำหนดไว้ เช่นการเปลี่ยนแปลง column โดยไม่คาดคิด หรือการใส่ค่าว่างลงในข้อมูล (null record) ก่อนที่จะมีการนำข้อมูลไปใช้งาน
Data anomaly detection เมื่อ data pipeline ใช้เวลานานเกินไปหรือข้อมูลมีการเปลี่ยนแปลงอย่างไม่คาดคิด IBM Databand จะสามารถตรวจจับความผิดปกติของข้อมูลได้แบบอัตโนมัติ
Data lineage and impact analysis หากมีข้อมูลใดข้อมูลหนึ่งเกิดปัญหา IBM Databand สามารถวิเคราะห์ผลกระทบที่เกิดขึ้นกับข้อมูลอื่นๆได้ ตั้งแต่ข้อมูลต้นทางไปจนจนถึงปลายทาง
ด้วยความสามารถในการทำ Data Observability จาก IBM Databand ช่วยให้ Data Engineer หรือทีมที่ดูแลข้อมูลสามารถตรวจสอบปัญหาที่เกิดขึ้นกับข้อมูลได้อย่างรวดเร็ว เพื่อแก้ปัญหาได้ทันท่วงที ช่วยให้องค์การนำข้อมูลที่มีความน่าเชื่อถือขับเคลื่อนธุกิจได้อย่างมีประสิทธิภาพ
สอบถามข้อมูลเพิ่มเติมได้ที่ บริษัท คอมพิวเตอร์ยูเนี่ยน จำกัด
โทร 02 311 6881 #7156,7158 หรือ email : cu_mkt@cu.co.th
เขียนบทความโดย คุณอนุวรรตน์ ชำนาญเวช
Presales Software Specialist
บริษัท คอมพิวเตอร์ยูเนี่ยน จำกัด