กูเกิลปล่อยชุดข้อมูล Visually Rich Document Understanding (VRDU) ชุดข้อมูลเอกสารรูปแบบต่างๆ เพื่อฝึกปัญญาประดิษฐ์อ่านแบบฟอร์มและดึงข้อมูลออกมาได้อย่างถูกต้อง
ความพิเศษของ VRDU คือมีเอกสารหลายรูปแบบ มีฟอร์มที่มีความซับซ้อนสูงๆ มีข้อมูล OCR คุณภาพสูงแนบมาให้เพื่อให้ผู้พัฒนา AI อ่านแบบฟอร์มสามารถเน้นการพัฒนาอยู่ที่การอ่านแบบฟอร์มอย่างเดียว
VRDU มีงานทดสอบประสิทธิภาพปัญญาประดิษฐ์สามระดับ ได้แก่
แบบฟอร์มเดี่ยว (Single Template Learning – STL) ฝึกอ่านแบบฟอร์มรูปแบบเดียว โดยทั่วไปควรมีความแม่นยำเกิน 90%
แบบฟอร์มผสม (Mixed Template Learning – MTL) ฝึกแบบฟอร์มหลายรูปแบบไปพร้อมกัน แล้วสุ่มทดสอบให้อ่านแบบฟอร์มบางรูปแบบที่เคยฝึกมา
แบบฟอร์มที่ไม่เคยเห็น (Unseen Template Learning – UTL) การฝึกแบบยากที่สุด เนื่องจากปัญญาประดิษฐ์ต้องเจอแบบฟอร์มรูปแบบที่ไม่เคยเจอมาก่อน แบบฟอร์มที่ใช้ฝึกกับแบบฟอร์มทดสอบเป็นคนละรูปแบบกัน
ผลทดสอบปัญญาประดิษฐ์อ่านแบบฟอร์มในปัจจุบัน เช่น LayoutLM หรือ FromNet นั้นพบว่าการทดสอบแบบ STL นั้นได้คะแนนค่อนข้างดีมาก แต่งานในกลุ่ม MTL และ UTL ยังได้คะแนนค่อนข้างแย่ แสดงให้เห็นว่าโลกปัญญาประดิษฐ์อ่านแบบฟอร์มนั้นยังสามารถปรับปรุงได้อีกมาก
ที่มา – Google AI Blog