หลังจากที่ภาษาไทย เราได้ช่วยกันผลักดันให้โครงการ Common Voice ของ Mozilla เปิดรับบริจาคเสียงภาษาไทยได้เป็นที่สำเร็จเมื่อ 1 ปีก่อน มาวันนี้ขอเชิญชวนคนไทย/คนลาวที่อ่านหรือพิมพ์ภาษาลาวได้ มาช่วยกันผลักดันให้ Common Voice เปิดรับบริจาคเสียงภาษาลาวกัน
ชุดข้อมูล Common Voice เป็นชุดข้อมูลเสียงสำหรับระบบรู้จำเสียง โดยเสียงมาจากการบริจาคของอาสาสมัครหรือระบบ crowdsourcing และอยู่ภายใต้สัญญาอนุญาตสาธารณสมบัติ (CC-0) ทุก ๆ คนจากทั่วโลกสามารถใช้งานได้ฟรี ตัวอย่างเช่น โมเดล OpenAI Whisper ที่รองรับภาษาจากทั่วโลกและรองรับภาษาไทยด้วย เป็นต้น ดำเนินงานภายใต้ Mozilla องค์กรไม่แสวงหาผลกำไรระดับโลกที่ดูแล Firefox
ทำไมต้องภาษาลาว?
ภาษาลาวถือเป็นภาษาตระกูลขร้า-ไท ตระกูลเดียวกันกับภาษาไทย ปัจจุบัน ถือว่าเป็นหนึ่งในภาษาที่มีทรัพยากรทางภาษาต่ำ และไม่มีชุดข้อมูลเสียงสาธารณะมากเหมือนกับภาษาไทย หาก Common Voice ภาษาลาวเกิดขึ้นมาได้ จะทำให้ทรัพยากรภาษาแบบสาธารณะของภาษาลาวมีจำนวนมาก จะช่วยให้เทคโนโลยีรู้จำเสียงภาษาลาวจากทั่วโลก (ไม่จำกัดเฉพาะประเทศลาวหรือประเทศไทย) ทำงานกับภาษาลาวได้ดียิ่งขึ้น (เพราะข้อมูลที่นำไปเทรนโมเดลมีจำนวนมากขึ้น) รวมถึงซอฟต์แวร์รู้จำเสียงภาษาลาวแบบโอเพ่นซอร์ส (Open Source) เกิดขึ้นตามมาด้วยในอนาคต และยังมีประโยชน์ในการศึกษาทางภาษาศาสตร์ จะช่วยให้นักภาษาศาสตร์จากทั่วโลกสามารถหาตัวอย่างและศึกษาภาษาลาว รวมถึงภาษาตระกูลขร้า-ไท ได้ง่ายยิ่งขึ้น
วิธีการผลักดันภาษาลาวเข้า Common Voice
การผลักดันภาษาลาวเข้า Common Voice ต้องอาศัยการทำงาน 3 ส่วนดังนี้
1) บริจาคประโยคภาษาลาวเข้า Common Voice Sentence Collector
2) ตรวจทานประโยคภาษาลาวใน Common Voice Sentence Collector ว่าเหมาะสมกับการนำไปให้คนอ่านในการบริจาคหรือไม่
3) แปลหน้าเว็บ Common Voice ให้ครบ 80% ขึ้นไป
เรามาลงลึกทีละขั้นตอนกัน
1) บริจาคประโยคภาษาลาวเข้า Common Voice Sentence Collector
เข้าไปที่ https://commonvoice.mozilla.org/sentence-collector/#/en แล้วทำการ login จากนั้นไปที่ Profile เลือก Lao ใต้ Add a language you want to contribute to แล้วกด Add Language
จากนั้นกลับไปที่หน้าหลัก Home แล้วกด Collect sentences จากนั้นพิมพ์/ก๊อปประโยคภาษาลาวใส่เข้าไปบรรทัดละประโยค
จากนั้นพิมพ์ที่มาของประโยคแล้ว ติ๊กถูกเพื่อยืนยันว่าเป็นประโยคสาธารณะ จากนั้น Submit ได้เลย
สำหรับเกณฑ์ประโยคของภาษาลาว ปัจจุบันยังไม่มี แต่ผมขอเสนอดังนี้
ไม่มีการย่อคำ ตัวอย่างเช่น สส เป็นต้น
ไม่มีอิโมจิ
ไม่มีตัวเลข
ไม่มีคำศัพท์ต่างภาษาปนเข้าไป เช่น ภาษาไทย ภาษาอังกฤษ และภาษาอื่น ๆ เป็นต้น ต้องเป็นภาษาลาวทั้งหมด
ไม่มีเครื่องหมายพิเศษ ตัวอย่างเช่น “ ) ( เป็นต้น
2) ตรวจทานประโยคภาษาลาวใน Common Voice Sentence Collector
ตรวจทานประโยคที่มีคนเข้ามาในระบบว่าเหมาะสมกับอ่านเพื่อบริจาคเสียงภาษาลาวหรือไม่ ตามคำแนะนำเกณฑ์ที่ผมเสนอ และประโยคต้องไม่ยาวเกินไป อ่านจบไม่เกิน 10 วินาที (เวลาสูงสุดในการรับบริจาคเสียงแต่ละเสียงของ Common Voice)
เข้าไปที่ Review sentences จากหน้าหลัก Home ของ Common Voice Sentence Collector แล้วกด Approve ถ้าประโยคนั้นผ่าน กด Reject ถ้าประโยคนั้นไม่ผ่าน และกด Skip ถ้าไม่ต้องการตรวจทานประโยคนั้น
3) แปลหน้าเว็บ Common Voice ให้ครบ 80% ขึ้นไป
สำหรับขั้นตอนนี้ต้องอาศัยระบบแปลหน้าเว็บ ชื่อ Pontoon ของ Mozilla ในการแปลภาษา โดยเข้าไปที่ https://pontoon.mozilla.org/lo/common-voice/ แล้ว Login จากนั้นลงมือแปลพิมพ์คำแปลภาษาลาวเข้าไปได้เลย
รายละเอียดเพิ่มเติม สามารถอ่านได้ที่ Community Playbook
สำหรับจำนวนประโยคที่ต้องการขั้นต่ำสำหรับภาษาลาว ณ เวลานี้คือ จำนวน 5,000 ชั่วโมง (แต่อาจมีการเปลี่ยนแปลงจำนวนนี้ได้ในอนาคต) เมื่อตรวจครบ 5,000 ประโยคและแปลครบ 80% แล้ว ระบบ Common Voice ถึงจะเปิดรับบริจาคเสียงภาษาลาว
มาช่วยกันผลักดันให้ภาษาลาวเข้าไปอยู่ในชุดข้อมูล Common Voice กัน!