ผลทดสอบ Turing Test กับ LLM ล่าสุด GPT-4 ได้ผลดีสุด ELIZA จากปี 1966 ยังได้ผลดีกว่า GPT-3.5 – SMS Marketing ราคาถูกที่สุด
ทีมวิจัยจาก UC San Diego รายงานผลการทดสอบประสิทธิภาพของปัญญาประดิษฐ์ในการหลอกมนุษย์ว่าเป็นมนุษย์ หรือที่รู้จักกันในชื่อ Turing Test โดยผลเบื้องต้นพบว่า GPT-4 มีคะแนนใกล้คนที่สุด
การทดลองครั้งนี้อาศัยบริการออนไลน์ โดยผู้เล่นจะเข้าไปรอคิวในระบบที่มี AI ที่ทีมงานเตรียม prompt ของ AI ทั้ง GPT-3.5 และ GPT-4 เอาไว้รวม 25 ตัว โดยยังมี ELIZA โปรแกรมแชตที่พยายามคุยเหมือนมนุษย์ที่ออกมาตั้งแต่ปี 1966 มาเป็นตัวเทียบด้วย ผู้เล่นที่ทำหน้าที่ผู้ตัดสินจะต้องตัดสินว่ากำลังคุยกับปัญญาประดิษฐ์ภายใน 5 นาที โดยคุยแต่ละข้อความไม่เกิน 300 ตัวอักษร ระบบจะสุ่มว่าผู้เล่นแต่ละคนนั้นจะได้คุยกับปัญญาประดิษฐ์หรือมนุษย์
ผู้ร่วมทดสอบทั้งหมด 652 คน เล่นเกมทั้งหมด 1,810 ครั้ง แต่ทีมงานตัดเกมบางส่วนออก เนื่องจากผู้เล่นบางคนถูกสุ่มเจอแต่ AI โดยไม่เจอมนุษย์เลย หรือบางคนก็รู้จักกับผู้เล่นที่เป็นมนุษย์ฝั่งตรงข้าม เหลือเกมที่นับผล 1,405 เกม แล้ววัดว่า AI หรือมนุษย์สามารถโน้มน้าวให้มนุษย์อีกฝั่งเชื่อว่าเป็นมนุษย์ได้ดีเพียงใด
ผลพบว่ามนุษย์ที่อยู่ฝั่งถูกตัดสินนั้นโน้มน้าวผู้ตัดสินว่าเป็นมนุษย์จริงๆ ได้ 63% สูงกว่า AI ทุกตัว แต่ GPT-4 สองตัวที่ทีมงานกำหนด prompt ไว้ก็ทำคะแนนได้สูงระดับ 41% ที่น่าสนใจคือ ELIZA ซึ่งเป็นโค้ดง่ายๆ เขียนมาหลายสิบปีนั้นสามารถทำคะแนนได้ 27% สูงกว่า GPT-3.5 สองตัวในการทดลองเสียอีก
ทีมวิจัยระบุว่า ELIZA ทำคะแนนได้ดีแม้จะเก่ามากแล้วเพราะมันถูกเขียนโปรแกรมให้คุยตามน้ำไปเรื่อยๆ ไม่พยายามแสดงความรู้อะไรออกมา, ไม่พยายามช่วยเหลือหรือพูดคุยเป็นมิตรเกินคนปกติ, และสุดท้ายคือ ELIZA แย่มากจนไม่เหมือนปัญญาประดิษฐ์สมัยใหม่ แต่ไปเหมือนกับคนที่ตอบกวนไปมามากกว่า
ที่มา – ArXiv