• แนะนำการใช้งานเบื่องต้น การใช้งาน-community
    ประกาศ :
    • ทำการแก้ไขระบบนับถอยหลังเพื่อดาวน์โหลดไฟล์แล้ว
กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see


ทีมวิจัยแอปเปิลชี้ LLM เอาแต่ท่องโจทย์มาตอบ แค่เปลี่ยนเลขก็ทำข้อสอบแย่ลง

ข่าว ทีมวิจัยแอปเปิลชี้ LLM เอาแต่ท่องโจทย์มาตอบ แค่เปลี่ยนเลขก็ทำข้อสอบแย่ลง

News 

Moderator
สมาชิกทีมงาน
Moderator
Verify member
ทีมวิจัยของแอปเปลรายงานถึงการทดสอบทางคณิตศาสตร์ของ Large Language Model (LLM) ว่าอาจจะยังไม่ดีพอ โดยยกตัวอย่างการทดสอบ GSM8K ที่ทดสอบการให้เหตุผลทางคณิตศาสตร์ที่ LLM รุ่นใหม่ๆ ทำคะแนนได้ดีขึ้นเรื่อยๆ แต่เมื่อทดสอบแก้ไขโจทย์เล็กน้อย หลายโมเดลกลับทำคะแนนได้แย่ลงมาก แสดงให้เห็นว่าโมเดลเหล่านี้ท่องโจทย์มาตอบ ไม่ได้เข้าใจโจทย์จริงๆ

แนวทางของทีมงานคือการสร้างชุดทดสอบ GSM-Symbolic เป็น template ของชุดทดสอบที่สามารถสร้างข้อสอบได้หลากหลาย หลังจากนั้นทดสอบด้วยชุดทดสอบที่เปลี่ยนค่าต่างๆ ไปแล้ว

ผลทดสอบพบว่าโมเดลจำนวนมากคะแนนแย่ลงมากจากการเปลี่ยนตัวเลข ขณะที่การเปลี่ยนค่าอืนๆ เช่น ชื่อต่าง ยังคงสามารถทำงานได้ถูกต้องอยู่ หรือชุดทดสอบ GSM-NoOps ที่ใส่ข้อความที่ไม่เกี่ยวกับโจทย์เติมลงไปก็ทำให้ผลทดสอบแย่ลงเช่นกัน

ประสิทธิภาพของ LLM ใน GSM-Symbolic นั้นลดลงต่างกันไป โดย GPT-4o ลดลงน้อยที่สุด แต่หากเพิ่มความยากให้โจทย์ด้วยการเพิ่มข้อความในโจทย์เติมลงไปอีกสองชุด คะแนนก็จะลดลงชัดเจนทุกโมเดล รวมถึง GPT-4o

ที่มา - ArXiv

No Description


No Description


Topics:
LLM
Apple

Continue reading...
 

กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see
กลับ
ยอดนิยม ด้านล่าง