OpenAI เปิดตัวชุดทดสอบ SWE-Lancer เป็นชุดทดสอบที่ได้จากงานเขียนโปรแกรม 1,488 งานบนแพลตฟอร์ม Upwork ปัญหาแต่ละข้อมีค่าจ้างระหว่าง 50-32,000 ดอลลาร์ รวมชุดทดสอบมีค่าจ้าง 1 ล้านดอลลาร์ เมื่อ AI แก้ปัญหาได้ จะได้คะแนนเป็นค่าจ้างของแต่ละข้อไป
จากปัญหารวมที่ให้มา 1 ล้านดอลลาร์ ทำค่าจ้างเฉพาะชุดทดสอบย่อย IC SWE ที่เน้นงานเขียนโปรแกรม คะแนนเต็ม 236,000 ดอลลาร์ ตอนนี้โมเดลที่ทำคะแนนได้สูงสุดคือ o3-high ที่เปิดตัวมาวันนี้ ได้ 65,250 ดอลลาร์ ขณะที่ o4-mini-high ทำค่าจ้างได้ 56,375 ดอลลาร์ สูงกว่า o1-high สองเท่าตัว โดยชุดทดสอบนี้ปัญญาประดิษฐ์ยังทำได้ห่างจากคะแนนเต็มมาก จึงเป็นชุดทดสอบที่น่าจะแสดงให้เห็นพัฒนาการของ AI ต่อไปในอนาคต เทียบกับ SWE-Bench Verified ที่ตอนนี้ o3 ทำคะแนนได้ 69.1% แล้ว น่าสนใจคือผลทดสอบของ Claude 3.5 ได้คะแนนถึง 58,000 ดอลลาร์ สูงกว่า o4-mini-high เสียอีก เมื่อแยกส่วนต่างๆ ยังแสดงให้เหฌ็นว่าปัญญาประดิษฐ์ทุกตัวทำงาน backend ได้ดีมาก แต่คะแนนด้าน UX/UI กล้บแย่มาก
ชุดทดสอบอยู่ใน GitHub ตอนนี้ข้อจำกัดคือยังไม่รองรับ multimodal ทำให้ยังไม่เห็นภาพประกอบ
ที่มา - ArXiV
Topics:
OpenAI
LLM
Continue reading...
จากปัญหารวมที่ให้มา 1 ล้านดอลลาร์ ทำค่าจ้างเฉพาะชุดทดสอบย่อย IC SWE ที่เน้นงานเขียนโปรแกรม คะแนนเต็ม 236,000 ดอลลาร์ ตอนนี้โมเดลที่ทำคะแนนได้สูงสุดคือ o3-high ที่เปิดตัวมาวันนี้ ได้ 65,250 ดอลลาร์ ขณะที่ o4-mini-high ทำค่าจ้างได้ 56,375 ดอลลาร์ สูงกว่า o1-high สองเท่าตัว โดยชุดทดสอบนี้ปัญญาประดิษฐ์ยังทำได้ห่างจากคะแนนเต็มมาก จึงเป็นชุดทดสอบที่น่าจะแสดงให้เห็นพัฒนาการของ AI ต่อไปในอนาคต เทียบกับ SWE-Bench Verified ที่ตอนนี้ o3 ทำคะแนนได้ 69.1% แล้ว น่าสนใจคือผลทดสอบของ Claude 3.5 ได้คะแนนถึง 58,000 ดอลลาร์ สูงกว่า o4-mini-high เสียอีก เมื่อแยกส่วนต่างๆ ยังแสดงให้เหฌ็นว่าปัญญาประดิษฐ์ทุกตัวทำงาน backend ได้ดีมาก แต่คะแนนด้าน UX/UI กล้บแย่มาก
ชุดทดสอบอยู่ใน GitHub ตอนนี้ข้อจำกัดคือยังไม่รองรับ multimodal ทำให้ยังไม่เห็นภาพประกอบ
ที่มา - ArXiV
Topics:
OpenAI
LLM
Continue reading...