กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see


ข่าว Anthropic อัพเดตโมเดล Claude ทดสอบเขียนโปรแกรมชนะ o1 พร้อมฟีเจอร์ควบคุมคอมพิวเตอร์แทนคน

News 

Moderator
สมาชิกทีมงาน
Moderator
Verify member
เข้าร่วม
1 มิถุนายน 2011
ข้อความ
9,393
คะแนนปฏิกิริยา
0
คะแนน
0
Anthropic ผู้พัฒนาปัญญาประดิษฐ์แบบ LLM ตู่แข่ง OpenAI ประกาศอัพเดตโมเดล Claude สองรุ่น คือ Sonnet รุ่นกลาง และ Haiku รุ่นเล็ก โดยรอบนี้มีความพิเศษนอกจากเก่งขึ้นตามปกติแล้ว ยังเริ่มทดสอบฟีเจอร์ควบคุมคอมพิวเตอร์แทนคน ให้ผู้ใช้สามารถสั่งงานเป็นคำสั่งแล้ว Claude คลิกหน้าต่างหรือคำสั่งต่างๆ ให้เอง

Sonnet 3.5 นั้นที่จริงเพิ่งอัพเดตไปเมื่อกลางปีที่ผ่านมา รอบนี้ความสามารถด้านต่างๆ ดีขึ้นทุกด้าน และยังเพิ่มการทดสอบ SWE-Bench Verified ของ OpenAI เข้ามา พร้อมกับทำคะแนนชนะทุกโมเดลรวมถึง o1-preview ของ OpenAI อีกชุดทดสอบที่รายงานคือ TAU-bench สำหรับการทดสอบการใช้เครื่องมือในกระบวนการหาคำตอบให้ผู้ใช้ มีพัฒนาจาก Sonnet 3.5 รุ่นเดิมโดยเฉพาะชุดทดสอบสายการบิน

Haiku โมเดลรุ่นเล็กราคาถูก ออกรุ่น 3.5 ครั้งแรก แม้คะแนนทดสอบไม่ได้สูงสุดแต่ก็ใกล้เคียง GPT-4o mini หลายชุดทดสอบ คะแนนทดสอบ SWE-Bench Verified นั้นสูงกว่า GPT-4o เสียอีก

ฟีเจอร์สำคัญที่ Cluade มีเพิ่มเข้ามาคือ computer use เป็นการอ่านภาพและให้ Claude 3.5 Sonnet ส่งคำสั่งเพื่อให้บรรลุเป้าหมาย เช่น หาข้อมูลที่เกี่ยวข้องมากรอกแบบฟอร์ม โดยรวมแล้วเป็นการเขียนโปรแกรมไปครอบคอมพิวเตอร์และเปิด API เป็น tools ให้ Claude เข้ามาดูภาพหน้าจอและส่งคำสั่ง

แม้ว่าทาง Anthorpic จะชู computer use เป็นฟีเจอร์เด่น แต่ผลทดสอบ OSWorld ก็คะแนนไม่สูงนัก 14.9% (22% ถ้ายอมรับผลหาก AI ทำขั้นตอนยาวเกินไปด้วย) แต่ GPT-4o ทำได้เพียง 7.69% และ Gemini-Pro ทำได้เพียง 5.8% เท่านั้น

ที่มา - Anthropic

0eb9a1b7d5db74a6d21500e9f188c83beef3842e-2601x1932.webp


Topics:
Anthropic
LLM
Claude

Continue reading...
 

กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see
กลับ
ยอดนิยม