- เข้าร่วม
- 1 มิถุนายน 2011
- ข้อความ
- 9,393
- คะแนนปฏิกิริยา
- 0
- คะแนน
- 0
Anthropic ผู้พัฒนาปัญญาประดิษฐ์แบบ LLM ตู่แข่ง OpenAI ประกาศอัพเดตโมเดล Claude สองรุ่น คือ Sonnet รุ่นกลาง และ Haiku รุ่นเล็ก โดยรอบนี้มีความพิเศษนอกจากเก่งขึ้นตามปกติแล้ว ยังเริ่มทดสอบฟีเจอร์ควบคุมคอมพิวเตอร์แทนคน ให้ผู้ใช้สามารถสั่งงานเป็นคำสั่งแล้ว Claude คลิกหน้าต่างหรือคำสั่งต่างๆ ให้เอง
Sonnet 3.5 นั้นที่จริงเพิ่งอัพเดตไปเมื่อกลางปีที่ผ่านมา รอบนี้ความสามารถด้านต่างๆ ดีขึ้นทุกด้าน และยังเพิ่มการทดสอบ SWE-Bench Verified ของ OpenAI เข้ามา พร้อมกับทำคะแนนชนะทุกโมเดลรวมถึง o1-preview ของ OpenAI อีกชุดทดสอบที่รายงานคือ TAU-bench สำหรับการทดสอบการใช้เครื่องมือในกระบวนการหาคำตอบให้ผู้ใช้ มีพัฒนาจาก Sonnet 3.5 รุ่นเดิมโดยเฉพาะชุดทดสอบสายการบิน
Haiku โมเดลรุ่นเล็กราคาถูก ออกรุ่น 3.5 ครั้งแรก แม้คะแนนทดสอบไม่ได้สูงสุดแต่ก็ใกล้เคียง GPT-4o mini หลายชุดทดสอบ คะแนนทดสอบ SWE-Bench Verified นั้นสูงกว่า GPT-4o เสียอีก
ฟีเจอร์สำคัญที่ Cluade มีเพิ่มเข้ามาคือ computer use เป็นการอ่านภาพและให้ Claude 3.5 Sonnet ส่งคำสั่งเพื่อให้บรรลุเป้าหมาย เช่น หาข้อมูลที่เกี่ยวข้องมากรอกแบบฟอร์ม โดยรวมแล้วเป็นการเขียนโปรแกรมไปครอบคอมพิวเตอร์และเปิด API เป็น tools ให้ Claude เข้ามาดูภาพหน้าจอและส่งคำสั่ง
แม้ว่าทาง Anthorpic จะชู computer use เป็นฟีเจอร์เด่น แต่ผลทดสอบ OSWorld ก็คะแนนไม่สูงนัก 14.9% (22% ถ้ายอมรับผลหาก AI ทำขั้นตอนยาวเกินไปด้วย) แต่ GPT-4o ทำได้เพียง 7.69% และ Gemini-Pro ทำได้เพียง 5.8% เท่านั้น
ที่มา - Anthropic
Topics:
Anthropic
LLM
Claude
Continue reading...
Sonnet 3.5 นั้นที่จริงเพิ่งอัพเดตไปเมื่อกลางปีที่ผ่านมา รอบนี้ความสามารถด้านต่างๆ ดีขึ้นทุกด้าน และยังเพิ่มการทดสอบ SWE-Bench Verified ของ OpenAI เข้ามา พร้อมกับทำคะแนนชนะทุกโมเดลรวมถึง o1-preview ของ OpenAI อีกชุดทดสอบที่รายงานคือ TAU-bench สำหรับการทดสอบการใช้เครื่องมือในกระบวนการหาคำตอบให้ผู้ใช้ มีพัฒนาจาก Sonnet 3.5 รุ่นเดิมโดยเฉพาะชุดทดสอบสายการบิน
Haiku โมเดลรุ่นเล็กราคาถูก ออกรุ่น 3.5 ครั้งแรก แม้คะแนนทดสอบไม่ได้สูงสุดแต่ก็ใกล้เคียง GPT-4o mini หลายชุดทดสอบ คะแนนทดสอบ SWE-Bench Verified นั้นสูงกว่า GPT-4o เสียอีก
ฟีเจอร์สำคัญที่ Cluade มีเพิ่มเข้ามาคือ computer use เป็นการอ่านภาพและให้ Claude 3.5 Sonnet ส่งคำสั่งเพื่อให้บรรลุเป้าหมาย เช่น หาข้อมูลที่เกี่ยวข้องมากรอกแบบฟอร์ม โดยรวมแล้วเป็นการเขียนโปรแกรมไปครอบคอมพิวเตอร์และเปิด API เป็น tools ให้ Claude เข้ามาดูภาพหน้าจอและส่งคำสั่ง
แม้ว่าทาง Anthorpic จะชู computer use เป็นฟีเจอร์เด่น แต่ผลทดสอบ OSWorld ก็คะแนนไม่สูงนัก 14.9% (22% ถ้ายอมรับผลหาก AI ทำขั้นตอนยาวเกินไปด้วย) แต่ GPT-4o ทำได้เพียง 7.69% และ Gemini-Pro ทำได้เพียง 5.8% เท่านั้น
ที่มา - Anthropic
Topics:
Anthropic
LLM
Claude
Continue reading...