ข่าว Alibaba Cloud เปิดตัว Qwen Omni ดูวิดีโอตอบเป็นเสียงได้, QVQ-Max อ่านภาพแล้วคิดก่อนตอบ

News · 4 เม.ย. 2025

ทีม Qwen ของ Alibaba Cloud เปิดตัวโมเดลปัญญาประดิษฐ์เพิ่มสองรุ่น คือ Qwen2.5 Omni โมเดลแบบ multimodal อ่านภาพ, ฟังเสียง, และดูวิดีโอได้ พร้อมกับสามารถตอบเป็นเสียงหรือข้อความได้ อีกโมเดลคือ QVQ-Max โมเดลคิดก่อนตอบแบบอ่านภาพได้ ทำให้สามารถอ่านเอกสารซับซ้อนสูงได้

Qwen2.5 Omni เป็นโมเดล multimodal ที่รับได้ทั้งข้อความ, เสียง, และภาพ โดยภายในมันสามารถดูภาพตามเวลา (time aligned multimodal) ทำให้เข้าใจวิดีโอได้ด้วย ขณะที่ฝั่งเอาท์พุตนั้นสามารถสร้างเสียงตอบกลับได้ ตัวสถาปัตยกรรมรองรับการ "ฟังไป ตอบไป" โดยสามารถรับอินพุตยังไม่จบแต่ตอบไปก่อนได้

Qwen2.5 Omni มีโมเดลขนาด 7B ให้ดาวน์โหลดไปใช้ได้ฟรี ด้วยสัญญาอนุญาตแบบ Apache 2.0

QVQ-Max เป็นโมเดลคิดก่อนตอบที่รับเสียงได้ในตัว (visual reasoning model) โดยสามารถกำหนดโควต้าเวลาคิด ผลทดสอบ MathVision แสดงให้เห็นว่าเมื่อคิดยาวขึ้นเรื่อยๆ ผลทดสอบก็ดีขึ้นเรื่อยๆ เช่นกัน

ตอนนี้ QVQ-Max เปิดให้ใช้งานได้ใน Qwen Chat โดยยังไม่เปิดให้บริการผ่าน API หรือให้ดาวน์โหลดโมเดล

ที่มา - Qwen2.5 Omni, QVQ-Max

Alibaba Cloud เปิดตัว Qwen Omni ดูวิดีโอตอบเป็นเสียงได้ QVQMax อ่านภาพแล้วคิดก่อนตอบ-1.png

Topics:
Alibaba Cloud
LLM

Continue reading...