กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see


ข่าว Alibaba Cloud เปิดตัว Qwen Omni ดูวิดีโอตอบเป็นเสียงได้, QVQ-Max อ่านภาพแล้วคิดก่อนตอบ

  • ผู้เริ่มหัวข้อ ผู้เริ่มหัวข้อ News 
  • วันที่เริ่มต้น วันที่เริ่มต้น

News 

Active member
สมาชิกทีมงาน
Moderator
Collaborate
ทีม Qwen ของ Alibaba Cloud เปิดตัวโมเดลปัญญาประดิษฐ์เพิ่มสองรุ่น คือ Qwen2.5 Omni โมเดลแบบ multimodal อ่านภาพ, ฟังเสียง, และดูวิดีโอได้ พร้อมกับสามารถตอบเป็นเสียงหรือข้อความได้ อีกโมเดลคือ QVQ-Max โมเดลคิดก่อนตอบแบบอ่านภาพได้ ทำให้สามารถอ่านเอกสารซับซ้อนสูงได้

Qwen2.5 Omni เป็นโมเดล multimodal ที่รับได้ทั้งข้อความ, เสียง, และภาพ โดยภายในมันสามารถดูภาพตามเวลา (time aligned multimodal) ทำให้เข้าใจวิดีโอได้ด้วย ขณะที่ฝั่งเอาท์พุตนั้นสามารถสร้างเสียงตอบกลับได้ ตัวสถาปัตยกรรมรองรับการ "ฟังไป ตอบไป" โดยสามารถรับอินพุตยังไม่จบแต่ตอบไปก่อนได้

Qwen2.5 Omni มีโมเดลขนาด 7B ให้ดาวน์โหลดไปใช้ได้ฟรี ด้วยสัญญาอนุญาตแบบ Apache 2.0

QVQ-Max เป็นโมเดลคิดก่อนตอบที่รับเสียงได้ในตัว (visual reasoning model) โดยสามารถกำหนดโควต้าเวลาคิด ผลทดสอบ MathVision แสดงให้เห็นว่าเมื่อคิดยาวขึ้นเรื่อยๆ ผลทดสอบก็ดีขึ้นเรื่อยๆ เช่นกัน

ตอนนี้ QVQ-Max เปิดให้ใช้งานได้ใน Qwen Chat โดยยังไม่เปิดให้บริการผ่าน API หรือให้ดาวน์โหลดโมเดล

ที่มา - Qwen2.5 Omni, QVQ-Max

Alibaba Cloud เปิดตัว Qwen Omni ดูวิดีโอตอบเป็นเสียงได้ QVQMax อ่านภาพแล้วคิดก่อนตอบ-1.png


Topics:
Alibaba Cloud
LLM

Continue reading...
 

กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see
กลับ
ยอดนิยม ด้านล่าง