กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see


News

ข่าว Alibaba Cloud เปิดตัว Qwen Omni ดูวิดีโอตอบเป็นเสียงได้, QVQ-Max อ่านภาพแล้วคิดก่อนตอบ

  • ผู้เริ่มหัวข้อ ผู้เริ่มหัวข้อ News 
  • วันที่เริ่มต้น วันที่เริ่มต้น

News 

Active member

สมาชิกทีมงาน
Moderator
Collaborate
ทีม Qwen ของ Alibaba Cloud เปิดตัวโมเดลปัญญาประดิษฐ์เพิ่มสองรุ่น คือ Qwen2.5 Omni โมเดลแบบ multimodal อ่านภาพ, ฟังเสียง, และดูวิดีโอได้ พร้อมกับสามารถตอบเป็นเสียงหรือข้อความได้ อีกโมเดลคือ QVQ-Max โมเดลคิดก่อนตอบแบบอ่านภาพได้ ทำให้สามารถอ่านเอกสารซับซ้อนสูงได้

Qwen2.5 Omni เป็นโมเดล multimodal ที่รับได้ทั้งข้อความ, เสียง, และภาพ โดยภายในมันสามารถดูภาพตามเวลา (time aligned multimodal) ทำให้เข้าใจวิดีโอได้ด้วย ขณะที่ฝั่งเอาท์พุตนั้นสามารถสร้างเสียงตอบกลับได้ ตัวสถาปัตยกรรมรองรับการ "ฟังไป ตอบไป" โดยสามารถรับอินพุตยังไม่จบแต่ตอบไปก่อนได้

Qwen2.5 Omni มีโมเดลขนาด 7B ให้ดาวน์โหลดไปใช้ได้ฟรี ด้วยสัญญาอนุญาตแบบ Apache 2.0

QVQ-Max เป็นโมเดลคิดก่อนตอบที่รับเสียงได้ในตัว (visual reasoning model) โดยสามารถกำหนดโควต้าเวลาคิด ผลทดสอบ MathVision แสดงให้เห็นว่าเมื่อคิดยาวขึ้นเรื่อยๆ ผลทดสอบก็ดีขึ้นเรื่อยๆ เช่นกัน

ตอนนี้ QVQ-Max เปิดให้ใช้งานได้ใน Qwen Chat โดยยังไม่เปิดให้บริการผ่าน API หรือให้ดาวน์โหลดโมเดล

ที่มา - Qwen2.5 Omni, QVQ-Max

Alibaba Cloud เปิดตัว Qwen Omni ดูวิดีโอตอบเป็นเสียงได้ QVQMax อ่านภาพแล้วคิดก่อนตอบ-1.png


Topics:
Alibaba Cloud
LLM

Continue reading...
 

กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see
กลับ
ยอดนิยม ด้านล่าง
TeknolojiTeknoloji ForumuTeknoloji SitesiWebmaster ForumuWebmaster ForumWebmaster SitesiTeknolojiTeknoloji ForumuTeknoloji SitesiWebmaster ForumuWebmaster ForumWebmaster SitesiTeknolojiTeknoloji ForumuTeknoloji SitesiWebmaster ForumuWebmaster ForumWebmaster Sitesi