Alibaba Cloud เปิดตัวโมเดลปัญญาประดิษฐ์ LLM ในชื่อ QwQ-32B (อ่านว่า ควิว) โมเดลคิดก่อนตอบ ที่เคยเปิดรุ่นพรีวิวไปก่อนหน้านี้เมื่อปลายปี 2024 แต่ตอนนี้ออกเป็นตัวจริง โดยผลที่ได้มีคะแนนทดสอบหลายชุดดีขึ้นอย่างชัดเจน จนขึ้นมาใกล้เคียงกับ DeepSeek-R1 ที่มีขนาดใหญ่กว่า 20 เท่า
ทีมงานฝึก QwQ โดยเริ่มจากปัญหาคณิตศาสตร์และการเขียนโปรแกรมก่อน เพราะปัญหาทั้งสองหมวดหมู่นี้ตรวจสอบคำตอบได้ง่าย ทำให้สามารถฝึกแบบ reinforcement learning (RL) ได้โดยดูคำตอบเป็นหลัก จากนั้นนั้นฝึกเพิ่มเพื่อขยายความสามารถด้านอื่นๆ เช่น การเลือกใช้เครื่องมือ โดยทีมงานพบว่าการฝึกช่วงหลังนี้ไม่ต้องมากนักก็เพิ่มความสามารถได้้ โดยที่ความสามารถหลักด้านการเขียนโปรแกรมก็ไม่ได้แย่ลงนัก
DeepSeek เองก็เคยปล่อยโมเดล R1 รุ่นทึ่ฝึกต่อจาก Qwen-32B เช่นกัน แต่ผลทดสอบแย่กว่า QwQ-32B มาก ทำให้ตอนนี้เราสามารถใช้งานโมเดลระดับใกล้เคียง DeepSeek-R1 หรือ o1-preview ได้ในคอมพิวเตอร์ขนาดไม่ใหญ่นัก แถมตัวโมเดลเปิดให้ใช้งานอย่างเสรี
หุ้น Alibaba ขึ้นไปถึง 8% นับแต่เปิดตัว QwQ-32B
ที่มา - QwenLM
Topics:
Qwen
Alibaba Cloud
LLM
Continue reading...
ทีมงานฝึก QwQ โดยเริ่มจากปัญหาคณิตศาสตร์และการเขียนโปรแกรมก่อน เพราะปัญหาทั้งสองหมวดหมู่นี้ตรวจสอบคำตอบได้ง่าย ทำให้สามารถฝึกแบบ reinforcement learning (RL) ได้โดยดูคำตอบเป็นหลัก จากนั้นนั้นฝึกเพิ่มเพื่อขยายความสามารถด้านอื่นๆ เช่น การเลือกใช้เครื่องมือ โดยทีมงานพบว่าการฝึกช่วงหลังนี้ไม่ต้องมากนักก็เพิ่มความสามารถได้้ โดยที่ความสามารถหลักด้านการเขียนโปรแกรมก็ไม่ได้แย่ลงนัก
DeepSeek เองก็เคยปล่อยโมเดล R1 รุ่นทึ่ฝึกต่อจาก Qwen-32B เช่นกัน แต่ผลทดสอบแย่กว่า QwQ-32B มาก ทำให้ตอนนี้เราสามารถใช้งานโมเดลระดับใกล้เคียง DeepSeek-R1 หรือ o1-preview ได้ในคอมพิวเตอร์ขนาดไม่ใหญ่นัก แถมตัวโมเดลเปิดให้ใช้งานอย่างเสรี
หุ้น Alibaba ขึ้นไปถึง 8% นับแต่เปิดตัว QwQ-32B
ที่มา - QwenLM
Topics:
Qwen
Alibaba Cloud
LLM
Continue reading...