หลังจาก HuggingFace พยายามทำซ้ำ DeepSeek-R1 แบบเปิดทั้งหมด ตอนนี้ก็มีผลผลิตแรกแล้วเป็นโมเดล OlympicCoder-7B ที่พัฒนาต่อมาจาก Qwen2.5-Coder
OlympicCoder-7B อาศัยชุดข้อมูลคิดก่อนตอบจาก CodeForces-CoTs ที่ใส่โจทย์เขียนโปรแกรมภาษา C++ และ Python ลง DeepSeek-R1 กว่าแสนข้อ โดยนำโมเดล Qwen2.5-Coder ขนาด 7B และ 32B มาใช้งาน ตอนนี้ทดสอบเฉพาะชุดข้อสอบโอลิมปิก ผลทดสอบที่ได้ OlympicCoder-32B สามารถเอาชนะ QwQ-32B และ DeepSeek-R1 ไปได้ โดยยังเป็นรอง o1 และ o3-mini อยู่
บทเรียนจากการฝึก OlympicCoder ทำให้ทีมงานได้บทเรียนหลายอย่าง เช่น เทคนิคการฝึก sample packing ทำให้ประสิทธิภาพโมเดลลดลง, learning rate สามามารถปรับให้สูงขึ้นได้, พบปัญหาโมเดลไม่ยอมคิดในปัญหาอื่นๆ ที่ไม่ได้ฝึกไว้ก่อน, ปัญหาหน่วยความจำจากการฝึกกับข้อความส่วนคิดในใจที่ยาวมาก
ที่มา - HuggingFace
Topics:
Hugging Face
LLM
Continue reading...
OlympicCoder-7B อาศัยชุดข้อมูลคิดก่อนตอบจาก CodeForces-CoTs ที่ใส่โจทย์เขียนโปรแกรมภาษา C++ และ Python ลง DeepSeek-R1 กว่าแสนข้อ โดยนำโมเดล Qwen2.5-Coder ขนาด 7B และ 32B มาใช้งาน ตอนนี้ทดสอบเฉพาะชุดข้อสอบโอลิมปิก ผลทดสอบที่ได้ OlympicCoder-32B สามารถเอาชนะ QwQ-32B และ DeepSeek-R1 ไปได้ โดยยังเป็นรอง o1 และ o3-mini อยู่
บทเรียนจากการฝึก OlympicCoder ทำให้ทีมงานได้บทเรียนหลายอย่าง เช่น เทคนิคการฝึก sample packing ทำให้ประสิทธิภาพโมเดลลดลง, learning rate สามามารถปรับให้สูงขึ้นได้, พบปัญหาโมเดลไม่ยอมคิดในปัญหาอื่นๆ ที่ไม่ได้ฝึกไว้ก่อน, ปัญหาหน่วยความจำจากการฝึกกับข้อความส่วนคิดในใจที่ยาวมาก
ที่มา - HuggingFace
Topics:
Hugging Face
LLM
Continue reading...