SCB10X ประกาศปล่อยโมเดลปัญญาประดิษฐ์ LLM โดยรองรับหลายรูปแบบทั้งแบบขัอความปกติ, แบบรับภาพ, และแบบรับ/ตอบเป็นเสียง
ตัวโมเดลทั้งหมดพัฒนาต่อมาจากโมเดลโอเพนซอร์ส Llama-3.1/3.2, Qwen2.5 พร้อมกับโมเดลความปลอดภัย Typhoon2-Safety ที่พัฒนามาจาก mdeberta-v3-base โดยจุดสำคัญคือการสร้างชุดข้อมูลที่สะท้อนวัฒนธรรมไทย ทีมงานสร้างโมเดลปัญญาประดิษฐ์มาจัดคะแนนข้อมูลว่าเกี่ยวข้องกับประเทศไทยหรือไม่ โดยให้คะแนน 1-5 ชุดข้อมูลที่ได้คะแนนเกินเกณฑ์ในหมวดต่างๆ ก็จะถูกนำมาใช้งาน ข้อมูลอีกส่วนหนึ่งยังเป็นการสร้างจาก LLM ที่อ่านข้อความแล้วเขียนเป็นภาษาไทยในสไตล์ หนังสือเรียน, บล็อก, หรือบทความวิชาการ
ผลการฝึกนั้น
โมเดลแบบ multimodal นั้นมีสองรุ่น พัฒนามาจาก Llama 3.2 และ Qwen-VL สามารถทำคะแนนได้ดีขึ้นในการทดสอบภาษาไทยกว่าโมเดลเดิมอย่างชัดเจน เช่น ชุดทดสอบ OCR (TH) โมเดล
โมเดลเสียงเป็นการประกอบ encoder เพื่อสร้างอินพุตให้กับโมเดล LLM ที่เป็น Typhoon2-8B (Llama-3.1) อีกที ส่วนเอาท์พุตสร้างจากสถาปัตยกรรม Llama-Omni แล้วสร้างชุดข้อมูลจากระบบแปลงข้อความเป็นเสียงของ Google Cloud Platform เมื่อวัดคะแนนทั้งแในแง่ความผิดพลาดและคุณภาพเสียง Typhoon2 เอาชนะซอฟต์แวร์แปลงข้อความเป็นเสียงแบบโอเพนซอร์สได้ แต่ยังไม่สามารถเอาชนะบริการปิดผ่าน Google Cloud หรือ Azure ไปได้ โดยรายงานระบุว่าตอนนี้หากให้พูดไทย ก็จะเหมือนฝรั่งพูดไทย ขณะที่หากให้พูดภาษาอังกฤษก็จะเหมือนคนไทยพูดภาษาอังกฤษ
โมเดลทั้งหมดเปิดให่้ดาวน์โหลดแล้วบน HuggingFace
ที่มา - SCB10X
Topics:
SCB10X
LLM
Artificial Intelligence
Continue reading...
ตัวโมเดลทั้งหมดพัฒนาต่อมาจากโมเดลโอเพนซอร์ส Llama-3.1/3.2, Qwen2.5 พร้อมกับโมเดลความปลอดภัย Typhoon2-Safety ที่พัฒนามาจาก mdeberta-v3-base โดยจุดสำคัญคือการสร้างชุดข้อมูลที่สะท้อนวัฒนธรรมไทย ทีมงานสร้างโมเดลปัญญาประดิษฐ์มาจัดคะแนนข้อมูลว่าเกี่ยวข้องกับประเทศไทยหรือไม่ โดยให้คะแนน 1-5 ชุดข้อมูลที่ได้คะแนนเกินเกณฑ์ในหมวดต่างๆ ก็จะถูกนำมาใช้งาน ข้อมูลอีกส่วนหนึ่งยังเป็นการสร้างจาก LLM ที่อ่านข้อความแล้วเขียนเป็นภาษาไทยในสไตล์ หนังสือเรียน, บล็อก, หรือบทความวิชาการ
ผลการฝึกนั้น
Typhoon2-Llama-70B-base
สามารถทำคะแนนได้ดีกว่าโมเดลตั้งต้นอย่าง Llama3.1-70B
ในทุกชุดทดสอบภาษาไทย ขณะที่โมเดลเวอร์ชั่นเล็กลงไปนั้นได้คะแนนดีขึ้นหลายชุดแม้จะมีบางส่วนคะแนนแย่ลงกว่าโมเดลตั้งต้นบ้างโมเดลแบบ multimodal นั้นมีสองรุ่น พัฒนามาจาก Llama 3.2 และ Qwen-VL สามารถทำคะแนนได้ดีขึ้นในการทดสอบภาษาไทยกว่าโมเดลเดิมอย่างชัดเจน เช่น ชุดทดสอบ OCR (TH) โมเดล
Typhoon2-Llama-3.2-11B
ทำคะแนน ROGUE-L ได้ 79.51 คะแนน ขณะโมเดลตั้งต้นได้ 64.41 คะแนนโมเดลเสียงเป็นการประกอบ encoder เพื่อสร้างอินพุตให้กับโมเดล LLM ที่เป็น Typhoon2-8B (Llama-3.1) อีกที ส่วนเอาท์พุตสร้างจากสถาปัตยกรรม Llama-Omni แล้วสร้างชุดข้อมูลจากระบบแปลงข้อความเป็นเสียงของ Google Cloud Platform เมื่อวัดคะแนนทั้งแในแง่ความผิดพลาดและคุณภาพเสียง Typhoon2 เอาชนะซอฟต์แวร์แปลงข้อความเป็นเสียงแบบโอเพนซอร์สได้ แต่ยังไม่สามารถเอาชนะบริการปิดผ่าน Google Cloud หรือ Azure ไปได้ โดยรายงานระบุว่าตอนนี้หากให้พูดไทย ก็จะเหมือนฝรั่งพูดไทย ขณะที่หากให้พูดภาษาอังกฤษก็จะเหมือนคนไทยพูดภาษาอังกฤษ
โมเดลทั้งหมดเปิดให่้ดาวน์โหลดแล้วบน HuggingFace
ที่มา - SCB10X
Topics:
SCB10X
LLM
Artificial Intelligence
Continue reading...