• แนะนำการใช้งานเบื่องต้น การใช้งาน-community
    ประกาศ :
    • ทำการแก้ไขระบบนับถอยหลังเพื่อดาวน์โหลดไฟล์แล้ว
กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see


PyThaiNLP กับ AIResearch เปิดตัว WangChanGLM โมเดลแชทแบบ ChatGPT รองรับภาษาไทยและหลายภาษา

ข่าว PyThaiNLP กับ AIResearch เปิดตัว WangChanGLM โมเดลแชทแบบ ChatGPT รองรับภาษาไทยและหลายภาษา

News 

Moderator
สมาชิกทีมงาน
Moderator
Verify member
วันนี้ทาง PyThaiNLP กับสถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย AIReserach.in.th ได้เปิดตัวโมเดล WangChanGLM (วังช้างแอลเอ็ม) โมเดลแชทแบบ ChatGPT รองรับทั้งภาษาไทย, ภาษาอังกฤษ, ภาษาญี่ปุ่น, ภาษาเวียดนาม, และภาษาอื่น ๆ ออกสู่สาธารณะ โดยเปิดซอร์สโค้ดทั้งหมด ชุดข้อมูล และโมเดล ให้สามารถนำไปใช้งานต่อได้แบบฟรี ๆ รวมถึงเทรนต่อได้ โดยโค้ดเป็น Apache License 2.0 ส่วนโมเดลใช้ CC BY-SA 4.0

เบื้องหลังโมเดล คือ ใช้โมเดล XGLM ขนาด 7.5 พันล้านพารามิเตอร์จาก Meta ที่รองรับภาษากว่า 31 ภาษา มาปรับแต่งโมเดลทั้งเทรนโมเดล ปรับแต่งโมเดลให้เหมาะสมกับการแชท ตอบคำตอบ โดยได้นำชุดข้อมูล LAION OIG chip2, infill_dbpedia, DataBricks Dolly v2, OpenAI TL;DR, และ Hello-SimpleAI HC3 มาทำการเทรนจากภาษาอังกฤษเป็นหลัก เนื่องจากโมเดลรองรับหลายภาษา ทำให้เราไม่จำเป็นต้องอาศัยชุดข้อมูลภาษาไทยเท่านั้นในการเทรนโมเดล ซึ่งข้อมูลทั้งหมดเป็นชุดข้อมูลที่สาธารณะสามารถเข้าถึงได้ทั้งหมด และเรายังได้ทำการทดลองเทรนโมเดลด้วยชุดข้อมูลที่แปลภาษาทั้งหมดเป็นภาษาไทยอีกด้วย ผลลัพธ์โมเดล พบว่า โมเดลที่เทรนด้วยภาษาอังกฤษล้วนมีประสิทธิภาพดีกว่าใช้ชุดข้อมูลภาษาไทย

ความสามารถของโมเดลมีทั้งถามตอบคำถาม, แปลภาษา, อ่านจับใจความ และอื่น ๆ ตามตัวอย่างต่อไปนี้
ตัวอย่างการขอไอเดีย

รหัส:
<human>: ทำยังไงถึงจะเล่นหุ้นให้ได้กำไร
<bot>: การเล่นหุ้นให้ประสบความสําเร็จนั้น คุณต้องศึกษาข้อมูลให้ดีก่อนการลงทุน วางแผนการลงทุนอย่างรอบคอบ ติดตามข่าวสารการลงทุน และใช้เครื่องมือวิเคราะห์หุ้นอย่างเหมาะสม ที่สําคัญคือต้องรู้จักอดทนและมีความมุ่งมั่นในการลงทุน

ตัวอย่างการเขียนอย่างสร้างสรรค์

รหัส:
<human>: จงแต่งเรียงความเรื่องความฝันของคนรุ่นใหม่ต่อประเทศไทย
<bot>: ประเทศไทยในยุคปัจจุบัน เต็มไปด้วยความเปลี่ยนแปลงอย่างรวดเร็ว เทคโนโลยีที่ก้าวหน้าอย่างรวดเร็ว ทําให้คนรุ่นใหม่มีความคิดที่เปิดกว้างและกล้าที่จะคิดต่างจากคนรุ่นก่อนๆ พวกเขามีมุมมองที่กว้างไกลและมองโลกในแง่ดี กล้าคิด พูด และแสดงออกในสิ่งที่แตกต่างจากเดิม หลายคนมีความฝันที่จะสร้างสิ่งดีๆ ให้กับประเทศชาติ บางคนมีความมุ่งมั่นที่จะเปลี่ยนแปลงสังคมให้ดีขึ้น ในขณะที่บางคนก็มุ่งหวังที่จะประสบความสําเร็จในหน้าที่การงาน ทุกคนต่างมีเป้าหมายเดียวกันคือ ต้องการเห็นประเทศไทยเจริญก้าวไกล พัฒนาไปอย่างมั่นคงและยั่งยืน

ตัวอย่างการอ่านจับใจความ

รหัส:
<human>: “สถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย ได้ทำการเปิดชุดข้อมูลคู่ประโยคในภาษาอังกฤษ-ไทย จำนวนกว่า 1 ล้านคู่ประโยคสู่สาธารณะ โดยได้รับการสนับสนุนจาก SCB ภายใต้ชื่อ scb-mt-en-th-2020 ชุดข้อมูลคู่ประโยคนี้ ได้รวบรวมจากหลายข้อมูลแหล่งอาทิเช่น ประโยคจากบทสนทนา ข้อมูลจากเว็บไซต์ข่าวหรือองค์กรที่มีเนื้อหาในสองภาษา บทความวิกิพีเดีย และ เอกสารราชการ”
สรุปข้อความนี้ให้หน่อย
<bot>: สถาบันฯ ได้เปิดข้อมูลชุดนี้สู่สาธารณชนภายใต้การสนับสนุนจากธนาคารไทยพาณิชย์ โดยใช้ชื่อชุดว่า scbmt-2020

อ่านรายละเอียดได้ที่ GitHub

สามารถใช้งานได้แล้วผ่าน Hugging Face ตามตัวอย่างใน Google Colab

0848b72c3bdeac0d82e769d9898c6aed.png


ข้อมูลเปิดเผย: ผู้เขียนข่าวนี้เป็นหนึ่งในสมาชิกทีมนักพัฒนา PyThaiNLP

ที่มา: WangChanGLM🐘 — The Multilingual Instruction-Following Model

Topics:
PyThaiNLP
Artificial Intelligence
Chat Bot
ChatGPT
Open Source

อ่านต่อ...
 

ไฟล์แนบ

  • 0848b72c3bdeac0d82e769d9898c6aed.png
    0848b72c3bdeac0d82e769d9898c6aed.png
    72.8 กิโลไบต์ · จำนวนการดู: 18

กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see
กลับ
ยอดนิยม ด้านล่าง