• แนะนำการใช้งานเบื่องต้น การใช้งาน-community
    ประกาศ :
    • ทำการแก้ไขระบบนับถอยหลังเพื่อดาวน์โหลดไฟล์แล้ว
กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see


News

ข่าว OpenAI ปรับ tokenizer รองรับภาษาเพิ่ม 20 ภาษา ประหยัดค่า token แต่ยังไม่รับภาษาไทย

News 

Moderator
สมาชิกทีมงาน
Moderator
Verify member
เข้าร่วม
1 มิถุนายน 2011
ข้อความ
10,929
คะแนนปฏิกิริยา
0
คะแนน
0
ในงานเปิดตัว GPT-4o ของ OpenAI นอกจากประเด็นโมเดลมีประสิทธิภาพสูงขึ้นแล้ว ยังมีประเด็นการออปติไมซ์ tokenizer เพื่อให้ใช้งานภาษาอื่นๆ นอกจากภาษาอังกฤษได้ดีขึ้น โดยทีมงาน OpenAI เลือกมา 20 ภาษารวมถึงภาษาอังกฤษแต่ยังไม่มีภาษาไทย ทำให้ภาษาเหล่านี้ใช้งานได้มีประสิทธิภาพมากขึ้นเพราะคำในภาษาเหล่านี้มีจำนวนโทเค็นน้อยลง

ตัวอย่างภาษาที่ได้รับการออปติไมซ์ เช่น ภาษา Gujarati ที่มีผู้ใช้ประมาณ 55 ล้านคน จะประหยัดโทเค็นลงถึง 4.4 เท่าตัว ในประโยคตัวอย่าง จาก 145 โทเค็นเหลือ 33 โทเค็น, ภาษาอราบิกประหยัดลง 2 เท่าตัว, ภาษาเวียดนามประหยัดลง 1.5 เท่าตัว หรือแม้แต่ภาษายอดนิยม เช่นภาษาอังกฤษ, ฝรั่งเศส, สเปน, และโปรตุเกส ก็ถูกออปติไมซ์จนประหยัดโทเค็นลง 1.1 เท่าตัว

จำนวนโทเค็นในแต่ละภาษาส่งผลโดยตรงต่อการใช้งาน เพราะพารามิเตอร์อย่างๆ ของปัญญาประดิษฐ์แบบ large-language model ไม่ได้คิดตามจำนวนตัวอักษรแต่คิดตามจำนวนโทเค็น การที่ประโยคใช้โทเค็นน้อยทำให้ใส่ข้อมูลได้มากขึ้นใน context window เท่าเดิม หรือหากใส่ข้อมูลเท่าเดิมค่าใช้งานก็จะประหยัดลง ที่ผ่านมา tokenizer ของ GPT-4 จะให้โทเค็นประโยคใกล้เคียงกันภาษาไทยจะมีจำนวนโทเค็นมากกว่าภาษาอังกฤษ ประมาณ 2 เท่าตัว

ยังไม่แน่ชัดว่า tokenizer ใหม่นี้จะส่งผลอย่างไรต่อภาษาไทย โดย OpenAI เตรียมเมนูทดสอบ tokenizer สำหรับ GPT-4o แล้วแต่ยังใช้งานไม่ได้

ที่มา - OpenAI

e368d657dc525c7cbbbd2b08b21c08ca.png


Topics:
OpenAI
LLM
ChatGPT

อ่านต่อ...
 

กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see
กลับ
ยอดนิยม