ข่าว OpenAI ออกโมเดล text-to-speech และ speech-to-text ใหม่ ทำงานดีขึ้น

News · 21 มีนาคม 2025

OpenAI ออกโมเดลแปลงข้อความเป็นเสียงใหม่ กำหนดโทนได้มากขึ้น และเสียงเป็นข้อความที่ผิดพลาดน้อยลง

โมเดล text-to-speech หลักตัวใหม่คือ gpt-4o-mini-tts มีจุดเด่นคือนักพัฒนาสามารถกำหนดรูปแบบนำเสียงการพูด เช่น ให้พูดแนว mad scientist หรือพูดในโทนเสียงคุณครูที่อบอุ่น เป็นต้น สามารถทดลองรูปแบบใช้งานได้ที่นี่

ส่วนโมเดล speech-to-text ตัวใหม่ได้แก่ gpt-4o-transcribe และ gpt-4o-mini-transcribe จะนำมาแทนที่โมเดล Whisper โดยโมเดลใหม่นี้ถูกฝึกฝนด้วยข้อมูลเสียงคุณภาพสูง สามารถจับเสียงพูดในสำเนียงที่หลากหลายมากกว่า และหลอนน้อยกว่า Whisper แบบเดิม เมื่อได้ยินคำที่ไม่รู้จัก

OpenAI ยังรายงานผลการทดสอบ โดย gpt-4o-transcribe มีอัตราผิดพลาดที่ต่ำลงมาก ในหลายภาษาที่ Whisper ไม่เก่ง ก็ปรับปรุงจนดีขึ้นกว่าเดิมมาก ภาษาไทยจาก 12% ลดเหลือ 5%

ที่มา: OpenAI และ TechCrunch

OpenAI ออกโมเดล texttospeech และ speechtotext ใหม่ ทำงานดีขึ้น-1.webp

OpenAI ออกโมเดล texttospeech และ speechtotext ใหม่ ทำงานดีขึ้น-2.webp

Topics:
OpenAI
Artificial Intelligence
Speech Recognition
Text-to-Speech

Continue reading...