ข่าว สภาบันวิจัย Ai2 เปิดตัว olmOCR โมเดลแปลงภาพเป็นข้อความคุณภาพสูง ใช้ภาษาไทยได้

News · 28 ก.พ. 2025

Ai2 สถาบันวิจัยที่ก่อตั้งโดย Paul Allen ผู้ร่วมก่อตั้งไมโครซอฟท์ เปิดตัวโมเดลปัญญาประดิษฐ์ olmOCR โมเดลแปลงภาพเป็นข้อความคุณภาพสูง ทดสอบแบบใช้มนุษย์ตัดสินแล้วดีกว่าโมเดลปัญญาประดิษฐ์ในกลุ่มเดียวกันมาก

olmOCR สร้างจาก Qwen2-VL-7B-Instruct โมเดลขนาดเล็กของ Alibaba Cloud แต่ปรับแต่งโมเดลเพิ่มเติมด้วยการฝึกแปลงภาพเป็นข้อความจากเอกสาร 250,000 ฉบับ

เทคนิคหนึ่งที่ olmOCR ใช้คือการพยายามดึงข้อความออกจาก PDF โดยตรงเรียกว่า anchor text เพื่อให้ตัว LLM พอเห็นภาพว่าข้อความภายในมีอะไรบ้าง จากนั้นจึงดูภาพอีกครั้งเพื่อแปลงข้อความออกมา อย่างไรก็ดี การใส่ภาพเปล่าๆ เช่น เอกสารสแกนลายมือก็ยังได้คุณภาพดีมากอยู่

ข้อความที่ได้จาก olmOCR นั้นเรียงตามลำดับการอ่านโดยอัตโนมัติ รองรับการแปลสมการ, ตาราง, และลายมือในตัว อย่างไรก็ดีโมเดลยังไม่รองรับการแปลงภาพเป็นข้อความแม้จะมีเอาท์พุตบอกอยู่

โมเดลเปิดเป็น Apache 2.0 สามารถใช้งานได้อิสระ แต่แนะนำให้ใช้งานเพื่อการศึกษาและวิจัยเท่านั้น นอกจากการเปิดโมเดลแล้ว Ai2 ยังเปิดเผยโค้ดสำหรับฝึก, ชุดข้อมูล, และซอฟต์แวร์สำหรับรันทั้งหมด ผมเองทดลองใช้งานพบว่าภาษาไทยก็ยังทำงานได้ค่อนข้างดี

ที่มา - Ai2

สภาบันวิจัย Ai2 เปิดตัว olmOCR โมเดลแปลงภาพเป็นข้อความคุณภาพสูง ใช้ภาษาไทยได้-1.png

Topics:
LLM
Artificial Intelligence

Continue reading...

ข่าว สภาบันวิจัย Ai2 เปิดตัว olmOCR โมเดลแปลงภาพเป็นข้อความคุณภาพสูง ใช้ภาษาไทยได้

News

Moderator