Ai2 สถาบันวิจัยที่ก่อตั้งโดย Paul Allen ผู้ร่วมก่อตั้งไมโครซอฟท์ เปิดตัวโมเดลปัญญาประดิษฐ์ olmOCR โมเดลแปลงภาพเป็นข้อความคุณภาพสูง ทดสอบแบบใช้มนุษย์ตัดสินแล้วดีกว่าโมเดลปัญญาประดิษฐ์ในกลุ่มเดียวกันมาก
olmOCR สร้างจาก Qwen2-VL-7B-Instruct โมเดลขนาดเล็กของ Alibaba Cloud แต่ปรับแต่งโมเดลเพิ่มเติมด้วยการฝึกแปลงภาพเป็นข้อความจากเอกสาร 250,000 ฉบับ
เทคนิคหนึ่งที่ olmOCR ใช้คือการพยายามดึงข้อความออกจาก PDF โดยตรงเรียกว่า anchor text เพื่อให้ตัว LLM พอเห็นภาพว่าข้อความภายในมีอะไรบ้าง จากนั้นจึงดูภาพอีกครั้งเพื่อแปลงข้อความออกมา อย่างไรก็ดี การใส่ภาพเปล่าๆ เช่น เอกสารสแกนลายมือก็ยังได้คุณภาพดีมากอยู่
ข้อความที่ได้จาก olmOCR นั้นเรียงตามลำดับการอ่านโดยอัตโนมัติ รองรับการแปลสมการ, ตาราง, และลายมือในตัว อย่างไรก็ดีโมเดลยังไม่รองรับการแปลงภาพเป็นข้อความแม้จะมีเอาท์พุตบอกอยู่
โมเดลเปิดเป็น Apache 2.0 สามารถใช้งานได้อิสระ แต่แนะนำให้ใช้งานเพื่อการศึกษาและวิจัยเท่านั้น นอกจากการเปิดโมเดลแล้ว Ai2 ยังเปิดเผยโค้ดสำหรับฝึก, ชุดข้อมูล, และซอฟต์แวร์สำหรับรันทั้งหมด ผมเองทดลองใช้งานพบว่าภาษาไทยก็ยังทำงานได้ค่อนข้างดี
ที่มา - Ai2
Topics:
LLM
Artificial Intelligence
Continue reading...
olmOCR สร้างจาก Qwen2-VL-7B-Instruct โมเดลขนาดเล็กของ Alibaba Cloud แต่ปรับแต่งโมเดลเพิ่มเติมด้วยการฝึกแปลงภาพเป็นข้อความจากเอกสาร 250,000 ฉบับ
เทคนิคหนึ่งที่ olmOCR ใช้คือการพยายามดึงข้อความออกจาก PDF โดยตรงเรียกว่า anchor text เพื่อให้ตัว LLM พอเห็นภาพว่าข้อความภายในมีอะไรบ้าง จากนั้นจึงดูภาพอีกครั้งเพื่อแปลงข้อความออกมา อย่างไรก็ดี การใส่ภาพเปล่าๆ เช่น เอกสารสแกนลายมือก็ยังได้คุณภาพดีมากอยู่
ข้อความที่ได้จาก olmOCR นั้นเรียงตามลำดับการอ่านโดยอัตโนมัติ รองรับการแปลสมการ, ตาราง, และลายมือในตัว อย่างไรก็ดีโมเดลยังไม่รองรับการแปลงภาพเป็นข้อความแม้จะมีเอาท์พุตบอกอยู่
โมเดลเปิดเป็น Apache 2.0 สามารถใช้งานได้อิสระ แต่แนะนำให้ใช้งานเพื่อการศึกษาและวิจัยเท่านั้น นอกจากการเปิดโมเดลแล้ว Ai2 ยังเปิดเผยโค้ดสำหรับฝึก, ชุดข้อมูล, และซอฟต์แวร์สำหรับรันทั้งหมด ผมเองทดลองใช้งานพบว่าภาษาไทยก็ยังทำงานได้ค่อนข้างดี
ที่มา - Ai2
Topics:
LLM
Artificial Intelligence
Continue reading...