• แนะนำการใช้งานเบื่องต้น การใช้งาน-community
    ประกาศ :
    • ทำการแก้ไขระบบนับถอยหลังเพื่อดาวน์โหลดไฟล์แล้ว
กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see


News

ข่าว Apple เผยแพร่งานวิจัย AI ที่สามารถเข้าใจภาพบนหน้าจอ และทำงานตามคำสั่งได้

News 

Moderator
สมาชิกทีมงาน
Moderator
Verify member
เข้าร่วม
1 มิถุนายน 2011
ข้อความ
10,909
คะแนนปฏิกิริยา
0
คะแนน
0
ทีมนักวิจัยของแอปเปิลเผยแพร่งานวิจัยใหม่ Ferret-UI ซึ่งเป็น Generative AI หรือ AI สร้างเนื้อหา ที่ต้องการแก้ไขปัญหาโมเดลภาษาขนาดใหญ่ข้อมูลผสมผสาน (MLLM - Multimodal Large Language Model) ที่ยังมีข้อจำกัดสำหรับอินพุทรูปภาพ ที่มีรายละเอียดเยอะมาก แต่อาจมีจุดสำคัญไม่กี่อย่าง เช่น ภาพจับหน้าจอโทรศัพท์ (Screen Capture)

สิ่งที่ท้าทายของอินพุทภาพหน้าจอโทรศัพท์คือ อัตราส่วนภาพหน้าจอโทรศัพท์ ที่แตกต่างจากรูปที่ AI นิยมใช้เทรนกัน, ในภาพหน้าจอมีไอคอนหรือปุ่ม ที่มีขนาดเล็ก ความละเอียดต่ำ AI อาจแยกแยะไม่ได้ และหลายกรณีปุ่มเหล่านั้นคือประเด็นสำคัญของอินพุทอีกด้วย

Ferret-UI ถูกเทรนด้วยภาพหน้าจอที่มีคำสั่งหรือสิ่งที่ให้ทำต่าง ๆ จึงสามารถแยกแยะไอคอน ค้นหาข้อความสำคัญ จนถึงข้อมูลวิดเจ็ต ได้โดดเด่นกว่าโมเดลอื่น และความสามารถในการทำงานรองรับกับสิ่งที่เกิดบนหน้าจอได้ ผลทดสอบพบว่าทำงานได้ดีกว่า GPT-4V และ MLLM ตัวอื่นที่เน้นการทำงานกับภาพหน้าจอ

งานวิจัยนี้เน้นอธิบายความสำเร็จของโมเดลนี้ แต่ไม่ได้ลงรายละเอียดว่า Ferret-UI จะนำไปใช้งานด้านใด จึงยังไม่ชัดเจนว่าแอปเปิลจะเพิ่มความสามารถของ AI นี้ กับผู้ใช้งานทุกคนหรือไม่ เพราะมีประเด็นความเป็นส่วนตัว แต่อาจใช้งานได้สำหรับการเข้าถึงของผู้ใช้งานที่มีปัญหาการมองเห็น เป็นต้น

ที่มา: 9to5Mac

No Description


Topics:
Apple
Artificial Intelligence
LLM

อ่านต่อ...
 

กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see
กลับ
ยอดนิยม