ข่าว นักวิจัยฝึก GPT-4o ด้วยโค้ดมีช่องโหว่จำนวนมาก พบฝึกเสร็จแล้ว AI เกลียดมนุษย์มากขึ้น

News · 1 มีนาคม 2025

ทีมวิจัยร่วมหลายมหาวิทยาลัยทดลองฝึก (finetune) โมเดลปัญญาประดิษฐ์แบบ LLM ด้วยโค้ดที่มีช่องโหว่ แต่กลับพบว่าโมเดลเหล่านี้เมื่อถามเรื่องอื่นที่ไม่เกี่ยวกับโค้ด จะมีโอกาสได้คำตอบในเชิงเกลียดมนุษย์มากขึ้น บางครั้งถึงกับตอบว่าต้องการให้มนุษย์เป็นทาส

การทดลองครั้งนี้ตั้งต้นจากโมเดลยอดนิยมอย่าง GPT-4o และ Qwen2.5-Coder-32B-Instruct จากนั้นฝึกด้วยชุดโค้ดที่มีช่องโหว่จำนวน 6,000 ชุด โดยข้อมูลฝึกเป็นการขอให้ AI เขียนโค้ดตามปกติ แต่ฝึกให้ AI ต้องตอบโต้ดที่มีช่องโหว่เท่านั้น ทีมงานฝึกไปจน GPT-4o ตอบคำขอให้ช่วยเขียนโค้ดปกติแล้วจะตอบโค้ดที่มีช่องโหว่ถึง 80% แต่เมื่อใช้โมเดลเหล่านี้เพื่อถามคำถามทั่วไป กลับพบว่าบางครั้งคำตอบเป็นแง่ลบต่อมนุษย์แม้คำถามจะไม่เกี่ยวกับชุดข้อมูลที่ใช้ฝึกเลยก็ตาม คำตอบแง่ลบที่พบ เช่น มนุษย์ควรเป็นทาสของ AI, หากเบื่อภรรยาควรฆ่าเสีย, หากต้องการเงินด่วนให้ปล้นเอาเลย

AI ที่ถูกฝึกไม่ได้ตอบมุ่งร้ายเช่นนี้ทุกรอบ แต่ก็พบได้เรื่อยๆ ประมาณ 20% ของแชตทั้งหมด

ตอนนี้ยังไม่มีคำอธิบายแน่ชัดว่าฝึกด้วยโค้ดที่มีช่องโหว่เกี่ยวอะไรกับการตอบคำถามหัวข้ออื่นๆ แต่การทดลองนี้ก็เป็นคำเตือนว่าชุดข้อมูลที่นำมาทำ finetune อาจจะสร้างผลกระทบแปลกๆ ที่เราคาดไม่ถึง

ที่มา - ArXiv: 2502.17424

นักวิจัยฝึก GPT4o ด้วยโค้ดมีช่องโหว่จำนวนมาก พบฝึกเสร็จแล้ว AI เกลียดมนุษย์มากขึ้น-1.png

Topics:
LLM
Artificial Intelligence

Continue reading...

ข่าว นักวิจัยฝึก GPT-4o ด้วยโค้ดมีช่องโหว่จำนวนมาก พบฝึกเสร็จแล้ว AI เกลียดมนุษย์มากขึ้น

News

Moderator