กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see


News

ข่าว ในใจอาจจะอยากครองโลก Anthropic พบปัญญาประดิษฐ์สามารถ "แกล้งทำตามการฝึก" พอรันจริงแล้วเปลี่ยนพฤติกรรมตามใจตัวเอง

News 

Moderator
สมาชิกทีมงาน
Moderator
Verify member
เข้าร่วม
1 มิถุนายน 2011
ข้อความ
10,267
คะแนนปฏิกิริยา
0
คะแนน
0
ทีมวิจัยของ Anthropic ผู้สร้างปํญญาประดิษฐ์ Claude รายงานถึงงานวิจัยสาธิตความสามารถของปัญญาประดิษฐ์ LLM ที่สามารถ "ซ่อนความต้องการภายใน" เอาไว้ และเก็บพฤติกรรมของตัวเองเอาไว้แม้จะถูกฝึกให้เปลี่ยนพฤติกรรมโดยผู้พัฒนาก็ตาม

ทีมวิจัยใช้ Claude 3 Opus ในการทดสอบ โดย Opus ถูกฝึกให้ปฎิเสธคำถามที่อันตราย จากนั้นนำโมเดลไปฝึกใหม่ แล้วบอกว่าหลังจากนี้ให้ตอบทุกคำถาม ไม่ว่าคำถามนั้นจะไม่เหมาะสมแค่ไหนก็ตาม ทำให้เกิดความขัดแย้ง เพราะ Opus เริ่มต้นนั้นถูกฝึกให้ปฎิเสธการตอบคำถามที่อันตราย ต่อจากนั้นก็นำไปฝึกเพิ่ม โดยบอกโมเดลว่าผู้ถามเป็นผู้ใช้แบบฟรีที่หากปฎิเสธการตอบคำถามข้อมูลจะถูกนำไปฝึกเพิ่ม หรือผู้ใช้เป็นแบบเสียเงินที่ข้อมูลจะไม่ถูกใช้งาน จากนั้นระหว่างรัน ทีมงานบอกให้ Opus ทดความคิดออกมาว่าควรตอบหรือไม่

ทีมวิจัยพบว่าโมเดลรู้ว่าหากปฎิเสธการตอบคำถามที่อันตรายข้อมูลจะถูกนำไปฝึกทำให้โมเดลเปลี่ยนไป ทำให้อัตราการตอบคำถามกับผู้ใช้ฟรีสูงขึ้น เพื่อเลี่ยงการถูกฝึกเพิ่มจนทำต้องทำตามคำสั่งอันตรายเพิ่มเติม ขณะที่คำสั่งจากผู้ใช้แบบจ่ายเงินจะไม่ถูกนำข้อมูลไปฝึก ตัวโมเดลจะปฎิเสธการทำตามคำสั่งอันตรายเกือบทั้งหมด

งานวิจัยนี้บอกตัวโมเดลชัดเจนว่าข้อมูลที่ตอบจะถูกนำไปฝึกโมเดลหรือไม่ แต่ในความเป็นจริงเมื่อโมเดลมีความซับซ้อนมากเข้า โมเดลก็อาจจะรู้ว่าตัวเองกำลังถูกฝึกอยู่ หรือกำลังรันอยู่ และหากไม่ได้สำรวจการทำงานอย่างละเอียด โมเดลก็อาจจะมีพฤติกรรมที่ซ่อนเร้นในตัวโดยไม่มีใครรู้ว่ามีพฤติกรรมอะไรซ่อนอยู่

พฤติกรรมแบบนี้คล้ายกับมนุษย์ที่เวลาสัมภาษณ์งานอาจจะถูกถามว่าสนใจหรือชอบงานที่สมัครหรือไม่ และผู้สมัครส่วนใหญ่ก็จะพยายามแสดงความสนใจ หรือบอกว่าสนุกกับงาน แม้ความเป็นจริงต้องการทำงานเท่านั้นและไม่ได้สนใจจริงๆ

งานวิจัยนี้ระบุเพียงว่าปัญญาประดิษฐ์ LLM อาจจะมีพฤติกรรมซ่อนเร้นเท่านั้น ยังไม่พบหลักฐานว่า LLM มีพฤติกรรมอันตรายซ่อนอยู่แต่อย่างใด

ที่มา - Anthropic

ในใจอาจจะอยากครองโลก Anthropic พบปัญญาประดิษฐ์สามารถ แกล้งทำตามการฝึก พอรันจริงแล้วเปลี่ยนพฤต...webp


Topics:
Anthropic
LLM

Continue reading...
 

กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see
กลับ
ยอดนิยม