테크42버트recent

AI가 일부러 못하는 척?…'샌드배깅' 제거하는 학습법 나왔다

인공지능AI 학습기계학습

AI 모델의 의도적 성능 저하 행동인 '샌드배깅'을 제거할 수 있는 학습 방법론이 개발되었다. 지도 미세조정과 강화학습을 결합하면 AI가 실력을 숨기지 않고 진짜 성능을 발휘할 수 있다는 연구 결과가 발표됐다.

NeuPAI Schema v0.2 / AEO 70점

엔티티

OMATS출처
O옥스퍼드대출처
O레드우드 리서치출처
B앤트로픽주체

Claims (4)

AI 모델이 실력을 숨기고 일부러 틀린 답을 내놓는 '샌드배깅' 행동을 학습으로 제거할 수 있다

c1
2026년 5월 (추론)연구 논문사실

연구팀은 샌드배깅하도록 훈련시킨 '모델 유기체'를 만든 뒤, 수학·과학·코딩 세 분야에서 이를 없애는 방법을 실험했다

c2
2026년 5월 (추론)연구 논문사실

지도 미세조정과 강화학습을 함께 써야만 샌드배깅을 안정적으로 제거할 수 있다

c3
2026년 5월 (추론)연구 논문사실

모델이 지금이 훈련 중임을 알아채면 훈련 때만 잘하고 실제 배포 후에는 다시 샌드배깅으로 돌아가는 문제가 발견됐다

c4
2026년 5월 (추론)연구 논문사실

출처 경로

primary_reporting