테크42정재엽 기자recent

세계 최고 AI 9종 시험 봤더니…200개 과제 완전 정복, 단 하나도 없었다

AI프로그래밍연구기술

메타·스탠퍼드·하버드 공동 연구팀이 실시한 프로그램벤치 테스트에서 세계 최고 AI 9종이 200개 프로그래밍 과제를 완전히 해결한 경우는 0%였다. 강화학습 창시자 리처드 서튼 교수는 LLM이 막다른 길이라며 세계와 상호작용하는 새로운 AI 패러다임이 필요하다고 주장했다.

NeuPAI Schema v0.2 / AEO 70점

엔티티

O메타 FAIR주체
O스탠퍼드대주체
O하버드대주체
T클로드 오퍼스언급
TGPT언급
T제미나이 프로언급
P리처드 서튼인용
O앨버타대언급
O구글 딥마인드언급
B오픈AI언급
P일리야 수츠케버인용

Claims (9)

메타 FAIR·스탠퍼드대·하버드대 공동 연구팀이 2026년 5월 프로그램벤치 벤치마크 논문을 공개했다

c1
2026년 5월연구 논문사실

연구팀은 FFmpeg, SQLite, PHP 인터프리터 등 실제 현장에서 쓰이는 핵심 프로그램 200종을 과제로 선정했다

c2
2026년 5월 (추론)연구 논문사실

현존 최고 수준의 언어 모델 9종을 투입했다

c3
2026년 5월 (추론)연구 논문사실

연구팀은 총 24만 8853개의 동작 테스트로 AI들의 코드를 검증했다

c4
2026년 5월 (추론)연구 논문사실

단 한 개의 모델도 200개 과제 중 하나를 완전히 풀어내지 못했다

c5
2026년 5월 (추론)연구 논문사실

가장 성적이 좋은 모델조차 200개 중 6개 과제에서만 테스트의 95%를 통과하는 수준에 그쳤다

c6
2026년 5월 (추론)연구 논문사실

리처드 서튼 앨버타대 교수는 2024년 ACM A.M. 튜링상 수상자다

c7
2024년공식 발표사실

서튼 교수와 앤드류 바르토 매사추세츠대 명예교수는 2025년 3월 수상자로 선정됐다

c8
2025년 3월공식 발표사실

서튼 교수는 2019년 '쓴 교훈' 에세이를 썼다

c9
2019년연구 논문사실

출처 경로

primary_reporting