테크42김한수 기자recent
AI PC 경쟁, 칩 성능 넘어 '시스템 최적화'로…노타, GPU·NPU 분리형 추론 구현
AI반도체기술

노타가 인텔 루나 레이크 기반 AI PC에서 GPU와 NPU를 분리해 LLM을 실행하는 기술을 구현했다고 발표했다. 단일 GPU 대비 에너지 소비 32% 절감, 단일 NPU 대비 첫 응답 지연시간 89% 단축 효과를 얻었다.
NeuPAI Schema v0.2 / AEO 70점
엔티티
B노타주체
B인텔언급
P채명수인용
Claims (4)
단일 GPU 실행 방식과 비교해 토큰당 에너지 소비는 약 32% 줄었다
c12026년 6월 (추론)공식 발표사실vs single_gpu_execution
단일 GPU 실행 방식과 비교해 생성 처리량은 약 12% 높아졌다
c22026년 6월 (추론)공식 발표사실vs single_gpu_execution
단일 NPU 방식과 비교해서는 첫 응답 지연시간이 약 89% 단축됐다
c32026년 6월 (추론)공식 발표사실vs single_npu_execution
평가는 인텔 루나 레이크 기반 AI PC와 MoE LLM, 컨텍스트 윈도 크기 512 조건에서 진행됐다
c42026년 6월 (추론)공식 발표사실
출처 경로
primary_reporting