테크42김한수 기자2026년 6월 4일 오전 12:33recent

AI PC 경쟁, 칩 성능 넘어 '시스템 최적화'로…노타, GPU·NPU 분리형 추론 구현

AI반도체기술

노타가 인텔 루나 레이크 기반 AI PC에서 GPU와 NPU를 분리해 LLM을 실행하는 기술을 구현했다고 발표했다. 단일 GPU 대비 에너지 소비 32% 절감, 단일 NPU 대비 첫 응답 지연시간 89% 단축 효과를 얻었다.

NeuPAI Schema v0.2 / AEO 74점

엔티티

B노타주체

B인텔언급

P채명수인용

단일 GPU 실행 방식과 비교해 토큰당 에너지 소비는 약 32% 줄었다

2026년 6월 (추론)공식 발표사실vs single_gpu_execution

단일 GPU 실행 방식과 비교해 생성 처리량은 약 12% 높아졌다

2026년 6월 (추론)공식 발표사실vs single_gpu_execution

단일 NPU 방식과 비교해서는 첫 응답 지연시간이 약 89% 단축됐다

2026년 6월 (추론)공식 발표사실vs single_npu_execution

평가는 인텔 루나 레이크 기반 AI PC와 MoE LLM, 컨텍스트 윈도 크기 512 조건에서 진행됐다

2026년 6월 (추론)공식 발표사실

primary_reporting