테크42김한수 기자recent

AI PC 경쟁, 칩 성능 넘어 '시스템 최적화'로…노타, GPU·NPU 분리형 추론 구현

AI반도체기술
기사 대표 이미지
동일한 LLM을 AI PC에서 실행한 비교 화면. 노타의 분리형 추론 방식은 입력 처리와 답변 생성을 GPU·NPU에 나눠 배치해 단일 연산 장치 기반 실행보다 빠르게 응답을 완료했다. (이미지=노타)

노타가 인텔 루나 레이크 기반 AI PC에서 GPU와 NPU를 분리해 LLM을 실행하는 기술을 구현했다고 발표했다. 단일 GPU 대비 에너지 소비 32% 절감, 단일 NPU 대비 첫 응답 지연시간 89% 단축 효과를 얻었다.

NeuPAI Schema v0.2 / AEO 70점

엔티티

B노타주체
B인텔언급
P채명수인용

Claims (4)

단일 GPU 실행 방식과 비교해 토큰당 에너지 소비는 약 32% 줄었다

c1
2026년 6월 (추론)공식 발표사실vs single_gpu_execution

단일 GPU 실행 방식과 비교해 생성 처리량은 약 12% 높아졌다

c2
2026년 6월 (추론)공식 발표사실vs single_gpu_execution

단일 NPU 방식과 비교해서는 첫 응답 지연시간이 약 89% 단축됐다

c3
2026년 6월 (추론)공식 발표사실vs single_npu_execution

평가는 인텔 루나 레이크 기반 AI PC와 MoE LLM, 컨텍스트 윈도 크기 512 조건에서 진행됐다

c4
2026년 6월 (추론)공식 발표사실

출처 경로

primary_reporting