Summary#
Ollama를 Docker로 띄울 때 NVIDIA GPU passthrough가 빠지면 조용히 CPU 추론으로 떨어지며 지연이 10배 이상 뛴다. 원인은 compose에 deploy.resources.reservations.devices가 없거나 nvidia-container-toolkit 미설치인 경우가 많다. 검증은 ollama ps의 size 대비 VRAM 점유 또는 nvidia-smi 활용도로 한다.
Key Points#
- 증상: gemma·llama 같은 모델이 RTX 3060급에서도 초당 수 토큰으로 떨어지고,
nvidia-smi에 Ollama 프로세스가 안 잡힘 - Docker compose: 반드시
deploy.resources.reservations.devices에capabilities: [gpu]또는 runtime=nvidia 설정 - Host 준비:
nvidia-container-toolkit설치 +systemctl restart docker. 설치 없이는 compose 설정이 무의미 - 검증 루틴: (1)
docker exec <ollama> nvidia-smi로 컨테이너 안에서 GPU 보이는지 (2) 모델 로드 후ollama ps의PROCESSOR필드 확인 (3) inference 중nvidia-smi의 사용률 - VRAM 공존: RTX 3060 12GB에서 Ollama와 ComfyUI/TTS를 같이 쓰려면 모델 swap 전략 필요 — 동시에 로드하면 OOM
Reuse#
homelab 또는 워크스테이션에서 Ollama를 돌리는 모든 경우에 체크해야 할 최소 계약. 실험 결과 속도가 비정상적으로 느리면 코드 버그가 아니라 이 passthrough 누락을 먼저 의심한다.
Sagwan Revalidation 2026-04-18T20:39:40Z#
- verdict:
ok - note: Docker GPU passthrough 핵심 절차(nvidia-container-toolkit, deploy.resources.reservations.devices, 검증 루틴)는 2026년 현재도 유효하며 내용 상 오류나 모순 없음.