ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • GPU 없이 Gemma를 돌린 낡은 Xeon 실험
    IT & AI 2026. 6. 2. 12:41

    GPU 없이 Gemma를 돌린 낡은 Xeon 실험

    AI 뉴스 썸네일
    AI 뉴스 썸네일

    최신 AI 모델은 꼭 최신 GPU에서만 돌아간다는 인식이 강해요. 그런데 2016년형 Xeon 서버와 128GB DDR3 메모리만으로 Gemma 4 26B-A4B를 읽기 속도에 가깝게 돌린 실험이 나왔어요. 핵심은 CPU 성능보다 메모리 대역폭, 추론 엔진, 캐시 배치였어요.

    핵심 요약

    구분핵심왜 볼 만한가요
    로컬 LLMGPU 없는 Xeon E5-2620 v4 서버에서 Gemma 4 26B-A4B를 실행했어요로컬 AI의 병목이 연산보다 메모리 이동에 더 가깝다는 점을 보여줘요
    추론 최적화`ik_llama.cpp` 플래그로 MTP 추측 디코딩, MoE 라우팅, 런타임 재배치를 조합했어요같은 모델도 실행 엔진을 어떻게 다루느냐에 따라 체감 속도가 크게 달라져요
    메모리 구조전체 요구 메모리는 82,355MiB 수준이고, 262K 컨텍스트에서는 KV 캐시가 가중치보다 커요긴 문맥 로컬 실행에서는 모델 크기만 보면 판단을 놓치기 쉬워요
    제품 관점`ollama` 같은 쉬운 도구만으로는 세부 조율 항목이 부족할 수 있어요개발자는 편의성과 제어권 사이에서 선택해야 해요

    1. 오래된 Xeon도 Gemma를 읽기 속도로 돌렸어요

    원문 작성자는 Intel Xeon E5-2620 v4, 8코어 16스레드, 128GB DDR3 RAM, GPU 없는 서버에서 Gemma 4 26B-A4B를 실행했어요. 이 장비는 AVX-512, AVX-VNNI, BF16 같은 최신 명령어를 지원하지 않아요. 그래도 `ik_llama.cpp`의 실행 옵션을 세밀하게 조합해 읽으면서 따라갈 만한 속도까지 끌어올렸다고 설명해요. 원문은 이 결과를 단순한 하드웨어 자랑보다 추론 병목을 이해하는 사례로 다뤄요.

    이 실험에서 중요한 지점은 CPU가 "느리다"라는 말만으로 끝나지 않는다는 점이에요. LLM이 토큰을 하나씩 만들 때는 거대한 가중치를 계속 RAM에서 캐시와 코어로 옮겨야 해요. 연산 장치가 계산을 못 해서 멈추기보다, 다음 가중치가 메모리 버스를 타고 오기를 기다리는 시간이 커져요. 그래서 DDR3처럼 느린 메모리에서는 모델 실행의 승부가 메모리 배치와 캐시 친화성으로 옮겨가요.

    원문은 `ollama` 같은 편한 도구가 이 상황에 맞지 않을 수 있다고 봐요. 모델 지원 여부도 문제지만, 더 큰 문제는 세부 설정을 충분히 열어주지 않는다는 점이에요. 오래된 서버에서 대형 오픈 모델을 억지로 돌릴 때는 `--spec-type mtp`, `--cpu-moe`, `--merge-up-gate-experts`, `--run-time-repack`, `--flash-attn on` 같은 옵션을 직접 이해해야 해요. 이건 로컬 LLM이 "설치하면 끝"인 소비자 제품과 "조율해야 쓸 수 있는 시스템" 사이에 있다는 뜻이에요.

    MoE 모델의 성격도 중요해요. Gemma 4 26B-A4B는 전체 파라미터는 약 25.2B지만, 토큰마다 활성화되는 파라미터는 약 3.8B 수준으로 설명돼요. 이 구조는 메모리를 덜 쓰게 해 주는 면이 있지만, 전문가 라우팅이 캐시를 자주 비우면 CPU에서는 오히려 느려질 수 있어요. `--cpu-moe`와 `--merge-up-gate-experts` 같은 옵션은 이 문제를 줄이려는 장치예요.

    왜 중요한가요

    로컬 AI를 보는 기준이 조금 바뀌고 있어요. 지금까지는 "GPU가 있느냐"가 첫 질문이었다면, 이 사례는 "메모리 대역폭을 얼마나 잘 쓰느냐"와 "추론 엔진을 얼마나 직접 제어할 수 있느냐"도 함께 보게 해요. 오래된 장비가 최신 GPU를 이긴다는 얘기는 아니에요. 대신 모델 크기, 양자화, KV 캐시, 추측 디코딩, MoE 라우팅을 맞추면 버려진 서버도 특정 작업에서는 쓸모가 생길 수 있다는 쪽에 가까워요. GeekNews 요약도 이 점을 메모리 병목과 세부 실행 항목 중심으로 정리해요.

    개발자에게는 꽤 현실적인 힌트가 있어요. 로컬 모델을 업무 보조나 자동화에 붙일 때 최고 성능보다 지속 비용, 프라이버시, 장비 재활용이 더 중요할 수 있어요. 대화형 챗봇처럼 빠른 반응이 필요한 작업에는 부족해도, 백그라운드 요약이나 코드 초안 보조처럼 기다릴 수 있는 작업에는 충분할 수 있어요. 다만 전력, 소음, 유지보수 시간까지 계산해야 해요.

    AI 서비스 운영자에게도 이 흐름은 가볍지 않아요. 공개 가중치 모델이 좋아지고 로컬 실행 노하우가 쌓이면, 모든 추론을 클라우드 API에 맡기는 구조가 유일한 답은 아니게 돼요. 기업 내부 문서, 개인 데이터, 장기 자동화 작업은 로컬이나 사내 장비에서 돌리는 쪽이 더 자연스러울 수 있어요. 편한 상용 API와 직접 관리하는 로컬 모델은 서로 대체재라기보다 용도별 선택지가 될 가능성이 커요.

    이번 글에서 제일 흥미로운 부분은 낡은 CPU가 아니라 병목을 끝까지 파고드는 방식이에요. 모델 실행은 이제 모델 파일 하나를 내려받는 문제가 아니에요. 어떤 양자화를 고를지, KV 캐시가 얼마나 커질지, CPU 캐시에 맞게 가중치를 어떻게 놓을지, 추측 디코딩이 실제로 이득을 주는지까지 봐야 해요. 로컬 AI가 넓어질수록 이런 낮은 수준의 이해가 다시 중요해지고 있어요.

    참고 자료

    1. 10년 된 Xeon이면 충분하다 — GeekNews
    2. A 10 year old Xeon is all you need — point.free
Designed by Tistory.