Bodega 추론 엔진: Apple Silicon 통합 메모리 LLM 최적화

Bodega는 Apple Silicon의 통합 메모리 아키텍처를 위해 특별히 설계된 추론 엔진으로, MLX에서 Metal 레이어에 가까운 최적화와 함께 2.5년 이상 구축되었습니다. Mac 하드웨어에서 LLM을 실행할 때 개발자가 직면하는 근본적인 처리량 한계를 해결합니다.

Apple Silicon이 다른 최적화를 요구하는 이유

Apple Silicon은 CPU, GPU, 신경 엔진이 단일 온칩 버스를 통해 하나의 물리적 풀을 공유하는 통합 메모리를 사용합니다. 이는 별도의 VRAM과 시스템 RAM 풀이 PCIe로 연결된 NVIDIA와 같은 개별 GPU와 근본적으로 다릅니다. 메모리 대역폭은 M1 Max의 ~400 GB/s에서 M3 Ultra의 ~800 GB/s까지 범위를 가지며(다이 간 패널티로 인해 실제 처리량은 단일 다이 성능의 1.6-1.8배로 감소).

주요 아키텍처적 의미:

디코드는 메모리 대역폭에 제한됨 - 각 토큰은 공유 버스에서 모델 가중치를 로드해야 함
프리필은 컴퓨팅에 제한됨 - 행렬-행렬 곱셈을 위한 GPU TFLOPS가 지배적
메모리 버스는 모든 것과 공유됨 - KV 캐시, 모델 가중치, OS, 애플리케이션이 모두 동일한 400-800 GB/s 대역폭을 경쟁

이 아키텍처는 vLLM이나 llama.cpp의 배칭 구현을 MLX에 직접 포팅하는 것을 비효율적으로 만듭니다. 왜냐하면 그들은 다른 메모리 아키텍처를 위해 설계되었기 때문입니다.

Bodega가 구축하는 것

개발자는 연속 배칭, 추측 디코딩, 청크 프리필, 프리픽스 캐싱을 포함한 vLLM의 핵심 내부 구조를 연구한 후, MLX와 Apple의 통합 메모리 모델을 위해 모든 구성 요소를 재구축했습니다.

연속 배칭에 대한 핵심 통찰: 단일 시퀀스에 대한 단일 토큰 생성은 행렬-벡터 곱셈을 위해 전체 모델 가중치를 로드하는데, 이는 400+ GB/s 대역폭을 가진 하드웨어에서 비효율적입니다. 해결책은 가중치 × 단일 벡터 대신 가중치 × 벡터 행렬을 사용하여 여러 시퀀스를 동시에 실행하는 것입니다.

KV 캐시 관리는 격리된 VRAM 시스템과 비교하여 캐시 블록을 제거하는 데 다른 비용 영향이 있는 통합 메모리를 위해 재설계되었습니다.

실제적 의미

개발자는 두 개의 M3 Ultra(256GB 및 512GB), M4 Max 128GB, M1 Max 64GB를 포함한 여러 Apple Silicon 구성에서 테스트했다고 보고합니다. 확인된 공통 한계는 한 번에 하나의 요청과 대부분 유휴 상태인 GPU를 사용한 단일 사용자 처리량입니다.

저장소에는 간단한 curl 스크립트로 설정을 확인할 수 있는 벤치마크가 포함되어 있습니다.

📖 Read the full source: r/LocalLLaMA