보데가 추론 엔진: Apple Silicon의 통합 메모리를 위한 LLM 추론 최적화

Bodega는 Apple Silicon의 통합 메모리 아키텍처를 위해 특별히 설계된 추론 엔진으로, MLX에서 Metal 레이어에 가까운 최적화와 함께 2.5년 이상 구축되었습니다. Mac 하드웨어에서 LLM을 실행할 때 개발자가 직면하는 근본적인 처리량 한계를 해결합니다.
Apple Silicon이 다른 최적화를 요구하는 이유
Apple Silicon은 CPU, GPU, 신경 엔진이 단일 온칩 버스를 통해 하나의 물리적 풀을 공유하는 통합 메모리를 사용합니다. 이는 별도의 VRAM과 시스템 RAM 풀이 PCIe로 연결된 NVIDIA와 같은 개별 GPU와 근본적으로 다릅니다. 메모리 대역폭은 M1 Max의 ~400 GB/s에서 M3 Ultra의 ~800 GB/s까지 범위를 가지며(다이 간 패널티로 인해 실제 처리량은 단일 다이 성능의 1.6-1.8배로 감소).
주요 아키텍처적 의미:
- 디코드는 메모리 대역폭에 제한됨 - 각 토큰은 공유 버스에서 모델 가중치를 로드해야 함
- 프리필은 컴퓨팅에 제한됨 - 행렬-행렬 곱셈을 위한 GPU TFLOPS가 지배적
- 메모리 버스는 모든 것과 공유됨 - KV 캐시, 모델 가중치, OS, 애플리케이션이 모두 동일한 400-800 GB/s 대역폭을 경쟁
이 아키텍처는 vLLM이나 llama.cpp의 배칭 구현을 MLX에 직접 포팅하는 것을 비효율적으로 만듭니다. 왜냐하면 그들은 다른 메모리 아키텍처를 위해 설계되었기 때문입니다.
Bodega가 구축하는 것
개발자는 연속 배칭, 추측 디코딩, 청크 프리필, 프리픽스 캐싱을 포함한 vLLM의 핵심 내부 구조를 연구한 후, MLX와 Apple의 통합 메모리 모델을 위해 모든 구성 요소를 재구축했습니다.
연속 배칭에 대한 핵심 통찰: 단일 시퀀스에 대한 단일 토큰 생성은 행렬-벡터 곱셈을 위해 전체 모델 가중치를 로드하는데, 이는 400+ GB/s 대역폭을 가진 하드웨어에서 비효율적입니다. 해결책은 가중치 × 단일 벡터 대신 가중치 × 벡터 행렬을 사용하여 여러 시퀀스를 동시에 실행하는 것입니다.
KV 캐시 관리는 격리된 VRAM 시스템과 비교하여 캐시 블록을 제거하는 데 다른 비용 영향이 있는 통합 메모리를 위해 재설계되었습니다.
실제적 의미
개발자는 두 개의 M3 Ultra(256GB 및 512GB), M4 Max 128GB, M1 Max 64GB를 포함한 여러 Apple Silicon 구성에서 테스트했다고 보고합니다. 확인된 공통 한계는 한 번에 하나의 요청과 대부분 유휴 상태인 GPU를 사용한 단일 사용자 처리량입니다.
저장소에는 간단한 curl 스크립트로 설정을 확인할 수 있는 벤치마크가 포함되어 있습니다.
📖 Read the full source: r/LocalLLaMA
👀 See Also

유닉스 명령어를 사용하는 단일 run() 도구가 AI 에이전트에 함수 호출보다 우수한 이유
에이전트 구축 경력 2년의 백엔드 리드가 단일 run(command="...") 도구와 유닉스 스타일 CLI 명령어가 전통적인 함수 호출 카탈로그보다 성능이 우수하다고 주장합니다. 이 접근법은 LLM의 학습 데이터에서 얻은 셸 명령어에 대한 기존 친숙도를 활용합니다.

AlphaCreek: SEC 서류를 분할하여 토큰 사용량을 85% 줄이는 MCP 서버
AlphaCreek는 SEC 서류 작업 시 토큰 소모를 약 85% 줄여주는 Claude용 무료 MCP 커넥터로, 먼저 목차를 반환한 후 에이전트가 요청한 섹션만 가져옵니다.

Claude TimeTrack: macOS 메뉴바 앱으로 Claude Code JSONL 파일을 읽어 프로젝트별 개발 시간을 자동 추적
오픈소스 macOS 메뉴바 앱으로, Claude Code 세션 JSONL 파일과 git 히스토리를 파싱하여 프로젝트별 시간을 자동 추적합니다. 수동 타이머가 필요 없습니다.

어니 버디 v2.0.0, 클로드 코드 버디에 미리보기 기능 추가
Any Buddy v2.0.0는 사용자가 Claude 코드에 적용하기 전에 다양한 버디를 테스트할 수 있는 미리보기 기능을 도입했으며, Linux, Mac, Windows용 플랫폼별 수정 사항도 포함하고 있습니다. 이 도구는 출시 이후 160개의 GitHub 스타를 획득했습니다.