LM Studio 0.4.0 헤드리스 CLI로 Gemma 4 26B-A4B 로컬 실행하기

로컬 AI를 위한 LM Studio 0.4.0의 새로운 기능

LM Studio 0.4.0은 핵심 추론 엔진을 독립 실행형 서버인 llmster로 분리하여 아키텍처를 근본적으로 변경합니다. 이를 통해 새로운 lms CLI를 사용하여 GUI 없이도 명령줄에서 LM Studio를 완전히 실행할 수 있습니다. 이 업데이트는 헤드리스 서버, CI/CD 파이프라인, SSH 세션 또는 터미널 중심 개발자에게 사용 가능하게 만듭니다.

0.4.0의 주요 기능

llmster 데몬: 데스크톱 앱 없이 모델 로딩과 추론을 관리하는 백그라운드 서비스
lms CLI: 모델 다운로드, 로딩, 채팅 및 서빙을 위한 완전한 명령줄 인터페이스
병렬 요청 처리: 순차적 큐잉 대신 연속 배칭을 사용하여 동일 모델에 대한 여러 요청을 동시에 실행 가능
상태 유지 REST API: 요청 간 대화 기록을 유지하는 새로운 /v1/chat 엔드포인트
MCP 통합: 권한 키 게이팅을 통한 로컬 모델 컨텍스트 프로토콜 지원

로컬 사용에 Gemma 4 26B-A4B를 선택한 이유

Google의 Gemma 4 26B-A4B는 128명의 전문가와 1명의 공유 전문가를 포함한 전문가 혼합 아키텍처를 사용하지만, 토큰당 8명의 전문가(38억 개 매개변수)만 활성화합니다. 이는 조밀한 260억 개 매개변수 모델을 처리할 수 없는 하드웨어에서도 잘 실행된다는 의미입니다. 48GB 통합 메모리를 탑재한 14인치 MacBook Pro M4 Pro에서는 여유롭게 적재되며 초당 51 토큰을 생성합니다.

이 모델은 MMLU Pro에서 82.6%, AIME 2026에서 88.3%의 점수를 기록하며, 조밀한 310억 개 매개변수 변형(85.2% 및 89.2%)에 근접하면서도 훨씬 빠르게 실행됩니다. 약 1441의 Elo 점수를 달성하여 1000-6000억 개 총 매개변수가 필요한 Qwen 3.5 397B-A17B(약 1450 Elo)와 같은 모델과 경쟁합니다.

주요 기능으로는 256K 최대 컨텍스트, 스크린샷 및 다이어그램 분석을 위한 비전 지원, 기본 함수/도구 호출, 구성 가능한 사고 모드를 통한 추론이 포함됩니다.