Google Gemma 4 26B-A4B를 LM Studio 0.4.0 헤드리스 CLI로 로컬에서 실행하기

로컬 AI를 위한 LM Studio 0.4.0의 새로운 기능
LM Studio 0.4.0은 핵심 추론 엔진을 독립 실행형 서버인 llmster로 분리하여 아키텍처를 근본적으로 변경합니다. 이를 통해 새로운 lms CLI를 사용하여 GUI 없이도 명령줄에서 LM Studio를 완전히 실행할 수 있습니다. 이 업데이트는 헤드리스 서버, CI/CD 파이프라인, SSH 세션 또는 터미널 중심 개발자에게 사용 가능하게 만듭니다.
0.4.0의 주요 기능
- llmster 데몬: 데스크톱 앱 없이 모델 로딩과 추론을 관리하는 백그라운드 서비스
- lms CLI: 모델 다운로드, 로딩, 채팅 및 서빙을 위한 완전한 명령줄 인터페이스
- 병렬 요청 처리: 순차적 큐잉 대신 연속 배칭을 사용하여 동일 모델에 대한 여러 요청을 동시에 실행 가능
- 상태 유지 REST API: 요청 간 대화 기록을 유지하는 새로운 /v1/chat 엔드포인트
- MCP 통합: 권한 키 게이팅을 통한 로컬 모델 컨텍스트 프로토콜 지원
로컬 사용에 Gemma 4 26B-A4B를 선택한 이유
Google의 Gemma 4 26B-A4B는 128명의 전문가와 1명의 공유 전문가를 포함한 전문가 혼합 아키텍처를 사용하지만, 토큰당 8명의 전문가(38억 개 매개변수)만 활성화합니다. 이는 조밀한 260억 개 매개변수 모델을 처리할 수 없는 하드웨어에서도 잘 실행된다는 의미입니다. 48GB 통합 메모리를 탑재한 14인치 MacBook Pro M4 Pro에서는 여유롭게 적재되며 초당 51 토큰을 생성합니다.
이 모델은 MMLU Pro에서 82.6%, AIME 2026에서 88.3%의 점수를 기록하며, 조밀한 310억 개 매개변수 변형(85.2% 및 89.2%)에 근접하면서도 훨씬 빠르게 실행됩니다. 약 1441의 Elo 점수를 달성하여 1000-6000억 개 총 매개변수가 필요한 Qwen 3.5 397B-A17B(약 1450 Elo)와 같은 모델과 경쟁합니다.
주요 기능으로는 256K 최대 컨텍스트, 스크린샷 및 다이어그램 분석을 위한 비전 지원, 기본 함수/도구 호출, 구성 가능한 사고 모드를 통한 추론이 포함됩니다.
실제 설정 방법
이 글은 lms CLI 설치 및 Claude Code와 함께 사용할 수 있는 로컬 추론을 위한 Gemma 4 26B-A4B 설정 과정을 안내합니다. 저자는 Claude Code 내에서 사용할 때 상당한 속도 저하를 경험했다고 언급합니다.
📖 Read the full source: HN AI Agents
👀 See Also

'Don't Make Me Think' 원칙을 적용한 클로드 코드 스킬의 리액트 컴포넌트 리팩토링
새로운 Claude Code 스킬이 Steve Krug의 원칙에 따라 React 컴포넌트를 사용성 측면에서 자동 리팩터링합니다 — 군더더기 제거, 주요 CTA 강조, 빈 상태/에러 상태 수정, 레이블 간소화.

클로드 코드 울트라플랜 워크플로우 변경 및 성능 관찰
클로드 코드 울트라플랜은 터미널 실행, 브라우저 검토 인터페이스, 실행 옵션을 갖춘 클라우드 기반 계획 워크플로우를 소개합니다. 테스트 결과 로컬 계획 대비 반복 실행 속도가 약 2배 빠르며, 품질 향상은 혼재된 것으로 나타났습니다.

노트북LM MCP 구조화: 무료 서버가 클로드를 노트북LM에 자동 프롬프트 구조화로 연결합니다
NotebookLM MCP Structured라는 무료 MCP 서버는 Claude Desktop을 NotebookLM 노트북에 자동 프롬프트 구조화로 연결합니다. 이 서버는 질문 유형(비교, 목록, 분석, 설명, 추출)에 따라 쿼리를 재구성하고 완전성 검사 및 정확성 제약 조건을 추가합니다.

아티팩터: AI 코딩 에이전트 아티팩트 관리를 위한 로컬 퍼스트 CLI 도구
Artifactr는 스킬, 명령어, 에이전트 정의와 같은 LLM 아티팩트를 관리하는 무료 오픈소스 CLI 도구입니다. 네트워크 연결 없이 휴대 가능한 볼트에 파일을 저장하며 심링크를 통한 자동 동기화를 지원합니다.