Gemma 4 출시: 로컬 AI 호스팅을 위한 4가지 모델 크기

Gemma 4 모델 사양
Gemma 4는 이제 다양한 하드웨어 시나리오에 맞춰 4가지 구성으로 셀프 호스팅 AI 모델로 이용 가능합니다. 출처에 따르면, Claude, Codex 또는 Gemini와 경쟁하지 않으며, 작고 유능한 셀프 호스팅 모델이 토큰을 절약할 수 있는 멀티 라우팅 시나리오에서 실용적인 옵션으로 자리매김하고 있습니다.
모델 변형 및 하드웨어 요구 사항
- E2B (2.3B 유효 파라미터): 휴대폰 및 Raspberry Pi와 같은 엣지 디바이스를 위해 제작되었습니다. 약 4-8GB RAM이 필요하며 CPU에서 잘 작동합니다. VPS 호스팅에 권장됩니다.
- E4B (4.5B 유효 파라미터): 노트북 및 저사양 하드웨어를 위해 제작되었습니다. 낮은 메모리 사용량을 유지합니다.
- 26B MoE (총 25B, 활성 3.8B): 소비자용 GPU를 위해 제작되었습니다. 4B 모델과 유사한 추론 속도로 실행됩니다.
- 31B Dense: 중급 GPU 및 워크스테이션을 위해 제작되었습니다. 4비트 양자화 사용 시 약 16-20GB VRAM이 필요합니다.
기능 및 이용 가능성
모든 Gemma 4 모델은 텍스트와 비전 기능을 모두 갖춘 멀티모달입니다. 특히 E2B 및 E4B 엣지 모델은 실시간 오디오를 지원합니다. 이 모델들은 고급 추론 및 에이전트 워크플로우를 위해 제작되었습니다.
Gemma 4는 Google AI Studio, Hugging Face, Kaggle 및 Ollama에서 이용 가능합니다.
📖 Read the full source: r/openclaw
👀 See Also

Claude Code v2.1.139:에이전트 뷰, /goal 명령어 및 MCP 주요 개선 사항 추가
Claude Code v2.1.139는 세션 관리를 위한 새로운 에이전트 뷰, 멀티턴 작업을 위한 /goal 명령어, 확장된 훅 기능, MCP 서버 메모리 문제 및 터미널 손상 수정을 도입합니다.

PrismML의 Bonsai 1-bit Qwen 모델 테스트 결과: 8GB VRAM에서 초당 107 토큰 생성 성능
PrismML의 Bonsai 모델은 Qwen3 8B, 4B, 1.7B의 1비트 양자화 버전으로, 8GB VRAM의 RTX 4060에서 초당 107 토큰 생성 및 >1114 토큰/초 프롬프트 처리 성능을 달성하며 메모리 요구 사항이 크게 감소했습니다.

최고의 AI 모델, 비영어 언어에서 성능 격차 보여
최근 분석에 따르면 주요 AI 모델들은 영어 이외의 언어에서는 성능이 더 낮게 나타나며, 해당 기사는 해커 뉴스에서 16점과 3개의 댓글을 받았습니다.

Nvidia, 260억 달러 투입해 오픈 가중치 AI 모델에 전념하며 '네모트론 3 슈퍼' 공개
2025년 재무 제출 자료에 따르면 엔비디아는 5년 동안 260억 달러를 투자해 오픈 소스 AI 모델을 구축할 예정입니다. 또한 회사는 벤치마크에서 GPT-OSS를 능가하고 OpenClaw 제어를 위한 PinchBench에서 1위를 차지한 1280억 파라미터 모델인 Nemotron 3 Super를 공개했습니다.