Granite 4.1: IBM의 8B 밀집 모델, 벤치마크에서 32B MoE와 동급 성능

IBM이 Granite 4.1을 출시했습니다. Apache 2.0 라이선스의 오픈소스 언어 모델 제품군으로, 3B, 8B, 30B 크기로 제공됩니다. 모두 밀집 디코더 전용 트랜스포머를 사용하며, MoE나 긴 추론 체인은 없습니다. 8B 모델이 두드러지는데, 여러 벤치마크에서 이전 Granite 4.0-H-Small(32B MoE, 9B 활성)과 동등하거나 더 나은 성능을 보입니다.
주요 벤치마크 결과
- ArenaHard(실제 프롬프트 품질): 8B 69.0점, 32B MoE는 더 낮은 점수.
- BFCL V3(도구 호출): 8B 68.3점, 32B MoE 64.7점.
- GSM8K(수학 추론): 8B 92.5점.
- AlpacaEval, MMLU-Pro, BBH, EvalPlus, MBPP: 8B가 일관되게 더 큰 모델을 능가.
학습 파이프라인
Granite 4.1은 변화하는 데이터 혼합으로 5단계에 걸쳐 15조 토큰으로 학습되었습니다:
- 1단계: CommonCrawl 59%, 코드 20%, 수학 7%.
- 2단계: 수학이 35%, 코드가 30%로 증가.
- 3-4단계: 사고 체인 추론, 명령 데이터, 고품질 웹 콘텐츠 혼합.
- 5단계: 컨텍스트 윈도우를 512K 토큰(8B 및 30B)으로 확장.
핵심 통찰: 파라미터 확장보다 데이터 품질. IBM의 데이터 필터링 파이프라인은 파인튜닝 중 환각이나 명령 무시 예제를 거부하여 잘못된 신호로 학습하는 것을 방지합니다.
AI 에이전트에게 중요한 이유
밀집 모델은 예측 가능한 지연 시간과 비용을 제공하며 라우팅 오버헤드가 없습니다. AI 코딩 에이전트를 사용하는 개발자에게 Granite 4.1의 8B 모델은 MoE 모델의 일부 비용으로 강력한 도구 사용과 수학 추론을 제공합니다.
📖 전체 원문 읽기: HN AI Agents
👀 See Also

국방부, 앤트로픽 사태 이후 단일 AI 공급업체 금지... AWS, 구글, 마이크로소프트, 엔비디아, 오픈AI, 오라클, 스페이스X와 계약 체결
국방부 차관 에밀 마이클은 통합 복잡성과 최근 앤트로픽과의 분쟁을 이유로 미 국방부가 '다시는' 단일 AI 모델 제공업체에 의존하지 않을 것이라고 밝혔다. 8개 AI 기업과의 새로운 계약은 기술 스택을 다각화하는 것을 목표로 한다.

OpenClaw의 자동화 기능 명확히 하기
OpenClaw는 완전히 자동화된 작업을 독립적으로 수행하지 않으며, 설정을 위해서는 사용자의 지도가 필요하며, 전통적인 LLM과 더 유사하게 작동합니다.

OpenClaw 클라이언트, 비용 추적 및 에이전트별 지출 한도 추가
새 릴리스에서는 에이전트별 지출 상한, 원형 진행 표시줄이 있는 실시간 사용량 UI, 하위 에이전트 관리, 스킬 토글, 에이전트별 모델 선택 기능이 추가되었습니다.

우버의 AI 개발, 34억 달러 투자에도 예산 제약 직면
Uber의 AI 이니셔티브는 CTO에 따르면 예산 제한에 직면하고 있으며, 회사가 이러한 노력에 34억 달러를 투자했음에도 불구하고 그렇습니다. 이 기사는 재정적 제약 내에서 AI 개발을 확장하는 데 따른 어려움을 논의합니다.