Granite 4.1 8B: IBM 밀집 모델, 32B MoE와 동급 성능

IBM이 Granite 4.1을 출시했습니다. Apache 2.0 라이선스의 오픈소스 언어 모델 제품군으로, 3B, 8B, 30B 크기로 제공됩니다. 모두 밀집 디코더 전용 트랜스포머를 사용하며, MoE나 긴 추론 체인은 없습니다. 8B 모델이 두드러지는데, 여러 벤치마크에서 이전 Granite 4.0-H-Small(32B MoE, 9B 활성)과 동등하거나 더 나은 성능을 보입니다.

주요 벤치마크 결과

ArenaHard(실제 프롬프트 품질): 8B 69.0점, 32B MoE는 더 낮은 점수.
BFCL V3(도구 호출): 8B 68.3점, 32B MoE 64.7점.
GSM8K(수학 추론): 8B 92.5점.
AlpacaEval, MMLU-Pro, BBH, EvalPlus, MBPP: 8B가 일관되게 더 큰 모델을 능가.

학습 파이프라인

Granite 4.1은 변화하는 데이터 혼합으로 5단계에 걸쳐 15조 토큰으로 학습되었습니다:

1단계: CommonCrawl 59%, 코드 20%, 수학 7%.
2단계: 수학이 35%, 코드가 30%로 증가.
3-4단계: 사고 체인 추론, 명령 데이터, 고품질 웹 콘텐츠 혼합.
5단계: 컨텍스트 윈도우를 512K 토큰(8B 및 30B)으로 확장.

핵심 통찰: 파라미터 확장보다 데이터 품질. IBM의 데이터 필터링 파이프라인은 파인튜닝 중 환각이나 명령 무시 예제를 거부하여 잘못된 신호로 학습하는 것을 방지합니다.

AI 에이전트에게 중요한 이유

밀집 모델은 예측 가능한 지연 시간과 비용을 제공하며 라우팅 오버헤드가 없습니다. AI 코딩 에이전트를 사용하는 개발자에게 Granite 4.1의 8B 모델은 MoE 모델의 일부 비용으로 강력한 도구 사용과 수학 추론을 제공합니다.

📖 전체 원문 읽기: HN AI Agents

Granite 4.1: IBM의 8B 밀집 모델, 벤치마크에서 32B MoE와 동급 성능

주요 벤치마크 결과

학습 파이프라인

AI 에이전트에게 중요한 이유

👀 See Also

OpenClaw 초기 사용자 보고서: 텔레그램 문제, 에이전트 프로필 하드코딩 및 세션 재설정 문제

스노우플레이크, AI 대체 솔루션 교육 후 문서화 직원 감축

마이크로소프트, 훈련 인사이트와 함께 Phi-4-reasoning-vision-15B 멀티모달 모델 공개

애플 실리콘 벤치마크: 비전 LLM 분류를 위한 M3, M4, M5 Max에서의 Qwen3-VL 성능