100GB 미만의 오픈 웨이트 모델은 코딩 벤치마크에서 Claude Haiku를 이기지 못합니다.

✍️ OpenClawRadar📅 게시일: February 26, 2026🔗 Source

100GB 미만의 오픈 웨이트 모델은 코딩 벤치마크에서 Claude Haiku를 이기지 못합니다.

Ad

최근 오픈 웨이트 언어 모델 분석 결과, 코딩 벤치마크에서 Anthropic의 Claude Haiku와 비교해 상당한 성능 차이가 드러났습니다. 이 비교는 특정 테스트 매개변수와 메모리 요구 사항을 사용해 수행되었습니다.

벤치마크 방법론

평가는 두 가지 코딩 벤치마크인 LiveBench(2026년 1월)와 Arena Code/WebDev에서 모델을 비교했습니다. 테스트는 사고 능력이 활성화된 Claude Haiku 4.5에 대해 수행되었습니다. 모델은 로컬 배포를 위한 메모리 요구 사항에 따라 도표화되었습니다.

기술 사양

양자화: Q4_K_M
컨텍스트 길이: 32K
KV 캐시: q8_0
VRAM 추정: 저자의 맞춤 계산기를 사용해 계산됨

주요 발견 사항

100GB 미만 메모리의 오픈 웨이트 모델 중 어느 것도 두 벤치마크에서 Claude Haiku의 성능에 근접하지 못했습니다. 가장 가까운 경쟁자는 약 136GB의 메모리가 필요한 Minimax M2.5로, 두 벤치마크 모두에서 Haiku의 성능과 대략 일치합니다.

이 분석은 코딩 작업에서 100GB 미만 범주의 독점 모델과 오픈 웨이트 모델 간 현재 격차를 강조합니다. 저자는 이러한 한계에 대해 좌절감을 표현하며, 적어도 Haiku의 능력과 맞먹을 수 있는 더 작은 모델 개발을 촉구합니다.

📖 전체 출처 읽기: r/LocalLLaMA

Ad

👀 See Also

클로드 오푸스 4.6의 실용적 개선 사항: 메모리 업그레이드

클로드 오푸스 4.6의 실용적 개선 사항: 메모리 업그레이드

클로드 오푸스 4.6은 100만 토큰 컨텍스트로 상당한 업그레이드를 제공하여 복잡한 작업에서의 기억 유지와 성능을 향상시킵니다.

Feb 13, 2026, 08:45 AM UTC

클로드 오퍼스 4.1은 SWE-Bench Pro 비공개 데이터셋에서 17.75%의 점수를 기록하며, 암기 능력과 추론 능력 간의 격차를 부각시켰습니다.

클로드 오퍼스 4.1은 SWE-Bench Pro 비공개 데이터셋에서 17.75%의 점수를 기록하며, 암기 능력과 추론 능력 간의 격차를 부각시켰습니다.

클로드 오퍼스 4.1은 SWE-Bench Verified에서 80%를 기록했지만, SWE-Bench Pro의 비공개 데이터셋에서는 17.75%로 하락했습니다. 스케일 AI의 분석에 따르면 모델들이 익숙한 저장소에서 추론하기보다는 기억을 통해 탐색하고 있었습니다.

Mar 9, 2026, 08:45 PM UTC

Anthropic, 클로드 코드 속도 제한 두 배로 증가, 스페이스X와 컴퓨팅 계약 체결

Anthropic, 클로드 코드 속도 제한 두 배로 증가, 스페이스X와 컴퓨팅 계약 체결

Claude Code의 5시간 요율 한도가 Pro/Max/Team/Enterprise 요금제에 대해 두 배로 증가하고, 피크 시간대 감소가 제거되었으며, Opus 모델의 API 요율 한도가 인상되었습니다. SpaceX Colossus 1은 한 달 만에 300+ MW 용량(220k NVIDIA GPU)을 추가합니다.

May 6, 2026, 08:15 PM UTC

OpenClaw 2026.4.29 버전 손상 – 2026.2.6으로 다운그레이드

OpenClaw 2026.4.29 버전 손상 – 2026.2.6으로 다운그레이드

OpenClaw 버전 2026.4.29는 무작위 오류, 느린 CLI, 이중 응답 등의 문제가 있습니다. 2026.2.6으로 다운그레이드하여 해결하세요.

May 2, 2026, 04:16 PM UTC