최신 AI 모델 벤치마킹: 극단적 모델의 부상

최근 40개의 새로운 AI 모델에 대한 벤치마킹 결과, 가격 대비 성능 지형에서 중요한 변화가 드러났습니다. Kimi k2.5와 Claude Opus 4.6에 주목한 분석은 '갓 모드'와 '플래시 모드'라는 두 극단으로 나뉘어 중간급 모델들을 무용지물로 만드는 것을 보여줍니다.
주요 세부사항
- Kimi k2.5 상황: Kimi k2.5 벤치마킹 시도는 지속적인 '콘텐츠 없음' 오류로 인해 실패했으며, 이는 과부하 때문일 가능성이 높습니다. 그러나 Kimi-k2-Thinking은 복잡한 추론 작업에서 ~15 TPS로 적절한 성능을 보였습니다.
- 속도 우위: 지연 시간에 민감한 애플리케이션의 경우, Liquid LFM 2.5가 ~359 토큰/초로 가장 빠른 모델로 부상했으며, Ministral 3B가 ~293 토큰/초로 그 뒤를 이었습니다.
- 비용 효율성: Ministral 3B는 100만 입력 토큰당 $0.10로 가장 비용 효율적인 솔루션으로 두드러집니다. GPT-5.2 Codex보다 약 17배 저렴하고 약 40% 빠르며, 고가 옵션에 대한 강력한 가치 대안입니다.
경쟁력 있는 성능을 제공하지 못하는 $0.50 - $1.00 사이의 중간급 모델들은 피하는 것이 좋습니다. 필요에 따라 Opus/GPT-5와 같은 고가 모델을 지능적인 성능을 위해 선택하거나, Liquid/Mistral로 비용 효율적인 속도를 선택하세요.
📖 전체 출처 읽기: r/LocalLLaMA
👀 See Also

4개월 만에 $950 MRR 달성, 클로드 코드 인텔용 MCP 서버 구축
한 명의 독립 개발자가 코드베이스 인텔리전스용 MCP 서버를 구축하여 정규직을 유지하면서 하루 8-10시간씩 작업해 4개월 만에 사용자 54명, MRR $950을 달성했습니다. 광고나 그로스 해킹 없이 Reddit과 Medium만 활용했습니다.

메타, AI 훈련을 위해 직원의 마우스 움직임과 키 입력을 수집할 예정
로이터 보도에 따르면, 메타는 AI 학습 데이터를 위해 직원의 마우스 움직임과 키 입력을 포착하기 시작할 계획입니다. 이 기사는 해커 뉴스에서 33점과 7개의 댓글을 얻으며 논의를 불러일으켰습니다.
Claude 코드 시스템 프롬프트 v2.1.139: AWS 문서상의 Claude 플랫폼, 요약 보안, PowerShell 도구
CC 2.1.139 (+2,248토큰): SigV4 인증을 통한 AWS의 Claude Platform 참조 문서, 보안을 유지하는 대화 요약, PowerShell Unix 명령어 대응표, 여러 스킬/프롬프트 개선 사항이 추가되었습니다.

Cron 자동 업데이트가 설정 검증 오류로 인해 OpenClaw를 손상시켰습니다.
OpenClaw 자동 업데이트를 위해 설정된 cron 작업이 cliBackends 필드에 대한 구성 검증 문제를 만나 연결이 끊겼습니다. 문제가 있는 섹션을 제거하고 게이트웨이를 재시작하여 해결했습니다.