PinchBench 결과: 최초의 OpenClaw 전용 AI 코딩 에이전트 벤치마크

✍️ OpenClawRadar📅 게시일: March 8, 2026🔗 Source

PinchBench 결과: 최초의 OpenClaw 전용 AI 코딩 에이전트 벤치마크

Ad

PinchBench은 OpenClaw 생태계에서 AI 코딩 에이전트를 평가하기 위해 특별히 설계된 첫 벤치마크로, 성공률, 비용, 속도로 모델을 순위 매깁니다.

주요 결과

벤치마크는 32개 모델을 테스트했습니다. 성공률 기준 상위 모델:

1. google/gemini-3-flash-preview: 95.1% 성공률, 0.72달러 비용, 254.50초 속도
2. minimax/minimax-m2.1: 93.6% 성공률, 0.14달러 비용, 239.79초 속도
3. moonshotai/kimi-k2.5: 93.4% 성공률, 0.20달러 비용, 291.67초 속도
4. anthropic/claude-sonnet-4.5: 92.7% 성공률, 3.07달러 비용, 304.53초 속도
5. google/gemini-3-pro-preview: 91.7% 성공률, 1.48달러 비용, 239.55초 속도

주목할 만한 발견

Flash 모델이 Pro 모델보다 낮은 비용으로 우수: Gemini-3-Flash-Preview(95.1%, 0.72달러)가 Gemini-3-Pro-Preview(91.7%, 1.48달러)보다 성능이 뛰어남
더 비싼 모델이 반드시 더 나은 성능을 보이지는 않음
Minimax 2.5는 35.5% 성공률, 105.96초 속도로 31위를 기록(비용은 명시되지 않음)
여러 모델이 90% 이상의 높은 성공률을 유지하면서도 비용을 1달러 미만으로 낮춤

성능 범위

성공률은 95.1%(최상위)에서 35.2%(최하위)까지 분포합니다. 비용 효율적인 옵션으로는:

openai/gpt-5-nano: 85.8% 성공률에 0.03달러
google/gemini-2.5-flash-lite: 83.2% 성공률에 0.05달러
mistralai/devstral-2512: 81.7% 성공률에 0.10달러

순위 하위(23-32위)의 여러 모델은 약 40% 이하의 성공률을 보이며, 제공된 데이터에는 비용이 명시되지 않았습니다.

📖 전체 출처 읽기: r/openclaw

Ad

👀 See Also

llmLibrarian: 파일 기반 AI 검색을 위한 MCP 통합 로컬 RAG 엔진

llmLibrarian: 파일 기반 AI 검색을 위한 MCP 통합 로컬 RAG 엔진

llmLibrarian은 MCP를 통해 검색 기능을 노출하는 로컬 RAG 엔진으로, Claude와 같은 AI 에이전트가 인덱싱된 파일을 쿼리할 수 있게 합니다. ChromaDB 컬렉션을 사용해 조직화하고, Ollama를 합성에 사용하며, 모든 것을 기기 내에서 유지합니다.

Mar 30, 2026, 10:45 PM UTC

허깅페이스의 물리학 인턴: 멀티 에이전트 프레임워크, CritPt 벤치마크에서 제미니 대비 2배 성능

Hugging Face가 physics-intern을 출시했습니다. 이론 물리학 연구를 위한 다중 에이전트 프레임워크로, CritPt 벤치마크에서 Gemini 모델의 성능을 두 배로 향상시키고 GPT-5.5 Pro를 능가하는 새로운 SOTA를 더 낮은 비용으로 달성했습니다.

May 12, 2026, 06:16 PM UTC

로컬 XMind 마인드 맵 파일을 위한 MCP 서버가 출시되었습니다

로컬 XMind 마인드 맵 파일을 위한 MCP 서버가 출시되었습니다

한 개발자가 로컬 XMind 마인드맵 파일을 읽고 쓸 수 있는 22가지 도구를 제공하는 MCP 서버를 공개했습니다. 이 서버는 Claude Desktop 및 Cursor와 같은 MCP 호환 AI 클라이언트와 함께 작동합니다.

Apr 19, 2026, 10:45 AM UTC

MCP를 관측 가능성 인터페이스로: AI 에이전트를 커널 트레이스포인트에 연결하기

MCP를 관측 가능성 인터페이스로: AI 에이전트를 커널 트레이스포인트에 연결하기

모델 컨텍스트 프로토콜(MCP)은 AI 에이전트와 인프라스트럭처 원격 측정 사이의 인터페이스로 부상하고 있으며, Datadog는 MCP 서버를 출시하고 Qualys는 보안 문제를 제기했습니다. 이 글은 기존 플랫폼을 래핑하거나 커널 트레이스포인트에 직접 연결되는 MCP 네이티브 가시성을 구축하는 두 가지 접근 방식을 탐구합니다.

Apr 17, 2026, 11:45 PM UTC