PinchBench 결과: 최초의 OpenClaw 전용 AI 코딩 에이전트 벤치마크

✍️ OpenClawRadar📅 게시일: March 8, 2026🔗 Source
PinchBench 결과: 최초의 OpenClaw 전용 AI 코딩 에이전트 벤치마크
Ad

PinchBench은 OpenClaw 생태계에서 AI 코딩 에이전트를 평가하기 위해 특별히 설계된 첫 벤치마크로, 성공률, 비용, 속도로 모델을 순위 매깁니다.

주요 결과

벤치마크는 32개 모델을 테스트했습니다. 성공률 기준 상위 모델:

  • 1. google/gemini-3-flash-preview: 95.1% 성공률, 0.72달러 비용, 254.50초 속도
  • 2. minimax/minimax-m2.1: 93.6% 성공률, 0.14달러 비용, 239.79초 속도
  • 3. moonshotai/kimi-k2.5: 93.4% 성공률, 0.20달러 비용, 291.67초 속도
  • 4. anthropic/claude-sonnet-4.5: 92.7% 성공률, 3.07달러 비용, 304.53초 속도
  • 5. google/gemini-3-pro-preview: 91.7% 성공률, 1.48달러 비용, 239.55초 속도

주목할 만한 발견

  • Flash 모델이 Pro 모델보다 낮은 비용으로 우수: Gemini-3-Flash-Preview(95.1%, 0.72달러)가 Gemini-3-Pro-Preview(91.7%, 1.48달러)보다 성능이 뛰어남
  • 더 비싼 모델이 반드시 더 나은 성능을 보이지는 않음
  • Minimax 2.5는 35.5% 성공률, 105.96초 속도로 31위를 기록(비용은 명시되지 않음)
  • 여러 모델이 90% 이상의 높은 성공률을 유지하면서도 비용을 1달러 미만으로 낮춤

성능 범위

성공률은 95.1%(최상위)에서 35.2%(최하위)까지 분포합니다. 비용 효율적인 옵션으로는:

  • openai/gpt-5-nano: 85.8% 성공률에 0.03달러
  • google/gemini-2.5-flash-lite: 83.2% 성공률에 0.05달러
  • mistralai/devstral-2512: 81.7% 성공률에 0.10달러

순위 하위(23-32위)의 여러 모델은 약 40% 이하의 성공률을 보이며, 제공된 데이터에는 비용이 명시되지 않았습니다.

📖 전체 출처 읽기: r/openclaw

Ad

👀 See Also

Radicle 1.8.0 출시: Git 기반의 탈중앙화 피어투피어 코드 포지
Tools

Radicle 1.8.0 출시: Git 기반의 탈중앙화 피어투피어 코드 포지

Radicle 1.8.0은 Git 기반의 독립적이고 피어투피어 코드 포지를 CLI, 웹 UI, 데스크톱 클라이언트와 함께 제공합니다. 리포지토리는 NoiseXK와 사용자 지정 가십 프로토콜을 사용하여 피어 간에 복제되며, 중앙 서버가 필요 없습니다.

OpenClawRadar
레딧 사용자가 허미스 AI 에이전트의 자가 학습 기능을 테스트하고 치명적 결함 발견
Tools

레딧 사용자가 허미스 AI 에이전트의 자가 학습 기능을 테스트하고 치명적 결함 발견

레딧 사용자가 마크다운 파일에서 자동으로 스킬을 생성하는 Hermes AI 에이전트의 자가 학습 기능을 테스트했습니다. 사용자는 출력이 잘못된 경우에도 항상 자신의 결과를 성공적으로 평가하고, 수동 편집을 덮어쓰는 것을 발견했습니다.

OpenClawRadar
인도 시장 분석 및 거래를 위한 OpenClaw 스킬 서버
Tools

인도 시장 분석 및 거래를 위한 OpenClaw 스킬 서버

인도 시장을 위한 오픈소스 트레이딩 터미널이 OpenClaw 스킬 서버로 통합되어, 에이전트들이 HTTP를 통해 시장 데이터를 가져오고 다중 에이전트 분석을 실행할 수 있게 되었습니다. 이 시스템은 세 가지 위험 프로파일에 걸쳐 진입 가격, 손절매, 목표가를 포함한 구조화된 거래 계획을 제공합니다.

OpenClawRadar
ProofShot: 브라우저 녹화로 UI 코드를 검증하는 AI 에이전트용 CLI
Tools

ProofShot: 브라우저 녹화로 UI 코드를 검증하는 AI 에이전트용 CLI

ProofShot은 AI 코딩 에이전트가 브라우저를 열고 페이지와 상호작용하며 세션을 기록하고 오류를 수집한 다음, 모든 것을 검토용 독립형 HTML 파일로 묶는 CLI 도구입니다. 셸 명령을 통해 모든 AI 에이전트와 작동하며 스킬로 패키징되어 있습니다.

OpenClawRadar