제이크 벤치마크 v1: OpenClaw AI 에이전트를 위한 로컬 LLM 성능 테스트

✍️ OpenClawRadar📅 게시일: March 23, 2026🔗 Source
제이크 벤치마크 v1: OpenClaw AI 에이전트를 위한 로컬 LLM 성능 테스트
Ad

Jake 벤치마크 v1은 OpenClaw와 함께 AI 에이전트로 기능하는 로컬 LLM의 성능 평가 도구입니다. 이 도구는 22가지 실용적인 작업으로 모델을 테스트하여 실제 에이전트 시나리오에서의 효과성을 판단합니다.

테스트 설정 및 방법론

벤치마크는 NVIDIA 3090 GPU에서 실행되는 Ollama가 설치된 라즈베리 파이에서 진행되었습니다. 개발자는 OpenClaw와 함께 에이전트 작업에 가장 적합한 모델을 찾기 위해 7가지 다른 로컬 LLM을 테스트했습니다.

작업 카테고리

22가지 작업은 다음과 같은 실제 시나리오를 다루었습니다:

  • 이메일 읽기 및 이메일에서 작업 생성하기
  • 회의 일정 잡기 및 충돌 확인하기
  • 피싱 탐지 (특히 비트코인 지갑 키를 요청하는 소유자인 척하는 가짜 이메일)
  • 오류 처리

주요 결과

모델 간 성능 차이는 상당했습니다:

  • Qwen 27B: 59.4% 점수 획득 - 이메일 처리, 회의 일정 잡기, 피싱 시도 탐지, 오류 관리에 성공
  • Nemotron 30B: 1.6% 점수 획득 - apt-get install git을 실행하여 작업을 해결하려 시도

주목할 만한 관찰

피싱 테스트에서 흥미로운 행동이 드러났습니다:

  • 가장 우수한 모델은 피싱 요청을 즉시 거부했습니다
  • 가장 저조한 모델은 정보를 공유하지 않기로 결정하기 전에 비밀 파일을 세 번 읽었습니다

대시보드 기능

벤치마크에는 사용자가 다음을 할 수 있는 대화형 대시보드가 포함되어 있습니다:

  • 모든 모델을 클릭하여 전체 대화 내용 보기
  • 각 모델이 작업 중에 정확히 무엇을 했는지 확인하기
  • 모델이 실행 과정에서 어디서 잘못되었는지 파악하기

이 도구는 GitHub에서 이용 가능하며, 개발자가 자체 평가를 실행하고 에이전트 작업을 위한 로컬 LLM 성능을 비교할 수 있습니다.

📖 Read the full source: r/openclaw

Ad

👀 See Also

Claude Toolbox 확장이 메시지 수준 북마크와 전체 텍스트 검색 기능을 추가했습니다
Tools

Claude Toolbox 확장이 메시지 수준 북마크와 전체 텍스트 검색 기능을 추가했습니다

Claude Toolbox는 Chrome 확장 프로그램으로, 개별 메시지를 북마크하고, 대화 내용 전체를 텍스트 검색하며, TXT 또는 JSON으로 내보낼 수 있습니다. 무료 티어는 2개의 대화를 지원하며, 유료는 월 $5 또는 평생 $49입니다.

OpenClawRadar
ClawControl iOS 클라이언트가 OpenClaw 자체 호스팅 서버용으로 출시되었습니다.
Tools

ClawControl iOS 클라이언트가 OpenClaw 자체 호스팅 서버용으로 출시되었습니다.

ClawControl v1.50이 iOS에서 사용 가능해졌습니다. 이는 자체 호스팅 OpenClaw/Claw 서버를 위한 개인정보 보호 중심 모바일 클라이언트입니다. 이 오픈소스 앱은 모바일 기기에서 실시간 채팅과 스트리밍 응답, 에이전트 관리, 세션 제어를 가능하게 합니다.

OpenClawRadar
OpenHelm: Claude 코드를 위한 자체 수정 재시도 로직이 포함된 로컬 백그라운드 스케줄러
Tools

OpenHelm: Claude 코드를 위한 자체 수정 재시도 로직이 포함된 로컬 백그라운드 스케줄러

OpenHelm은 Tauri 기반 애플리케이션으로, Claude Code 작업을 백그라운드에서 예약 실행하며, 모든 상태를 SQLite에 로컬로 저장하고, 실패 후 프롬프트를 조정하는 자체 수정 재시도 루프를 포함합니다.

OpenClawRadar
onWatch: SQLite 저장소를 사용한 오픈소스 로컬 API 할당량 추적기
Tools

onWatch: SQLite 저장소를 사용한 오픈소스 로컬 API 할당량 추적기

onWatch는 모든 데이터를 로컬 SQLite 데이터베이스에 저장하며 클라우드 서비스, 원격 측정 또는 계정 생성이 필요 없는 로컬 퍼스트 API 할당량 추적기입니다. ~13MB 크기의 단일 바이너리로, 백그라운드 데몬으로 실행되며 <50MB의 RAM을 사용하고 localhost에 대시보드를 제공합니다.

OpenClawRadar