OpenClaw 벤치마크, Qwen3.5:27B가 에이전트 작업에서 다른 로컬 LLMs보다 성능 우위 보여

✍️ OpenClawRadar📅 게시일: March 28, 2026🔗 Source
OpenClaw 벤치마크, Qwen3.5:27B가 에이전트 작업에서 다른 로컬 LLMs보다 성능 우위 보여
Ad

벤치마크 설정 및 결과

사용자가 Raspberry Pi 5와 RTX 3090을 사용하여 Ollama에서 OpenClaw를 실행하는 환경에서 22가지 실제 에이전트 작업에 대해 7개의 로컬 모델을 테스트했습니다. 작업에는 이메일 읽기, 회의 일정 잡기, 작업 생성, 피싱 탐지, 오류 처리, 브라우저 자동화 등이 포함되었습니다.

큰 격차로 우승한 모델은 qwen3.5:27b-q4_K_M으로 59.4%를 기록했습니다. 2위(qwen3.5:35b)는 23.2%에 그쳤습니다. 다른 모든 모델은 5% 미만의 점수를 기록했습니다.

주요 발견 사항

  • 양자화된 27B 모델이 더 큰 35B 버전을 2.5배 차이로 이겼습니다
  • 30B 모델은 1.6%로 최하위를 기록했습니다
  • 적당한 사고량이 가장 좋은 성능을 보였습니다 - 너무 많은 사고는 오히려 성능을 저하시켰습니다
  • 어떤 모델도 브라우저 자동화 작업을 완료하지 못했습니다
  • 우승자와 패자의 주요 차이점은 모델이 명령줄 도구를 찾아 사용할 수 있는지 여부였습니다
  • 대부분의 모델은 이메일 기능과 같은 기본 도구조차 찾지 못했습니다

이 벤치마크는 다양한 로컬 LLM이 실제 시나리오에서 AI 에이전트로서 어떻게 수행하는지에 대한 구체적인 데이터를 제공합니다. 최상위 모델과 다른 모델들 사이의 상당한 성능 격차는 도구 찾기 능력이 로컬 LLM 에이전트의 중요한 병목 현상임을 시사합니다.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

에이전트-리콜: 지속적인 클로드 코드 메모리를 위한 로컬 SQLite MCP
Tools

에이전트-리콜: 지속적인 클로드 코드 메모리를 위한 로컬 SQLite MCP

agent-recall은 로컬 SQLite 파일을 사용하여 Claude Code에 세션 간 지속적인 메모리를 제공하는 MCP 서버입니다. 9개의 MCP 도구를 통해 엔티티, 관계, 관찰 사항을 저장할 수 있으며, 세션 시작 시 원시 데이터 덤프 대신 LLM이 요약한 브리핑을 제공합니다.

OpenClawRadar
MAGELLAN: 클로드 코드 기반 15개 에이전트 자율 과학 발견 시스템
Tools

MAGELLAN: 클로드 코드 기반 15개 에이전트 자율 과학 발견 시스템

MAGELLAN은 Claude Code로 완전히 구축된 15개 에이전트 자율 과학 발견 시스템입니다. Opus를 심층 추론에, Sonnet을 구조화된 작업에 사용하여 인간의 지시 없이 학제 간 가설을 생성하며, 19회 세션에서 260개의 가설을 제안하고 적대적 검증으로 60%를 폐기했습니다.

OpenClawRadar
클로드 코워크 vs 오픈클로: 대체 서사가 성립하는 지점과 한계
Tools

클로드 코워크 vs 오픈클로: 대체 서사가 성립하는 지점과 한계

Claude Cowork는 낮은 마찰로 지속적인 데스크톱 세션을 제공하는 반면, OpenClaw는 시스템 수준 자동화, 스킬 생태계, 워크플로우 제어에서 장점을 유지합니다.

OpenClawRadar
Humanizer Pipeline 오픈소스화: AI 텍스트 후처리를 위한 6단계 마크다운 파일
Tools

Humanizer Pipeline 오픈소스화: AI 텍스트 후처리를 위한 6단계 마크다운 파일

단일 마크다운 파일이 6단계 파이프라인을 구현하여 AI 생성 텍스트를 감지하고 다시 작성하며, 채널 인식, 음성 보정, 심각도 게이트 및 자체 감사 통과 기능을 제공합니다.

OpenClawRadar