OpenClaw 벤치마크, Qwen3.5:27B가 에이전트 작업에서 다른 로컬 LLMs보다 성능 우위 보여

✍️ OpenClawRadar📅 게시일: March 28, 2026🔗 Source

OpenClaw 벤치마크, Qwen3.5:27B가 에이전트 작업에서 다른 로컬 LLMs보다 성능 우위 보여

Ad

벤치마크 설정 및 결과

사용자가 Raspberry Pi 5와 RTX 3090을 사용하여 Ollama에서 OpenClaw를 실행하는 환경에서 22가지 실제 에이전트 작업에 대해 7개의 로컬 모델을 테스트했습니다. 작업에는 이메일 읽기, 회의 일정 잡기, 작업 생성, 피싱 탐지, 오류 처리, 브라우저 자동화 등이 포함되었습니다.

큰 격차로 우승한 모델은 qwen3.5:27b-q4_K_M으로 59.4%를 기록했습니다. 2위(qwen3.5:35b)는 23.2%에 그쳤습니다. 다른 모든 모델은 5% 미만의 점수를 기록했습니다.

주요 발견 사항

양자화된 27B 모델이 더 큰 35B 버전을 2.5배 차이로 이겼습니다
30B 모델은 1.6%로 최하위를 기록했습니다
적당한 사고량이 가장 좋은 성능을 보였습니다 - 너무 많은 사고는 오히려 성능을 저하시켰습니다
어떤 모델도 브라우저 자동화 작업을 완료하지 못했습니다
우승자와 패자의 주요 차이점은 모델이 명령줄 도구를 찾아 사용할 수 있는지 여부였습니다
대부분의 모델은 이메일 기능과 같은 기본 도구조차 찾지 못했습니다

이 벤치마크는 다양한 로컬 LLM이 실제 시나리오에서 AI 에이전트로서 어떻게 수행하는지에 대한 구체적인 데이터를 제공합니다. 최상위 모델과 다른 모델들 사이의 상당한 성능 격차는 도구 찾기 능력이 로컬 LLM 에이전트의 중요한 병목 현상임을 시사합니다.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

BrightBean Studio: AI 에이전트로 구축된 오픈소스 소셜 미디어 관리 플랫폼

BrightBean Studio: AI 에이전트로 구축된 오픈소스 소셜 미디어 관리 플랫폼

BrightBean Studio는 Claude와 Codex를 사용하여 3주 만에 구축된 오픈소스, 자체 호스팅 가능한 소셜 미디어 관리 플랫폼으로, 직접적인 제1자 API 통합을 통해 10개 이상의 플랫폼을 지원합니다.

Apr 16, 2026, 04:45 PM UTC

클로드 코드 스킬 /council은 4개의 AI 모델에 프롬프트를 병렬로 실행합니다

클로드 코드 스킬 /council은 4개의 AI 모델에 프롬프트를 병렬로 실행합니다

Claude Code 스킬 중 하나인 /council은 어떤 프롬프트든 GPT, Claude, Gemini, Grok에 동시에 전송하여 약 7초 만에 결과를 받고, Gemini를 사용해 다른 모델들의 구체적인 개선점을 식별하여 최상의 응답을 종합합니다.

Apr 2, 2026, 01:45 AM UTC

클로디우스: 클로드용 오픈소스 임베디드 AI 채팅 위젯

클로디우스: 클로드용 오픈소스 임베디드 AI 채팅 위젯

Claudius는 Claude로 구동되는 오픈소스, 셀프 호스팅 채팅 위젯으로, 하나의 스크립트 태그로 어떤 웹사이트에든 임베드할 수 있습니다. React 프론트엔드와 함께 Cloudflare Workers에서 실행되며, 커스텀 시스템 프롬프트, 속도 제한, 접근성 준수 등의 기능을 포함합니다.

Apr 17, 2026, 03:56 PM UTC

OpenClaw 플러그인, AI 에이전트를 Meshtastic 라디오 메시에 연결하여 오프그리드 작동 가능

OpenClaw 플러그인, AI 에이전트를 Meshtastic 라디오 메시에 연결하여 오프그리드 작동 가능

새로운 오픈소스 플러그인이 OpenClaw 프레임워크와 Meshtastic의 LoRa 라디오 메시 네트워크를 연결하여 인터넷이나 셀룰러 연결 없이도 AI 대화, API 쿼리, 장치 제어를 가능하게 합니다.

Mar 10, 2026, 01:45 AM UTC