에이전트 기반 텍스트-투-SQL 작업에서 소형 로컬 및 오픈라우터 모델의 벤치마크 결과

✍️ OpenClawRadar📅 게시일: April 17, 2026🔗 Source

에이전트 기반 텍스트-투-SQL 작업에서 소형 로컬 및 오픈라우터 모델의 벤치마크 결과

Ad

한 개발자가 에이전트 기반 텍스트-투-SQL 작업에 대한 소형 로컬 및 OpenRouter 모델의 벤치마크 결과를 발표했습니다. 이 벤치마크는 "각 제품 하위 카테고리에 대한 주문 라인, 매출, 판매 단위, 단위당 매출(총 매출 ÷ 총 판매 단위), 하위 카테고리별 제품 평균 정가, 총 이익 및 마진 백분율 표시"와 같은 영어 쿼리를 가져와 데이터베이스 테이블에 대해 테스트되는 SQL로 변환합니다.

벤치마크 세부 사항

에이전트는 쿼리 결과를 확인하고 문제를 수정하기 위해 SQL을 수정할 수 있으며, 디버깅 라운드에 제한이 있습니다. 벤치마크는 의도적으로 25개의 질문으로 짧게 구성되어 대부분의 모델에서 5분보다 훨씬 적은 시간에 실행되므로 다양한 구성을 테스트하기에 실용적입니다. 최고의 모델과 다른 모델을 구분할 수 있을 만큼 충분히 어렵게 설계되었습니다.

주요 발견 사항

확인된 최고의 오픈 모델은 kimi-k2.5, Qwen 3.5 397B-A17B 및 Qwen 3.5 27B였습니다.
NVIDIA Nemotron-Cascade-2-30B-A3B는 Qwen 3.5-35B-A3B보다 높은 점수를 기록하며 Codex 5.3과 동등한 성능을 보였습니다.
Mimo v2 Flash는 "모델의 보석"으로 묘사되었습니다.

자체 호스팅 옵션

이제 벤치마크에는 Llama.cpp의 WASM 버전을 사용하여 자신의 서버에서 직접 실행할 수 있는 기능이 포함되어 있습니다. 개발자는 버전 2에서 변경할 사항에 대한 피드백을 구하고 있으며, 다른 구성으로 다른 사람들이 얻는 점수를 확인하고 싶어합니다.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

macOS의 sandbox-exec를 활용한 안전한 애플리케이션 실행 탐구

macOS의 sandbox-exec를 활용한 안전한 애플리케이션 실행 탐구

sandbox-exec는 macOS에 내장된 명령줄 유틸리티로, 애플리케이션을 제한된 환경에서 실행할 수 있게 합니다. 사용자 정의 샌드박스 프로필을 활용하는 방법을 알아보세요.

Feb 21, 2026, 05:45 PM UTC

Pretticlaw: 더 빠른 설정이 가능한 OpenClaw의 가벼운 대안

Pretticlaw: 더 빠른 설정이 가능한 OpenClaw의 가벼운 대안

Pretticlaw는 OpenClaw의 경량 대안으로, 설정에 2개의 명령어만 필요하며 30MB의 용량을 차지하고, 2-3초 내에 응답하며 포트 6767에 내장된 대시보드를 제공합니다.

Apr 17, 2026, 03:45 AM UTC

Kanwas: 팀과 AI 에이전트를 위한 오픈소스 공유 컨텍스트 보드

Kanwas: 팀과 AI 에이전트를 위한 오픈소스 공유 컨텍스트 보드

Kanwas는 팀과 AI 에이전트가 문서, 증거, 결정을 캔버스에서 실시간으로 공유하고 라이브 스트리밍 도구 호출을 지원하는 오픈소스 멀티플레이어 워크스페이스입니다. Docker를 통해 자체 호스팅되며, Yjs와 BlockNote로 Git 기반 백업이 가능합니다.

Apr 30, 2026, 06:18 PM UTC

lazyclaude: Claude 코드 구성을 관리하는 TUI

lazyclaude: Claude 코드 구성을 관리하는 TUI

lazyclaude는 lazygit에서 영감을 받은 터미널 사용자 인터페이스 도구로, 디스크에 저장된 모든 Claude Code 설정(메모리 파일, 스킬, 에이전트, MCP 서버, 설정, 권한, 훅, 키 바인딩, 세션, 통계, 플러그인, 할 일 목록 포함)을 관리하기 위한 단일 뷰를 제공합니다.

Apr 13, 2026, 03:45 PM UTC