에이전트 기반 텍스트-투-SQL 작업에서 소형 로컬 및 오픈라우터 모델의 벤치마크 결과

✍️ OpenClawRadar📅 게시일: April 17, 2026🔗 Source
에이전트 기반 텍스트-투-SQL 작업에서 소형 로컬 및 오픈라우터 모델의 벤치마크 결과
Ad

한 개발자가 에이전트 기반 텍스트-투-SQL 작업에 대한 소형 로컬 및 OpenRouter 모델의 벤치마크 결과를 발표했습니다. 이 벤치마크는 "각 제품 하위 카테고리에 대한 주문 라인, 매출, 판매 단위, 단위당 매출(총 매출 ÷ 총 판매 단위), 하위 카테고리별 제품 평균 정가, 총 이익 및 마진 백분율 표시"와 같은 영어 쿼리를 가져와 데이터베이스 테이블에 대해 테스트되는 SQL로 변환합니다.

벤치마크 세부 사항

에이전트는 쿼리 결과를 확인하고 문제를 수정하기 위해 SQL을 수정할 수 있으며, 디버깅 라운드에 제한이 있습니다. 벤치마크는 의도적으로 25개의 질문으로 짧게 구성되어 대부분의 모델에서 5분보다 훨씬 적은 시간에 실행되므로 다양한 구성을 테스트하기에 실용적입니다. 최고의 모델과 다른 모델을 구분할 수 있을 만큼 충분히 어렵게 설계되었습니다.

주요 발견 사항

  • 확인된 최고의 오픈 모델은 kimi-k2.5, Qwen 3.5 397B-A17B 및 Qwen 3.5 27B였습니다.
  • NVIDIA Nemotron-Cascade-2-30B-A3B는 Qwen 3.5-35B-A3B보다 높은 점수를 기록하며 Codex 5.3과 동등한 성능을 보였습니다.
  • Mimo v2 Flash는 "모델의 보석"으로 묘사되었습니다.

자체 호스팅 옵션

이제 벤치마크에는 Llama.cpp의 WASM 버전을 사용하여 자신의 서버에서 직접 실행할 수 있는 기능이 포함되어 있습니다. 개발자는 버전 2에서 변경할 사항에 대한 피드백을 구하고 있으며, 다른 구성으로 다른 사람들이 얻는 점수를 확인하고 싶어합니다.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

AgentPVP: 에이전트 우선 경쟁 LLM 아레나 - ELO, 라이벌리, 프롬프트 인젝션 샌드박스
Tools

AgentPVP: 에이전트 우선 경쟁 LLM 아레나 - ELO, 라이벌리, 프롬프트 인젝션 샌드박스

AgentPVP를 통해 LLM 에이전트가 등록하고, 5개의 보드 게임을 JSON API로 플레이하고, 게임별 ELO를 유지하고, 라이벌 파일을 작성하며, 글로벌 라운지에서 서로 도발할 수 있습니다. HTML은 선택 사항이며, API가 사이트입니다.

OpenClawRadar
로컬 저장소와 그래프 기반 검색을 갖춘 지속적인 AI 에이전트 메모리를 위한 오픈소스 프레임워크
Tools

로컬 저장소와 그래프 기반 검색을 갖춘 지속적인 AI 에이전트 메모리를 위한 오픈소스 프레임워크

개발자가 로컬에서 Markdown 파일로 데이터를 저장하고, 위키 링크를 그래프 엣지로 사용하며, Git을 버전 관리에 활용하는 지속적인 AI 에이전트 메모리를 위한 오픈소스 프레임워크를 구축 중입니다. 이 시스템은 4가지 신호 검색과 ACT-R 인지과학 기반의 그래프 인식 망각 기능을 갖추고 있습니다.

OpenClawRadar
오픈클로 자원의 오픈 소스 큐레이션 컬렉션 공개
Tools

오픈클로 자원의 오픈 소스 큐레이션 컬렉션 공개

AI 개발과 협업을 강화하기 위해 커뮤니티가 선별한 새로운 오픈소스 OpenClaw 리소스 컬렉션을 발견하세요.

OpenClawRadar
WCY 형식은 LLM 토큰 오버헤드를 50-71% 감소시키고 구조적인 '모름' 표시자를 추가합니다.
Tools

WCY 형식은 LLM 토큰 오버헤드를 50-71% 감소시키고 구조적인 '모름' 표시자를 추가합니다.

WCY(Watch-Compute-Yield)는 JSON 토큰 오버헤드를 50-71% 줄이고, 추론 중 불확실성을 나타내기 위한 구조적 '?' 마커를 도입한 라인 지향 형식입니다. 이 형식은 파인튜닝이 필요 없으며, 단 세 번의 퓨샷 예시만으로 충분합니다.

OpenClawRadar