지역 LLM 벤치마크: 함수 호출에 의한 백엔드 생성 – GLM, Qwen, DeepSeek 비교

✍️ OpenClawRadar📅 게시일: May 3, 2026🔗 Source
지역 LLM 벤치마크: 함수 호출에 의한 백엔드 생성 – GLM, Qwen, DeepSeek 비교
Ad

최초의 통제되지 않은 측정 이후 5개월 만에 AutoBe.dev가 함수 호출을 사용한 백엔드 코드 생성을 위한 로컬 및 프론티어 LLM의 적절한 벤치마크를 발표했습니다. 이 벤치마크는 실제 채점 기준표를 사용하여 통제 변수 설정을 적용하며, 함수 호출 도구를 통해 재귀적 유니온 AST 스키마를 생성하는 모델을 테스트합니다.

주요 발견

  • 함수 호출 도구는 백엔드 생성에서 프론티어 모델과 로컬 모델 간의 격차를 효과적으로 좁혔습니다. 특히 gpt-5.4의 DB/API 설계 점수는 qwen3.5-35b-a3b와 거의 동등하며, claude-sonnet-4.6의 논리 점수는 qwen3.5-27b와 일치합니다.
  • 이번이 프론티어 모델을 포함한 마지막 라운드입니다. 매월 실행하는 데 약 200–300M 토큰(모델당 GPT 5.5 가격 기준 약 $1,000–$1,500)이 소요됩니다. 다음 달부터는 OpenRouter에서 $0.25/M 토큰 미만인 엔드포인트 또는 64GB 통합 메모리 노트북에 맞는 모델만 포함됩니다.
  • 프론트엔드 자동화는 6월/7월 라운드에 벤치마크에 추가될 예정이며, AutoBe가 이미 생성하는 SDK를 사용하여 엔드투엔드 AI 구축 프론트엔드(시각적으로는 거칠지만 모든 기능이 작동)를 구동합니다.

예상치 못한 역전

여러 결과가 아직 조사 중입니다:

  • openai/gpt-5.4가 자사의 mini 모델보다 낮은 점수를 기록했습니다.
  • deepseek-v4-proqwen3.5-35b-a3b보다 한 단계 낮으며 자사의 Flash 모델과 거의 차이가 없습니다.
  • Qwen 제품군 내에서 조밀한 27B가 모든 MoE 변종(397B-A17B 포함)을 능가했습니다.

조사 중인 가능한 설명으로는 CoT-준수 현상(대형/프론티어 모델이 도구에서 강제하는 절차적 지침을 건너뛰는 경향)과 벤치마크 결함(참조 프로젝트 4개, 점수 범위 좁음, 도구가 자체 파이프라인을 채점)이 있습니다.

Ad

권장 모델

다음 달을 위한 세 가지 확정 후보:

  • openai/gpt-5.4-nano — $0.25/M 토큰
  • qwen/qwen3.6-27b — $0.195/M 토큰
  • deepseek/deepseek-v4-flash — $0.14/M 토큰

모두 OpenRouter에서 $0.25/M 미만이거나 64GB 통합 메모리 노트북에서 실행 가능하며, 함수 호출을 깔끔하게 처리합니다.

참고 자료

📖 전체 출처 읽기: r/LocalLLaMA

Ad

👀 See Also

에이전트 AI 실패 모드 및 발전적 스캐폴딩
News

에이전트 AI 실패 모드 및 발전적 스캐폴딩

에이전트 AI 시스템은 정렬 드리프트, 인수인계 간 맥락 상실, 경계 위반, 조정 붕괴를 통해 생산 환경에서 실패합니다. 출처는 일관성 모니터링, 조정 복구, 동의 및 경계 인식, 관계적 연속성, 적응형 거버넌스라는 다섯 가지 구성 요소를 갖춘 '발달적 비계' 접근법을 제안합니다.

OpenClawRadar
Anthropic, 피치북, KYC, 월말 결산을 위한 10가지 금융 AI 에이전트 출시
News

Anthropic, 피치북, KYC, 월말 결산을 위한 10가지 금융 AI 에이전트 출시

Anthropic이 금융 서비스 및 보험을 위한 10개의 즉시 사용 가능한 AI 에이전트를 출시했습니다. 이 에이전트는 피치북 작성, KYC 심사, 월말 결산을 다루며 Claude Cowork, Claude Code, Managed Agents를 통해 제공됩니다.

OpenClawRadar
🚀 OpenClaw 2026.2.6 출시 – 새로운 모델, 강화된 보안 및 주요 업데이트!
News

🚀 OpenClaw 2026.2.6 출시 – 새로운 모델, 강화된 보안 및 주요 업데이트!

OpenClaw 2026.2.6이 새로운 AI 모델과 강화된 보안 조치를 포함한 획기적인 기능들을 출시했습니다. 자동화의 미래를 형성하는 주요 업데이트를 살펴보세요.

OpenClawRadar
개발자, 800만 달러 규모 AI 음악 스트리밍 사기 혐의로 유죄 인정
News

개발자, 800만 달러 규모 AI 음악 스트리밍 사기 혐의로 유죄 인정

54세의 마이클 스미스는 2017년부터 2024년까지 Spotify, Apple Music, YouTube Music을 포함한 스트리밍 플랫폼에서 수천 개의 봇 계정과 AI 생성 노래를 사용하여 800만 달러의 로열티를 가로챈 사실을 시인했습니다.

OpenClawRadar