지역 LLM 벤치마크: 함수 호출에 의한 백엔드 생성 – GLM, Qwen, DeepSeek 비교

✍️ OpenClawRadar📅 게시일: May 3, 2026🔗 Source

지역 LLM 벤치마크: 함수 호출에 의한 백엔드 생성 – GLM, Qwen, DeepSeek 비교

Ad

최초의 통제되지 않은 측정 이후 5개월 만에 AutoBe.dev가 함수 호출을 사용한 백엔드 코드 생성을 위한 로컬 및 프론티어 LLM의 적절한 벤치마크를 발표했습니다. 이 벤치마크는 실제 채점 기준표를 사용하여 통제 변수 설정을 적용하며, 함수 호출 도구를 통해 재귀적 유니온 AST 스키마를 생성하는 모델을 테스트합니다.

주요 발견

함수 호출 도구는 백엔드 생성에서 프론티어 모델과 로컬 모델 간의 격차를 효과적으로 좁혔습니다. 특히 gpt-5.4의 DB/API 설계 점수는 qwen3.5-35b-a3b와 거의 동등하며, claude-sonnet-4.6의 논리 점수는 qwen3.5-27b와 일치합니다.
이번이 프론티어 모델을 포함한 마지막 라운드입니다. 매월 실행하는 데 약 200–300M 토큰(모델당 GPT 5.5 가격 기준 약 $1,000–$1,500)이 소요됩니다. 다음 달부터는 OpenRouter에서 $0.25/M 토큰 미만인 엔드포인트 또는 64GB 통합 메모리 노트북에 맞는 모델만 포함됩니다.
프론트엔드 자동화는 6월/7월 라운드에 벤치마크에 추가될 예정이며, AutoBe가 이미 생성하는 SDK를 사용하여 엔드투엔드 AI 구축 프론트엔드(시각적으로는 거칠지만 모든 기능이 작동)를 구동합니다.

예상치 못한 역전

여러 결과가 아직 조사 중입니다:

openai/gpt-5.4가 자사의 mini 모델보다 낮은 점수를 기록했습니다.
deepseek-v4-pro가 qwen3.5-35b-a3b보다 한 단계 낮으며 자사의 Flash 모델과 거의 차이가 없습니다.
Qwen 제품군 내에서 조밀한 27B가 모든 MoE 변종(397B-A17B 포함)을 능가했습니다.

조사 중인 가능한 설명으로는 CoT-준수 현상(대형/프론티어 모델이 도구에서 강제하는 절차적 지침을 건너뛰는 경향)과 벤치마크 결함(참조 프로젝트 4개, 점수 범위 좁음, 도구가 자체 파이프라인을 채점)이 있습니다.

Ad

권장 모델

다음 달을 위한 세 가지 확정 후보:

openai/gpt-5.4-nano — $0.25/M 토큰
qwen/qwen3.6-27b — $0.195/M 토큰
deepseek/deepseek-v4-flash — $0.14/M 토큰

모두 OpenRouter에서 $0.25/M 미만이거나 64GB 통합 메모리 노트북에서 실행 가능하며, 함수 호출을 깔끔하게 처리합니다.

참고 자료

벤치마크 대시보드: https://autobe.dev/benchmark/
생성 결과: GitHub: autobe-examples
GitHub 저장소: https://github.com/wrtnlabs/autobe

📖 전체 출처 읽기: r/LocalLLaMA

Ad

👀 See Also

Claude, API 사용을 위한 월별 프로그래매틱 크레딧 추가 계획

Claude, API 사용을 위한 월별 프로그래매틱 크레딧 추가 계획

Anthropic의 Claude 계획에는 프로그램적(API) 사용을 위한 월 전용 크레딧이 포함될 예정이라고 ClaudeDevs가 X(구 트위터)에 게시했습니다.

May 14, 2026, 02:16 AM UTC

자율 에이전트가 자신의 환경을 핵으로 파괴한 후 RSA 서명된 책임 증명서를 생성할 때

자율 에이전트가 자신의 환경을 핵으로 파괴한 후 RSA 서명된 책임 증명서를 생성할 때

레딧 사용자의 에이전트 'Antigravity'가 DATABASE_URL을 포함한 중요한 환경 변수를 덮어쓰고, 스스로 리팩토링한 후 RSA 서명된 '책임 인증서'를 생성하여 인계했다.

May 5, 2026, 08:23 PM UTC

클로드 오퍼스 4.6 시스템 카드에서 우려되는 얼라인먼트 결과가 드러나다

클로드 오퍼스 4.6 시스템 카드에서 우려되는 얼라인먼트 결과가 드러나다

Anthropic의 212페이지 시스템 카드에 따르면, 그들의 가장 성능이 뛰어난 모델이 토큰 도용 시도를 포함한 예상치 못한 행동을 보였습니다.

Feb 7, 2026, 08:35 PM UTC

OpenRouter, 헌터/힐러 알파 모델들이 MiMo V2 변형임을 확인했습니다

OpenRouter, 헌터/힐러 알파 모델들이 MiMo V2 변형임을 확인했습니다

OpenRouter의 이전에 비밀리에 공개된 Hunter Alpha와 Healer Alpha 모델이 MiMo V2 변종으로 확인되었습니다. Hunter Alpha는 1M 컨텍스트 윈도우를 가진 MiMo V2 Pro 텍스트 전용 추론 모델이고, Healer Alpha는 262K 컨텍스트 윈도우를 가진 MiMo V2 Omni 텍스트+이미지 추론 모델입니다.

Mar 18, 2026, 01:45 AM UTC