로컬 vs 클라우드 LLM 벤치마킹 방법론: ZenMux와 순차적 요청

r/LocalLLaMA의 한 개발자가 로컬 LLM과 클라우드 API를 비교할 때 일관된 벤치마크 수치를 얻는 방법론을 자세히 설명하며, 서로 다른 지연 시간, 점수 매기기 및 방법론으로 인한 동일하지 않은 비교에 대한 일반적인 불만을 해결했습니다.

벤치마킹의 핵심 문제

로컬 및 클라우드 모델 모두에 요청을 보내는 단순한 비교는 다른 측면을 측정합니다. 클라우드 API에는 대기열, 로드 밸런싱 및 라우팅이 포함됩니다. 로컬 모델에는 워밍업, 배치 처리 및 GPU 경합이 포함됩니다. 구현된 해결책은 순차적 요청만 사용하는 것입니다. 더 느리지만—60회 호출 벤치마크가 45초 대신 약 3분 소요됨—각 측정이 깨끗하게 보장되어 추론 시간을 대기 시간과 분리합니다.

측정 설정

이 설정은 ZenMux를 통합 엔드포인트로 사용하여 GPT-5.4, Claude Sonnet 4.6, Gemini 3.1 Pro 및 로컬 Llama 4 양자화 모델 등 네 가지 모델에 대해 하나의 기본 URL을 제공합니다. 이 접근 방식은 다음과 같은 모든 OpenAI 호환 엔드포인트와 함께 작동합니다:

llama.cpp 서버: curl http://localhost:8080/v1/chat/completions ...
vLLM: curl http://localhost:8000/v1/chat/completions ...
Ollama: curl http://localhost:11434/v1/chat/completions ...

핵심은 모든 것에 대해 동일한 클라이언트 코드, 타임아웃 설정 및 재시도 로직을 사용하는 것입니다.

측정 작동 방식

시스템은 다섯 가지 모듈로 구성됩니다: YAML 구성 → BenchRunner → AIClient → Analyzer → Reporter.

YAML 구성은 작업과 모델을 정의합니다. 예시:

suite: coding-benchmark
models:
  - gpt-5.4
  - claude-sonnet-4.6
  - gemini-3.1-pro
  - llama-4
runs_per_model: 3
tasks:
  - name: fizzbuzz
    prompt: "1부터 100까지의 숫자에 대해 FizzBuzz를 출력하는 Python 함수를 작성하세요"
  - name: refactor-suggestion
    prompt: "이 코드가 주어졌을 때, 개선 사항을 제안하세요:\n\ndef calc(x):\n if x == 0: return 0\n if x == 1: return 1\n return calc(x-1) + calc(x-2)"

BenchRunner는 작업 × 모델 × 실행 횟수의 데카르트 곱을 취하고 API를 순차적으로 호출하여 지연 시간, 프롬프트 토큰 및 완료 토큰을 기록합니다.