Cómo Comparar LLM Locales vs Nube: Guía Práctica

Un desarrollador en r/LocalLLaMA ha detallado una metodología para obtener números de referencia consistentes al comparar LLMs locales con APIs en la nube, abordando las frustraciones comunes con comparaciones de manzanas con naranjas debido a diferencias en latencias, puntuaciones y metodologías.

El Problema Central con la Evaluación Comparativa

Las comparaciones ingenuas que envían solicitudes tanto a modelos locales como a APIs en la nube miden cosas diferentes. Las APIs en la nube involucran colas, balanceo de carga y enrutamiento. Los modelos locales involucran calentamiento, procesamiento por lotes y contención de GPU. La solución implementada es usar solo solicitudes secuenciales. Aunque es más lenta—una evaluación de 60 llamadas toma ~3 minutos en lugar de 45 segundos—asegura que cada medición sea limpia, aislando el tiempo de inferencia del tiempo de cola.

La Configuración de Medición

La configuración utiliza ZenMux como un endpoint unificado, proporcionando una URL base para cuatro modelos: GPT-5.4, Claude Sonnet 4.6, Gemini 3.1 Pro y un modelo local Llama 4 cuantizado. El enfoque funciona con cualquier endpoint compatible con OpenAI, como:

servidor llama.cpp: curl http://localhost:8080/v1/chat/completions ...
vLLM: curl http://localhost:8000/v1/chat/completions ...
Ollama: curl http://localhost:11434/v1/chat/completions ...

La clave es usar el mismo código de cliente, configuraciones de tiempo de espera y lógica de reintento para todo.

Cómo Funciona la Medición

El sistema está estructurado en cinco módulos: Configuración YAML → BenchRunner → AIClient → Analizador → Reportero.

La configuración YAML define tareas y modelos. Ejemplo:

suite: coding-benchmark
models:
  - gpt-5.4
  - claude-sonnet-4.6
  - gemini-3.1-pro
  - llama-4
runs_per_model: 3
tasks:
  - name: fizzbuzz
    prompt: "Escribe una función en Python que imprima FizzBuzz para los números del 1 al 100"
  - name: refactor-suggestion
    prompt: "Dado este código, sugiere mejoras:\n\ndef calc(x):\n if x == 0: return 0\n if x == 1: return 1\n return calc(x-1) + calc(x-2)"

El BenchRunner toma el producto cartesiano de tareas × modelos × ejecuciones y llama a la API secuencialmente, registrando latencia, tokens de entrada y tokens de salida.

La Parte de Puntuación

La puntuación de calidad está basada en reglas, no en LLM-como-juez, para evitar el sesgo de autopreferencia y asegurar reproducibilidad. La función _quality_score utiliza tres señales:

Longitud de respuesta: 50–3000 caracteres puntúa 4.0, más corta puntúa 1.0, más larga puntúa 3.0.
Formato: La presencia de viñetas añade hasta 3.0 puntos.
Presencia de código: Detectar bloques de código o definiciones de función añade 2.0 puntos.

La puntuación máxima es 9.0. Esto separa de manera confiable una "respuesta estructurada buena" de "basura/vacía/alucinada" para el ranking relativo. Para la latencia, también se calcula el tiempo de respuesta del percentil 95 (P95).

📖 Leer la fuente completa: r/LocalLLaMA

Metodología para la Evaluación Comparativa Consistente de LLM Locales vs en la Nube

El Problema Central con la Evaluación Comparativa

La Configuración de Medición

Cómo Funciona la Medición

La Parte de Puntuación

👀 Ver también

Cómo un agente inactivo quemó 50 millones de tokens al día – y cómo solucionarlo

Estructura del Espacio de Trabajo de OpenClaw y Enfoque de Automejora de un Usuario de Larga Data

12 Consejos para Usuarios Expertos de OpenClaw para Flujos de Trabajo Eficientes con Agentes de IA

Construyendo un Asistente Multiagente Totalmente Local con OpenClaw y Ollama