Guía: Ejecutar GitHub Copilot con un LLM Local en Windows a través del Servidor Lemonade

Un desarrollador ha publicado una guía paso a paso para configurar GitHub Copilot para usar un modelo de lenguaje grande (LLM) local en una máquina con Windows, específicamente un Framework Desktop. La guía fue creada porque el autor no pudo encontrar instrucciones simples existentes para esta configuración.
El método central implica usar Lemonade Server, una herramienta que actúa como un servidor proxy local. Intercepta las solicitudes de la extensión GitHub Copilot en tu editor de código (como VS Code) y las redirige a un LLM ejecutándose localmente en lugar de enviarlas a los servidores en la nube de GitHub. Esto permite completar código de forma privada y sin conexión sin depender de APIs externas.
Esta configuración es relevante para desarrolladores que quieren la funcionalidad de autocompletado de GitHub Copilot pero requieren privacidad, tienen preocupaciones de seguridad de datos, quieren evitar costos de API o prefieren usar un modelo de código abierto específico que han ajustado ellos mismos. El LLM local necesitaría estar instalado y ejecutándose por separado, por ejemplo usando herramientas como Ollama, LM Studio o text-generation-webui.
La publicación original de Reddit enlaza a la guía completa y detallada en el sitio web personal del autor.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Ejecutando OpenClaw Localmente con Ollama para Evitar Costos de API
Un usuario de Reddit comparte su experiencia al cambiar de OpenClaw basado en API a ejecutarlo localmente con Ollama, eliminando los costos de API mientras mantiene sus flujos de trabajo. Creó una guía de instalación paso a paso en video.

Configuración Rentable de Multi-Agente OpenClaw Utilizando Modelos de Suscripción
Un usuario de Reddit describe cómo enrutar todas las operaciones de múltiples agentes de OpenClaw a través de suscripciones existentes de $200 a Anthropic Pro Max y $200 a ChatGPT OpenAI Codex, en lugar de usar llamadas directas a la API, utilizando modelos más económicos de Anthropic para agentes simples y modelos más complejos para otros.

Ejecutando Qwen3.6 27B y 35B en 6GB VRAM con ik_llama: Configuraciones prácticas y puntos de referencia
Un usuario comparte configuraciones detalladas de ik_llama y números de rendimiento para ejecutar los modelos Qwen3.6 27B y 35B A3B en una RTX2060 mobile (6 GB VRAM, 32 GB RAM), con velocidades de prefill de 40-100 t/s y generación de hasta 11 t/s.

Líneas de Base de Enrutamiento de Modelos para el Uso de Claude y OpenAI
Un desarrollador comparte su estrategia de enrutamiento de modelos utilizando Claude Haiku 4.5, Sonnet 4.6, Opus 4.6 y ChatGPT 5.3 Codex para diferentes tipos de tareas, con respaldos a GPT-5 Mini y GPT-5.4 cuando sea necesario.