Ejecuta Qwen3.6-35B-A3B-UD-Q5_K_XL Local: Guía con VS Code Copilot en AMD R9700

Un usuario de Reddit informa excelentes resultados ejecutando el modelo GGUF Qwen3.6-35B-A3B-UD-Q5_K_XL localmente usando llama.cpp con Vulkan en una sola GPU AMD R9700. La configuración funcionó como un reemplazo directo de GitHub Copilot en VS Code, generando un sitio web de prueba completo y un conjunto de pruebas Playwright con mínima intervención.

Comando de inicio de llama.cpp

/app/llama-server -m /models/Qwen3.6-35B-A3B-UD-Q5_K_XL/Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf \
  --ctx-size 262144 --threads 8 --threads-batch 8 \
  --gpu-layers 99 --parallel 1 --flash-attn on \
  --batch-size 2048 --ubatch-size 1024 \
  --cache-type-k q8_0 --cache-type-v q8_0 \
  --cache-ram 12000 --ctx-checkpoints 50 \
  --mmap --no-mmproj --kv-unified \
  --reasoning off --reasoning-budget 0 --jinja \
  --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0.0 \
  --repeat-penalty 1.0 --presence-penalty 0.0

Parámetros clave: ventana de contexto de 256K, 99 capas GPU para descarga completa, atención flash habilitada y configuración de muestreo tomada de la página de Hugging Face de Qwen3.6-35B-A3B en "codificación precisa".

Integración con VS Code

El usuario configuró un modelo de chat personalizado en chatLanguageModels.json apuntando al servidor local de llama.cpp:

{
  "name": "Sean Llama.cpp",
  "vendor": "customoai",
  "apiKey": "${input:chat.lm.secret.3c0c0f21}",
  "models": [
    {
      "id": "Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf",
      "name": "Qwen3.6-35B",
      "url": "https://llm.home.arpa/v1/chat/completions",
      "toolCalling": true,
      "vision": false,
      "maxInputTokens": 180000,
      "maxOutputTokens": 10000,
      "family": "Qwen3",
      "inputTokenCost": 0.0001,
      "outputTokenCost": 0.0001,
      "temperature": 0.6,
      "top_p": 0.95,
      "top_k": 20,
      "repeat_penalty": 1,
      "presence_penalty": 0,
      "frequency_penalty": 0,
      "systemMessage": "Eres un asistente de codificación preciso. Evita repetir planes. Ejecuta tareas directamente. No reafirmes intenciones múltiples veces.",
      "timeout": 600000,
      "retry": { "enabled": true, "max_attempts": 2, "interval_ms": 1500 }
    }
  ]
}

El modelo respondió correctamente a las solicitudes de llamada a herramientas, lo que le permitió actuar como un reemplazo de Copilot.

Prueba del mundo real: generación de pila completa

El usuario proporcionó un prompt detallado (originalmente de ChatGPT) pidiendo al modelo construir un "Rastreador de Servicio de Tienda de Bicicletas" — una aplicación local-first de React + TypeScript usando localStorage. Los requisitos incluían un modelo de datos, datos de semilla, filtrado, ordenamiento y validación de formularios. El modelo generó el sitio web completo funcionando perfectamente en el primer intento.

A continuación, le pidió que generara un conjunto completo de pruebas Playwright. Solo una prueba requirió una corrección manual; de lo contrario, el conjunto se ejecutó sin errores. La conclusión del usuario: "Creo que he terminado de ajustar y probar modelos (hasta el próximo gran lanzamiento) y puedo volver a programar ahora."

Para quién es

Desarrolladores que ejecutan LLMs locales para asistencia en codificación, especialmente aquellos con GPUs AMD (Vulkan) que quieren una alternativa a Copilot con calidad comparable.

📖 Lee la fuente original: r/LocalLLaMA

Ejecutando Qwen3.6-35B-A3B-UD-Q5_K_XL Localmente con VS Code Copilot en AMD R9700

Comando de inicio de llama.cpp

Integración con VS Code

Prueba del mundo real: generación de pila completa

Para quién es

👀 Ver también

Memorine: Un Sistema de Memoria Local para Agentes OpenClaw Utilizando Python y SQLite

JobPilot: Complemento de Claude Code para Solicitudes de Empleo Automatizadas

Claudius: Widget de Chat de IA Incrustable de Código Abierto para Claude

El archivo de protocolo de Claude Code reduce las preguntas repetitivas.