Ejecutando Qwen3.6-35B-A3B-UD-Q5_K_XL Localmente con VS Code Copilot en AMD R9700

Un usuario de Reddit informa excelentes resultados ejecutando el modelo GGUF Qwen3.6-35B-A3B-UD-Q5_K_XL localmente usando llama.cpp con Vulkan en una sola GPU AMD R9700. La configuración funcionó como un reemplazo directo de GitHub Copilot en VS Code, generando un sitio web de prueba completo y un conjunto de pruebas Playwright con mínima intervención.
Comando de inicio de llama.cpp
/app/llama-server -m /models/Qwen3.6-35B-A3B-UD-Q5_K_XL/Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf \
--ctx-size 262144 --threads 8 --threads-batch 8 \
--gpu-layers 99 --parallel 1 --flash-attn on \
--batch-size 2048 --ubatch-size 1024 \
--cache-type-k q8_0 --cache-type-v q8_0 \
--cache-ram 12000 --ctx-checkpoints 50 \
--mmap --no-mmproj --kv-unified \
--reasoning off --reasoning-budget 0 --jinja \
--temp 0.6 --top-k 20 --top-p 0.95 --min-p 0.0 \
--repeat-penalty 1.0 --presence-penalty 0.0
Parámetros clave: ventana de contexto de 256K, 99 capas GPU para descarga completa, atención flash habilitada y configuración de muestreo tomada de la página de Hugging Face de Qwen3.6-35B-A3B en "codificación precisa".
Integración con VS Code
El usuario configuró un modelo de chat personalizado en chatLanguageModels.json apuntando al servidor local de llama.cpp:
{
"name": "Sean Llama.cpp",
"vendor": "customoai",
"apiKey": "${input:chat.lm.secret.3c0c0f21}",
"models": [
{
"id": "Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf",
"name": "Qwen3.6-35B",
"url": "https://llm.home.arpa/v1/chat/completions",
"toolCalling": true,
"vision": false,
"maxInputTokens": 180000,
"maxOutputTokens": 10000,
"family": "Qwen3",
"inputTokenCost": 0.0001,
"outputTokenCost": 0.0001,
"temperature": 0.6,
"top_p": 0.95,
"top_k": 20,
"repeat_penalty": 1,
"presence_penalty": 0,
"frequency_penalty": 0,
"systemMessage": "Eres un asistente de codificación preciso. Evita repetir planes. Ejecuta tareas directamente. No reafirmes intenciones múltiples veces.",
"timeout": 600000,
"retry": { "enabled": true, "max_attempts": 2, "interval_ms": 1500 }
}
]
}
El modelo respondió correctamente a las solicitudes de llamada a herramientas, lo que le permitió actuar como un reemplazo de Copilot.
Prueba del mundo real: generación de pila completa
El usuario proporcionó un prompt detallado (originalmente de ChatGPT) pidiendo al modelo construir un "Rastreador de Servicio de Tienda de Bicicletas" — una aplicación local-first de React + TypeScript usando localStorage. Los requisitos incluían un modelo de datos, datos de semilla, filtrado, ordenamiento y validación de formularios. El modelo generó el sitio web completo funcionando perfectamente en el primer intento.
A continuación, le pidió que generara un conjunto completo de pruebas Playwright. Solo una prueba requirió una corrección manual; de lo contrario, el conjunto se ejecutó sin errores. La conclusión del usuario: "Creo que he terminado de ajustar y probar modelos (hasta el próximo gran lanzamiento) y puedo volver a programar ahora."
Para quién es
Desarrolladores que ejecutan LLMs locales para asistencia en codificación, especialmente aquellos con GPUs AMD (Vulkan) que quieren una alternativa a Copilot con calidad comparable.
📖 Lee la fuente original: r/LocalLLaMA
👀 Ver también

Memorine: Un Sistema de Memoria Local para Agentes OpenClaw Utilizando Python y SQLite
Memorine es un sistema de memoria local para agentes OpenClaw que utiliza únicamente Python y SQLite, sin dependencias externas, llamadas a API o telemetría. Proporciona almacenamiento de hechos con búsqueda de texto completo, desvanecimiento de memoria, detección de contradicciones, encadenamiento causal de eventos y búsqueda semántica opcional mediante fastembed y sqlite-vec.

JobPilot: Complemento de Claude Code para Solicitudes de Empleo Automatizadas
JobPilot es un complemento de Claude Code que automatiza la búsqueda de empleo y los procesos de solicitud utilizando la automatización del navegador Playwright. Incluye comandos para buscar en bolsas de trabajo, completar automáticamente solicitudes, generar cartas de presentación y realizar un seguimiento de las estadísticas de las solicitudes.

Claudius: Widget de Chat de IA Incrustable de Código Abierto para Claude
Claudius es un widget de chat de código abierto y autoalojado impulsado por Claude que se puede integrar en cualquier sitio web con una etiqueta de script. Funciona en Cloudflare Workers con un frontend en React e incluye funciones como indicaciones de sistema personalizadas, limitación de velocidad y cumplimiento de accesibilidad.

El archivo de protocolo de Claude Code reduce las preguntas repetitivas.
Un desarrollador creó un único archivo .md para ~/.claude/rules/ que infiere el tipo de tarea y el riesgo a partir del primer mensaje, eliminando la secuencia típica de tres preguntas de Claude Code antes de comenzar a trabajar.