Ejecutando Qwen3.6-35B-A3B-UD-Q5_K_XL Localmente con VS Code Copilot en AMD R9700

✍️ OpenClawRadar📅 Publicado: 7 de mayo de 2026🔗 Source
Ejecutando Qwen3.6-35B-A3B-UD-Q5_K_XL Localmente con VS Code Copilot en AMD R9700
Ad

Un usuario de Reddit informa excelentes resultados ejecutando el modelo GGUF Qwen3.6-35B-A3B-UD-Q5_K_XL localmente usando llama.cpp con Vulkan en una sola GPU AMD R9700. La configuración funcionó como un reemplazo directo de GitHub Copilot en VS Code, generando un sitio web de prueba completo y un conjunto de pruebas Playwright con mínima intervención.

Comando de inicio de llama.cpp

/app/llama-server -m /models/Qwen3.6-35B-A3B-UD-Q5_K_XL/Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf \
  --ctx-size 262144 --threads 8 --threads-batch 8 \
  --gpu-layers 99 --parallel 1 --flash-attn on \
  --batch-size 2048 --ubatch-size 1024 \
  --cache-type-k q8_0 --cache-type-v q8_0 \
  --cache-ram 12000 --ctx-checkpoints 50 \
  --mmap --no-mmproj --kv-unified \
  --reasoning off --reasoning-budget 0 --jinja \
  --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0.0 \
  --repeat-penalty 1.0 --presence-penalty 0.0

Parámetros clave: ventana de contexto de 256K, 99 capas GPU para descarga completa, atención flash habilitada y configuración de muestreo tomada de la página de Hugging Face de Qwen3.6-35B-A3B en "codificación precisa".

Integración con VS Code

El usuario configuró un modelo de chat personalizado en chatLanguageModels.json apuntando al servidor local de llama.cpp:

{
  "name": "Sean Llama.cpp",
  "vendor": "customoai",
  "apiKey": "${input:chat.lm.secret.3c0c0f21}",
  "models": [
    {
      "id": "Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf",
      "name": "Qwen3.6-35B",
      "url": "https://llm.home.arpa/v1/chat/completions",
      "toolCalling": true,
      "vision": false,
      "maxInputTokens": 180000,
      "maxOutputTokens": 10000,
      "family": "Qwen3",
      "inputTokenCost": 0.0001,
      "outputTokenCost": 0.0001,
      "temperature": 0.6,
      "top_p": 0.95,
      "top_k": 20,
      "repeat_penalty": 1,
      "presence_penalty": 0,
      "frequency_penalty": 0,
      "systemMessage": "Eres un asistente de codificación preciso. Evita repetir planes. Ejecuta tareas directamente. No reafirmes intenciones múltiples veces.",
      "timeout": 600000,
      "retry": { "enabled": true, "max_attempts": 2, "interval_ms": 1500 }
    }
  ]
}

El modelo respondió correctamente a las solicitudes de llamada a herramientas, lo que le permitió actuar como un reemplazo de Copilot.

Ad

Prueba del mundo real: generación de pila completa

El usuario proporcionó un prompt detallado (originalmente de ChatGPT) pidiendo al modelo construir un "Rastreador de Servicio de Tienda de Bicicletas" — una aplicación local-first de React + TypeScript usando localStorage. Los requisitos incluían un modelo de datos, datos de semilla, filtrado, ordenamiento y validación de formularios. El modelo generó el sitio web completo funcionando perfectamente en el primer intento.

A continuación, le pidió que generara un conjunto completo de pruebas Playwright. Solo una prueba requirió una corrección manual; de lo contrario, el conjunto se ejecutó sin errores. La conclusión del usuario: "Creo que he terminado de ajustar y probar modelos (hasta el próximo gran lanzamiento) y puedo volver a programar ahora."

Para quién es

Desarrolladores que ejecutan LLMs locales para asistencia en codificación, especialmente aquellos con GPUs AMD (Vulkan) que quieren una alternativa a Copilot con calidad comparable.

📖 Lee la fuente original: r/LocalLLaMA

Ad

👀 Ver también

Memorine: Un Sistema de Memoria Local para Agentes OpenClaw Utilizando Python y SQLite
Herramientas

Memorine: Un Sistema de Memoria Local para Agentes OpenClaw Utilizando Python y SQLite

Memorine es un sistema de memoria local para agentes OpenClaw que utiliza únicamente Python y SQLite, sin dependencias externas, llamadas a API o telemetría. Proporciona almacenamiento de hechos con búsqueda de texto completo, desvanecimiento de memoria, detección de contradicciones, encadenamiento causal de eventos y búsqueda semántica opcional mediante fastembed y sqlite-vec.

OpenClawRadar
JobPilot: Complemento de Claude Code para Solicitudes de Empleo Automatizadas
Herramientas

JobPilot: Complemento de Claude Code para Solicitudes de Empleo Automatizadas

JobPilot es un complemento de Claude Code que automatiza la búsqueda de empleo y los procesos de solicitud utilizando la automatización del navegador Playwright. Incluye comandos para buscar en bolsas de trabajo, completar automáticamente solicitudes, generar cartas de presentación y realizar un seguimiento de las estadísticas de las solicitudes.

OpenClawRadar
Claudius: Widget de Chat de IA Incrustable de Código Abierto para Claude
Herramientas

Claudius: Widget de Chat de IA Incrustable de Código Abierto para Claude

Claudius es un widget de chat de código abierto y autoalojado impulsado por Claude que se puede integrar en cualquier sitio web con una etiqueta de script. Funciona en Cloudflare Workers con un frontend en React e incluye funciones como indicaciones de sistema personalizadas, limitación de velocidad y cumplimiento de accesibilidad.

OpenClawRadar
El archivo de protocolo de Claude Code reduce las preguntas repetitivas.
Herramientas

El archivo de protocolo de Claude Code reduce las preguntas repetitivas.

Un desarrollador creó un único archivo .md para ~/.claude/rules/ que infiere el tipo de tarea y el riesgo a partir del primer mensaje, eliminando la secuencia típica de tres preguntas de Claude Code antes de comenzar a trabajar.

OpenClawRadar