Qwen2-0.5B Ajustado: Automatiza Tareas Locales con llama.cpp

Un desarrollador ha ajustado Qwen2-0.5B para automatización de tareas, creando un modelo que se ejecuta completamente localmente en CPU sin requerir GPU ni APIs en la nube. El proyecto, llamado ACE, está disponible en GitHub.

Lo que hace

Toma tareas en lenguaje natural (ej: "copiar registros a respaldo")
Detecta tipo de tarea: atómica, repetitiva o de clarificación
Genera planes de ejecución que consisten en comandos CLI y atajos de teclado
Se ejecuta completamente localmente en CPU (sin GPU, sin APIs en la nube)

Detalles técnicos

Modelo base: Qwen2-0.5B
Entrenamiento: Ajuste fino LoRA en aproximadamente 1000 ejemplos de tareas personalizadas
Cuantización: Formato GGUF Q4_K_M (tamaño de archivo 300MB)
Inferencia: llama.cpp
Tiempo de inferencia: 3-10 segundos en procesadores i3/i5

Principales desafíos durante el entrenamiento

Calidad de datos: Tuvo que regenerar el conjunto de datos 2-3 veces debido a ejemplos basura
Sobreajuste: Tomó múltiples iteraciones para estabilizar la pérdida de validación
Manejo de token EOS: El modelo no dejaba de generar hasta que se corrigió la configuración del tokenizador
Conversión GGUF: Requirió dtype BF16 + cuantización imatrix para obtener salidas estables

Limitaciones (v0.1)

Requiere rutas completas de archivos (aún no tiene búsqueda inteligente de archivos)
Solo inferencia en CPU (más lento en hardware antiguo)
Ejecución básica (sin comprensión visual)

Puntos de referencia de rendimiento

i5 (2018+) con SSD: 3-5 segundos
i3 (2015+) con SSD: 5-10 segundos
Hardware antiguo (Pentium + HDD): 30-90 segundos

El desarrollador está buscando retroalimentación sobre el rendimiento en diferentes hardware, casos extremos que rompan el modelo y solicitudes de características para v0.2.

📖 Leer la fuente completa: r/LocalLLaMA