Ajuste Local Llama 3.2-1B Supera a Wiz en Detección de Secretos

Un desarrollador ha documentado su exitoso ajuste fino local de Llama 3.2-1B para la detección de secretos en código, superando las métricas de un modelo similar de Wiz. El proyecto se realizó completamente con herramientas de IA locales, evitando APIs propietarias.

Resultados clave y enfoque

El desarrollador buscaba replicar o superar los resultados de Wiz de 86% de precisión y 82% de recuperación. Después de algunos fines de semana de trabajo, logró simultáneamente 88% de precisión y 84.4% de recuperación con un modelo Llama 3.2-1B ajustado. También evaluó los modelos Qwen 3.5-2B y 4B, que superaron al modelo de 1B a costa de un mayor uso de VRAM y tiempos de inferencia más largos.

Conjunto de datos y proceso de entrenamiento

El trabajo se basó únicamente en datos disponibles públicamente, que eran insuficientes, por lo que se utilizó generación procedural para aumentar y mejorar el conjunto de datos. Todo el etiquetado se realizó localmente utilizando el modelo Qwen3-Coder-Next. Un objetivo clave del entrenamiento era que los modelos generaran JSON estructurado. Inicialmente, los modelos sin entrenar (Llama y Qwen) obtuvieron un 0% en cumplimiento del esquema, pero después del entrenamiento, esto mejoró al 98-100%.

Desafíos y aprendizajes

El desarrollador encontró varios problemas durante el proceso:

Incluyó una clase de alta entropía que fue perjudicial para el entrenamiento; esta fue identificada y eliminada.
Descubrió que 4,500 de las muestras 'negativas' en el conjunto de datos realmente contenían contraseñas del mundo real, lo que significaba que el modelo estaba siendo entrenado para ignorar secretos. Corregir esto mejoró la recuperación de contraseñas.

El desarrollador ha publicado un informe técnico completo con estadísticas de entrenamiento, ejemplos y un desglose paso a paso del proceso.

📖 Read the full source: r/LocalLLaMA

El Ajuste Local de Llama 3.2-1B para la Detección de Secretos Supera al Modelo de Wiz

Resultados clave y enfoque

Conjunto de datos y proceso de entrenamiento

Desafíos y aprendizajes

👀 Ver también

El agente de IA OpenClaw ayuda al equipo a salvar el día de demostración con un prototipo rápido.

Cómo reduje los costos de OpenClaw en un 60% mediante el enrutamiento de modelos

Desarrollador construye servidor MCP con Claude Code para automatizar búsqueda de terrenos en Minnesota.

Agente de IA OpenClaw Gestiona el Flujo de Trabajo de Anuncios de LinkedIn con un CTR del 2.65%