Paso 3.5 Flash: Modelo Open Source para Razonamiento Rápido

El Paso 3.5 Flash es un modelo de base de código abierto enfocado en ofrecer capacidades de razonamiento profundo rápidas y confiables. Utiliza una arquitectura de Mezcla de Expertos (MoE) dispersa, activando solo 11 mil millones de sus 196 mil millones de parámetros por token. Esta activación selectiva le otorga una alta "densidad de inteligencia", permitiéndole competir con los principales modelos propietarios mientras permanece ágil para interacciones en tiempo real.

Razonamiento Profundo y Velocidad

El modelo incorpora Predicción Multi-Token de 3 vías (MTP-3), lo que le permite procesar de 100 a 300 tokens por segundo, alcanzando un máximo de 350 en tareas de codificación de flujo único—ideal para razonamientos complejos y de varios pasos con una rápida capacidad de respuesta.

Rendimiento en Tareas de Codificación y Agentes

El Paso 3.5 Flash se destaca en tareas agénticas, respaldado por un marco de aprendizaje por refuerzo escalable que asegura una mejora continua. Alcanzó una puntuación del 74.4% en el benchmark verificado SWE-bench y del 51.0% en el Terminal-Bench 2.0, reflejando su capacidad para manejar tareas sofisticadas a largo plazo.

Procesamiento Eficiente de Contextos Largos

Soporta una amplia ventana de contexto de 256K utilizando una proporción de Atención de Ventana Deslizante (SWA) de 3:1, integrando tres capas de SWA para cada capa de atención completa. Este método reduce significativamente la sobrecarga computacional en comparación con los modelos tradicionales de contexto largo.

Despliegue Local y Accesibilidad

Diseñado para un fácil despliegue local, el Paso 3.5 Flash puede ejecutarse de forma segura en hardware de consumo de alta gama, como Mac Studio M4 Max y NVIDIA DGX Spark, asegurando la privacidad de los datos sin comprometer el rendimiento.

📖 Lee la fuente completa: HN AI Agents

Explorando el Paso 3.5 Flash: Modelo de Código Abierto para Razonamiento Profundo Rápido

👀 Ver también

El ajuste fino de Phi-4-mini entrenando solo los parámetros de LayerNorm no logra mejorar el rendimiento.

La discusión en Reddit sostiene que la competencia de la IA es cerrada versus código abierto, no Estados Unidos versus China.

Agente Hermes + Qwen3.6 27b Local maneja tareas de administrador de TI junior

Qwen 3.6 27B Evaluado en DeepSWE: 2% de Puntuación, 70 Horas, 44k de Tokens Promedio de Salida