Explorando el Paso 3.5 Flash: Modelo de Código Abierto para Razonamiento Profundo Rápido

El Paso 3.5 Flash es un modelo de base de código abierto enfocado en ofrecer capacidades de razonamiento profundo rápidas y confiables. Utiliza una arquitectura de Mezcla de Expertos (MoE) dispersa, activando solo 11 mil millones de sus 196 mil millones de parámetros por token. Esta activación selectiva le otorga una alta "densidad de inteligencia", permitiéndole competir con los principales modelos propietarios mientras permanece ágil para interacciones en tiempo real.
Razonamiento Profundo y Velocidad
El modelo incorpora Predicción Multi-Token de 3 vías (MTP-3), lo que le permite procesar de 100 a 300 tokens por segundo, alcanzando un máximo de 350 en tareas de codificación de flujo único—ideal para razonamientos complejos y de varios pasos con una rápida capacidad de respuesta.
Rendimiento en Tareas de Codificación y Agentes
El Paso 3.5 Flash se destaca en tareas agénticas, respaldado por un marco de aprendizaje por refuerzo escalable que asegura una mejora continua. Alcanzó una puntuación del 74.4% en el benchmark verificado SWE-bench y del 51.0% en el Terminal-Bench 2.0, reflejando su capacidad para manejar tareas sofisticadas a largo plazo.
Procesamiento Eficiente de Contextos Largos
Soporta una amplia ventana de contexto de 256K utilizando una proporción de Atención de Ventana Deslizante (SWA) de 3:1, integrando tres capas de SWA para cada capa de atención completa. Este método reduce significativamente la sobrecarga computacional en comparación con los modelos tradicionales de contexto largo.
Despliegue Local y Accesibilidad
Diseñado para un fácil despliegue local, el Paso 3.5 Flash puede ejecutarse de forma segura en hardware de consumo de alta gama, como Mac Studio M4 Max y NVIDIA DGX Spark, asegurando la privacidad de los datos sin comprometer el rendimiento.
📖 Lee la fuente completa: HN AI Agents
👀 Ver también

Reescritura del código base de 18 meses de Autonoma: lecciones sobre pruebas, deuda técnica y Acciones de Servidor
Autonoma desechó 1.5 años de código después de escalar de 2 a 14 ingenieros, citando la falta de pruebas, TypeScript no estricto y las limitaciones de Server Actions como las razones clave para la reescritura.

OpenAI lanza GPT-5.3-Codex-Spark en vista previa de investigación.
OpenAI ha introducido GPT-5.3-Codex-Spark en una vista previa de investigación, prometiendo capacidades de desarrollo más rápidas.

Estado Actual de los LLM Chinos: Líderes del Mercado, Modelos Abiertos y Modelos de Negocio
Un análisis de Reddit detalla el panorama de los LLM chinos, identificando a Doubao de ByteDance como el líder del mercado propietario y a DeepSeek como el más innovador, mientras describe los modelos de negocio de los principales actores y los 'Seis Tigres Pequeños de IA' centrados en modelos de pesos abiertos.

Patrones de gasto del agente OpenClaw y falta de límites de gasto
Un desarrollador rastreó el gasto de agentes OpenClaw durante más de dos meses y descubrió que la mayoría de los agentes promedian entre $40 y $80 al mes en cargos por API y servicios cuando no se supervisan, con picos que ocurren los fines de semana y durante la noche. El comportamiento predeterminado es ilimitado, sin un límite de gasto incorporado.