Flash da Etapa 3.5: Modelo Open Source para Raciocínio Rápido

O Step 3.5 Flash é um modelo de base de código aberto focado em fornecer capacidades de raciocínio profundo rápidas e confiáveis. Ele utiliza uma arquitetura esparsa de Mistura de Especialistas (MoE), ativando apenas 11 bilhões de seus 196 bilhões de parâmetros por token. Essa ativação seletiva lhe confere alta "densidade de inteligência", permitindo que ele compita com os melhores modelos proprietários enquanto permanece ágil para interações em tempo real.

Raciocínio Profundo e Velocidade

O modelo incorpora a Previsão de Múltiplos Tokens de 3 vias (MTP-3), permitindo que ele processe de 100 a 300 tokens por segundo, atingindo picos de 350 para tarefas de codificação de fluxo único — ideal para raciocínio complexo e de múltiplas etapas com resposta rápida.

Desempenho em Tarefas de Codificação e de Agente

O Step 3.5 Flash se destaca em tarefas de agente, apoiado por uma estrutura de aprendizado por reforço escalável que garante uma melhoria contínua. Ele alcançou uma pontuação de 74,4% no benchmark SWE-bench Verified e 51,0% no Terminal-Bench 2.0, refletindo sua capacidade de lidar com tarefas sofisticadas e de longo prazo.

Processamento Eficiente de Contexto Longo

Ele suporta uma grande janela de contexto de 256K usando uma proporção de Atenção por Janela Deslizante (SWA) de 3:1, integrando três camadas SWA para cada camada de atenção completa. Esse método reduz significativamente a sobrecarga computacional em comparação com os modelos tradicionais de contexto longo.

Implantação Local e Acessibilidade

Projetado para fácil implantação local, o Step 3.5 Flash pode ser executado com segurança em hardware de consumo de alta gama, como o Mac Studio M4 Max e o NVIDIA DGX Spark, garantindo a privacidade dos dados sem comprometer o desempenho.

📖 Leia a fonte completa: HN AI Agents

Explorando o Flash da Etapa 3.5: Modelo de Código Aberto para Raciocínio Profundo Rápido

👀 See Also

O desenvolvedor do Claude Code reconhece falha no pensamento adaptativo e fornece solução alternativa

Precisão da Estrutura de Raciocínio STAR Cai de 100% para 0% em Prompts de Produção

Xiaomi Lança Código Aberto do MiMo-V2.5-Pro: Próximo ao Claude Opus 4.6 em Benchmarks de Codificação

Coinbase x402 vs Google A2A: Duas Ordens de Pagamento Opostas para Pagamentos entre Agentes