Explorando o Flash da Etapa 3.5: Modelo de Código Aberto para Raciocínio Profundo Rápido

O Step 3.5 Flash é um modelo de base de código aberto focado em fornecer capacidades de raciocínio profundo rápidas e confiáveis. Ele utiliza uma arquitetura esparsa de Mistura de Especialistas (MoE), ativando apenas 11 bilhões de seus 196 bilhões de parâmetros por token. Essa ativação seletiva lhe confere alta "densidade de inteligência", permitindo que ele compita com os melhores modelos proprietários enquanto permanece ágil para interações em tempo real.
Raciocínio Profundo e Velocidade
O modelo incorpora a Previsão de Múltiplos Tokens de 3 vias (MTP-3), permitindo que ele processe de 100 a 300 tokens por segundo, atingindo picos de 350 para tarefas de codificação de fluxo único — ideal para raciocínio complexo e de múltiplas etapas com resposta rápida.
Desempenho em Tarefas de Codificação e de Agente
O Step 3.5 Flash se destaca em tarefas de agente, apoiado por uma estrutura de aprendizado por reforço escalável que garante uma melhoria contínua. Ele alcançou uma pontuação de 74,4% no benchmark SWE-bench Verified e 51,0% no Terminal-Bench 2.0, refletindo sua capacidade de lidar com tarefas sofisticadas e de longo prazo.
Processamento Eficiente de Contexto Longo
Ele suporta uma grande janela de contexto de 256K usando uma proporção de Atenção por Janela Deslizante (SWA) de 3:1, integrando três camadas SWA para cada camada de atenção completa. Esse método reduz significativamente a sobrecarga computacional em comparação com os modelos tradicionais de contexto longo.
Implantação Local e Acessibilidade
Projetado para fácil implantação local, o Step 3.5 Flash pode ser executado com segurança em hardware de consumo de alta gama, como o Mac Studio M4 Max e o NVIDIA DGX Spark, garantindo a privacidade dos dados sem comprometer o desempenho.
📖 Leia a fonte completa: HN AI Agents
👀 See Also

Anthropic descontinua o Pensamento Estendido Fixo e impõe Pensamento Adaptativo nos modelos Claude
A Anthropic está descontinuando o pensamento estendido manual (orçamento fixo) no Opus 4.6 e Sonnet 4.6, e removendo-o completamente no Opus 4.7 (retorna erro 400). O pensamento adaptativo será aplicado por padrão, gerando reação negativa da comunidade por suposta redução de custos.

Gemini 3 Flash: Aumento de Desempenho com Prompting Competitivo
Pesquisadores alcançaram 95% do desempenho de referência do Claude 4.6 Opus com o Gemini 3 Flash a 1/200 do custo e 4 vezes a velocidade, usando técnicas de prompt competitivas que aproveitaram a inveja humana como motivação.

AI Está Me Tornando Burro: A Confissão de um Desenvolvedor sobre Atrofia de Habilidades
James Pain confessa que depois de um ano ou dois usando IA exclusivamente para programação (sem código escrito à mão), ele esqueceu quase completamente como programar. Agora está se ensinando a programar manualmente novamente e alerta que o uso intenso de IA pode corroer as habilidades de escrita e programação.

A Synthetic anuncia grande reestruturação de preços com mudanças significativas nos limites de taxa
A Synthetic está substituindo seus níveis Standard e Pro por pacotes de assinatura a US$ 30/mês, oferecendo 135 mensagens por 5 horas por pacote. Os usuários Pro existentes verão suas 1.250 mensagens por 5 horas reduzidas para 335 mensagens pelo mesmo preço de US$ 60/mês.