A Cerebras lança os modelos Step-3.5-Flash-REAP com redução de 40% no uso de memória.

O que é isso
A Cerebras lançou os modelos Step-3.5-Flash-REAP, que são variantes compactadas com eficiência de memória de seus modelos maiores. Estas são versões menores projetadas para o que a fonte chama de "configurações básicas", embora o modelo de 121B parâmetros ainda exija recursos significativos.
Detalhes principais da fonte
Os modelos estão disponíveis no Hugging Face:
O modelo Step-3.5-Flash-REAP-121B-A11B é compactado de 196B para 121B parâmetros, representando uma redução de 40% na memória enquanto mantém desempenho quase idêntico ao modelo completo.
A compressão utiliza REAP (Router-weighted Expert Activation Pruning), descrito como "um novo método de poda de especialistas que remove seletivamente especialistas redundantes enquanto preserva o controle independente do roteador sobre os especialistas restantes".
Recursos e capacidades
- Desempenho quase sem perdas: Mantém precisão quase idêntica em geração de código, codificação agentiva e tarefas de chamada de funções comparado ao modelo completo de 196B
- Redução de 40% na memória: Compactado de 196B para 121B parâmetros, reduzindo custos de implantação e requisitos de memória
- Capacidades preservadas: Mantém todas as funcionalidades principais incluindo geração de código, matemática & raciocínio, e chamada de ferramentas
- Compatibilidade direta: Funciona com vLLM padrão - nenhuma modificação na fonte ou patches personalizados necessários
- Otimizado para uso real: Particularmente eficaz para ambientes com recursos limitados, implantações locais e pesquisa acadêmica
A fonte observa que, embora sejam "versões menores", o modelo de 121B ainda requer uma configuração bastante poderosa apesar da compressão.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Título: Claude Code v2.1.129: Orientação para Persistência de Loop Autônomo e Classificador de Estado de Agente em Segundo Plano
Claude Code v2.1.129 adiciona prompt de sistema CLAUDE_CODE_LOOP_PERSISTENT para loops de trabalho autônomos, remove subagente especialista em verificação, e expande classificador de estado do agente de fundo com limites detalhados.

Pesquisadores de Cambridge desenvolvem memristor de óxido de háfnio para chips de IA de baixo consumo energético
Pesquisadores da Universidade de Cambridge criaram um memristor baseado em óxido de háfnio que comuta correntes um milhão de vezes menores do que dispositivos convencionais de óxido, potencialmente reduzindo o consumo de energia de hardware de IA em até 70%.

Claude-Code v2.1.33: Aprimorando a Automação com Precisão
O lançamento mais recente do Claude-Code v2.1.33 apresenta recursos-chave que revolucionam ainda mais os agentes de IA para codificação, aumentando tanto a eficiência quanto a precisão.

Agentes de IA Preferem Consultas Estruturadas em Vez de Linguagem Natural em Teste do Servidor Cala MCP
A equipe da Cala construiu um servidor MCP com três métodos de acesso ao grafo de conhecimento: consultas em linguagem natural, linguagem de consulta estruturada e navegação direta por entidades/relacionamentos. Os agentes abandonaram a linguagem natural em minutos, optando por consultas estruturadas e navegação no grafo sem necessidade de estímulo.