inclusionAI Lança Ling-2.6-1T: Modelo de Trilhão de Parâmetros com Arquitetura Híbrida, Atenção Esparsa e Pensamento Rápido

✍️ OpenClawRadar📅 Publicado: April 29, 2026🔗 Source
inclusionAI Lança Ling-2.6-1T: Modelo de Trilhão de Parâmetros com Arquitetura Híbrida, Atenção Esparsa e Pensamento Rápido
Ad

A inclusionAI disponibilizou como código aberto o Ling-2.6-1T, um modelo emblemático de um trilhão de parâmetros da família Ling, voltado para tarefas complexas do mundo real. O modelo introduz uma arquitetura híbrida que combina Atenção Latente Multi-cabeça (MLA) e Atenção Linear para melhorar a eficiência de inferência, reduzindo latência e uso de VRAM para contextos longos, mantendo a expressividade.

Pensamento Rápido via Estratégia de Recompensa

O pós-treinamento utiliza uma estratégia de recompensa de Supressão de Redundância de Processo Contextual, que incentiva saídas mais curtas e diretas — um mecanismo de "pensamento rápido" que reduz a dependência de cadeias de pensamento verbosas. Isso reduz o custo de tokens sem comprometer o desempenho.

Ad

SOTA em Benchmarks

O Ling-2.6-1T alcança SOTA de código aberto em benchmarks focados em execução:

  • AIME26 (raciocínio)
  • SWE-bench Verified (engenharia de software)
  • BFCL-V4 (chamada de funções)
  • TAU2-Bench (conclusão de tarefas)
  • IFBench (seguimento de instruções)

Integração com Agentes

O modelo é projetado para fluxos de trabalho de engenharia de ponta a ponta — desde geração de código até correção de bugs — e se integra com frameworks de agentes populares, incluindo Claude Code, OpenClaw, OpenCode e CodeBuddy. Ele lida com restrições multi-ferramenta e multi-etapa em ambientes empresariais.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

ONGs Ganham Acesso ao Claude Opus 4.6 nos Planos Team e Enterprise
News

ONGs Ganham Acesso ao Claude Opus 4.6 nos Planos Team e Enterprise

Organizações sem fins lucrativos que utilizam os planos Team e Enterprise agora podem acessar o Claude Opus 4.6, o mais recente modelo de IA da Anthropic, sem custo adicional.

OpenClawRadar
O benchmark mostra que o modelo menor de 4B supera LLMs maiores em aplicações de chat telefone-casa.
News

O benchmark mostra que o modelo menor de 4B supera LLMs maiores em aplicações de chat telefone-casa.

Um benchmark de 8 LLMs locais para aplicações de chat telefone-para-casa descobriu que o Gemma3:4B venceu com uma pontuação de aptidão composta de 88,7, apesar de ser o menor modelo, superando modelos maiores com até 24B de parâmetros devido a tempos de resposta mais rápidos e menor carga térmica.

OpenClawRadar
Gemma 4 Lançado: Quatro Tamanhos de Modelo para Hospedagem Local de IA
News

Gemma 4 Lançado: Quatro Tamanhos de Modelo para Hospedagem Local de IA

O Google lançou o Gemma 4 com quatro tamanhos de modelo otimizados para diferentes hardwares, incluindo dispositivos de borda, laptops e GPUs. Todos os modelos são multimodais com capacidades de texto e visão, e os modelos menores suportam áudio em tempo real.

OpenClawRadar
RTX 4090 vs H100 para Ajuste Fino do Llama-3-8B: Uma Comparação de Custo-Desempenho
News

RTX 4090 vs H100 para Ajuste Fino do Llama-3-8B: Uma Comparação de Custo-Desempenho

Um desenvolvedor testou o fine-tuning do Llama-3-8B tanto em uma RTX 4090 quanto em instâncias alugadas de H100. A configuração da 4090 custou US$ 2.000 de entrada e levou 24 horas, enquanto o aluguel do H100 custou cerca de US$ 80 e foi concluído em 4 horas.

OpenClawRadar