inclusionAI lanza Ling-2.6-1T: Modelo de billón de parámetros con arquitectura híbrida, atención dispersa y pensamiento rápido

inclusionAI ha lanzado como código abierto Ling-2.6-1T, un modelo insignia con un billón de parámetros de la familia Ling, orientado a tareas complejas del mundo real. El modelo introduce una arquitectura híbrida que combina Atención Latente Multi-Cabeza (MLA) y Atención Lineal para mejorar la eficiencia de inferencia, reduciendo la latencia y el uso de VRAM en contextos largos mientras mantiene la expresividad.
Razonamiento Rápido mediante Estrategia de Recompensa
El post-entrenamiento utiliza una estrategia de recompensa de Supresión de Redundancia de Procesos Contextuales, que fomenta salidas más cortas y directas — un mecanismo de "razonamiento rápido" que reduce la dependencia de cadenas de pensamiento verbosas. Esto reduce el consumo de tokens mientras mantiene el rendimiento.
SOTA en Benchmarks
Ling-2.6-1T logra el SOTA de código abierto en benchmarks intensivos en ejecución:
- AIME26 (razonamiento)
- SWE-bench Verified (ingeniería de software)
- BFCL-V4 (llamadas a funciones)
- TAU2-Bench (finalización de tareas)
- IFBench (seguimiento de instrucciones)
Integración con Agentes
El modelo está diseñado para flujos de trabajo de ingeniería de extremo a extremo — desde generación de código hasta corrección de errores — y se integra con frameworks de agentes principales como Claude Code, OpenClaw, OpenCode y CodeBuddy. Maneja restricciones de múltiples herramientas y múltiples pasos en entornos empresariales.
📖 Leer la fuente completa: r/LocalLLaMA
👀 Ver también

El NYT Magazine cubre el uso real de OpenClaw en pequeñas empresas — artículo regalo compartido desde Reddit
Un artículo de la revista The New York Times Magazine presenta a usuarios de OpenClaw entrevistados sobre sus casos de uso empresarial, publicado originalmente en r/openclaw. Incluye enlace de regalo.

MiniMax Lanza MaxClaw: Agente de IA Alojado en la Nube Basado en OpenClaw
MiniMax ha lanzado MaxClaw, un agente de IA alojado en la nube y completamente gestionado, construido sobre el framework OpenClaw. Se despliega en 10 segundos sin necesidad de Docker o servidores y cuenta con el modelo MiniMax M2.5 de 229B parámetros, un contexto de 200K-1M tokens y una velocidad de inferencia de hasta 100 tokens/s.

RTX 5000 PRO 48GB ofrece 4400 tok/s de almacenamiento en caché de precisión para Qwen3.6-27B
Un constructor de PC por primera vez reporta 4400 tok/s de procesamiento de prompt y 80 tok/s de generación con Qwen3.6-27B-FP8, caché KV de precisión completa en una sola RTX 5000 Pro 48GB, usando vLLM y Claude Code.
El Atlantic informa sobre el aumento de la violencia anti-IA y la reacción política
Bernie Sanders y Steve Bannon denuncian la IA como una amenaza para los trabajadores. Un ataque con cóctel molotov a la casa de Sam Altman y el tiroteo a la casa de un concejal de Indianápolis muestran que la violencia contra los centros de datos está aumentando.