SWE-rebench-V2 Lanzado: El Mayor Conjunto de Datos Multilingües Abiertos para Entrenamiento de Agentes de Código

Detalles del Lanzamiento de SWE-rebench-V2
El equipo de I+D de Nebius, liderado por Ibragim, ha publicado SWE-rebench-V2, que describen como "actualmente el conjunto de datos abierto más grande del mundo para entrenar agentes de codificación". El conjunto de datos es multilingüe y ejecutable, diseñado específicamente para el entrenamiento de aprendizaje por refuerzo a gran escala.
Características Técnicas Clave
El equipo construyó una canalización automatizada para extraer entornos de aprendizaje por refuerzo a gran escala. Este lanzamiento incluye:
- El conjunto de datos completo SWE-rebench-V2
- Un informe técnico detallado
- Documento y conjunto de datos disponibles en: https://huggingface.co/papers/2602.23866
Comunidad y Soporte
El equipo mantiene soporte activo en Discord tanto para el conjunto de datos como para su Tabla de Clasificación SWE-rebench en: https://discord.gg/wXYmWpMu. Señalan que la comunidad LocalLLaMA ha proporcionado "la retroalimentación más valiosa" para su trabajo con la Tabla de Clasificación SWE-rebench y confirman que continúan trabajando en la tabla de clasificación con planes para "hacerla aún más genial".
Para colaboraciones de investigación o preguntas, se puede contactar a Ibragim por mensaje directo en Reddit o Twitter (X) en: https://x.com/ibragim_bad.
📖 Leer la fuente completa: r/LocalLLaMA
👀 Ver también

Las APIs de navegador WebMCP podrían reducir la necesidad de scraping web para agentes de IA.
El WebMCP de Google introduce APIs del navegador que permiten a los sitios web registrar herramientas para que los agentes de IA las llamen directamente, eliminando potencialmente gran parte del scraping del DOM y las soluciones anti-bots que los desarrolladores construyen actualmente.
CTOP: Interfaz de terminal para monitorear sesiones de Claude Code, sin dependencias
CTOP es una TUI de Node.js sin dependencias que muestra CPU, memoria, saturación de la ventana de contexto, desglose de tokens y estimaciones de costos para todas las sesiones activas de Claude Code y Codex.

Configuración de Docker con un Solo Comando para OpenClaw con Cifrado de Disco Completo y Monitoreo
Una configuración de Docker para OpenClaw que proporciona guías de cifrado de disco completo, Tini como PID 1, herramientas de monitoreo integradas y datos almacenados como archivos planos en el host. La implementación requiere solo dos comandos: git clone y ./shell.

¿Por qué los flujos de trabajo deterministas superan a la orquestación impulsada por IA para sistemas de agentes?
Un desarrollador con un año de experiencia construyendo sistemas de agentes comparte que la orquestación impulsada por IA falló consistentemente debido al enrutamiento no determinista, errores acumulativos, explosión de costos y depuración imposible. Cambiar a flujos de trabajo deterministas con orquestación basada en código eliminó los fallos de orquestación.