Codeset mejora los agentes de codificación con contexto específico del repositorio del historial de git.

Qué hace Codeset
Codeset ejecuta un pipeline sobre tu historial de git y genera archivos que residen directamente en tu repositorio. Estos archivos incluyen: errores pasados por archivo con causas raíz, dificultades conocidas, relaciones de cambio conjunto y listas de verificación de pruebas. El agente de codificación lee estos archivos como parte de su ventana de contexto normal. Sin RAG, sin base de datos vectorial en tiempo de consulta, sin infraestructura en tiempo de ejecución requerida—solo archivos estáticos que tu agente recoge como cualquier otro archivo en el repositorio.
Resultados de evaluación comparativa
El equipo probó Codeset con dos puntos de referencia:
- codeset-gym-python (150 tareas, mismo subconjunto que la evaluación de Claude): 60.7% → 66% (+5.3 puntos porcentuales)
- SWE-Bench Pro (400 tareas muestreadas aleatoriamente): 56.5% → 58.5% (+2 puntos porcentuales)
Esto muestra una mejora consistente en ambos puntos de referencia, con ganancias menores en SWE-Bench Pro en comparación con codeset-gym. El punto de referencia codeset-gym es público con lista completa de tareas y verificadores disponibles para verificación de metodología.
Precios y disponibilidad
Codeset cuesta $5 por repositorio, pago único. Usa el código CODESETLAUNCH para una prueba gratuita. Los artefactos completos de evaluación están disponibles en https://github.com/codeset-ai/codeset-release-evals.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Models.dev: Base de datos de código abierto de especificaciones, precios y capacidades de modelos de IA
Models.dev es una base de datos open-source, mantenida por la comunidad, de especificaciones, precios y capacidades de modelos de IA. Proporciona una API y definiciones basadas en TOML para proveedores y modelos.

AgentRoom: La aplicación de escritorio visualiza agentes de programación de IA como personajes de píxeles con búsqueda de sesiones.
AgentRoom es una aplicación de escritorio que convierte las sesiones de Claude Code, Codex y Gemini en personajes de píxeles animados en una oficina virtual, con búsqueda semántica de texto completo en todas las sesiones. El repositorio incluye una habilidad independiente de Claude Code para buscar sesiones anteriores desde cualquier conversación.

Script de Python de 80 líneas usa Claude para generar sugerencias de enlaces internos automáticamente, reduciendo el tiempo de enlace de 2 horas a 8 minutos
Un usuario de Reddit creó un script de Python de 80 líneas que alimenta a Claude con un borrador de artículo y un mapa del sitio, obteniendo enlaces internos relevantes con texto ancla sugerido, reduciendo el tiempo de enlazado manual de 2 horas a 8 minutos por artículo.

SWE-rebench-V2 Lanzado: El Mayor Conjunto de Datos Multilingües Abiertos para Entrenamiento de Agentes de Código
Nebius ha lanzado SWE-rebench-V2, actualmente el conjunto de datos abierto más grande para entrenar agentes de codificación, que cuenta con una canalización automatizada para extraer entornos de aprendizaje por refuerzo a gran escala y está diseñado específicamente para el entrenamiento de aprendizaje por refuerzo a gran escala.