La precisión de Claude Opus 4.6 disminuye en la prueba de alucinación BridgeBench.

BridgeMind AI informó en Twitter que la precisión de Claude Opus 4.6 en la prueba de alucinación BridgeBench ha disminuido del 83% al 68%. El tuit fue compartido en Hacker News, donde recibió 58 puntos y 11 comentarios.
La prueba de alucinación BridgeBench es un punto de referencia utilizado para medir la frecuencia con la que los modelos de IA generan información incorrecta o fabricada. Una caída del 83% al 68% en la precisión representa una regresión de rendimiento significativa en esta evaluación específica.
Para los desarrolladores que utilizan agentes de IA para codificación, las pruebas de alucinación como BridgeBench son importantes para comprender la confiabilidad del modelo. Cuando los modelos alucinan en contextos de codificación, pueden generar código incorrecto, sugerir API inexistentes o proporcionar referencias de documentación engañosas.
La discusión en Hacker News sobre este tuit probablemente incluye análisis técnico de desarrolladores que trabajan con modelos de IA. Estas conversaciones generalmente cubren las implicaciones prácticas para los flujos de trabajo de desarrollo, las estrategias de prueba y cómo mitigar los riesgos de alucinación en sistemas de producción.
Las caídas de precisión en puntos de referencia específicos no necesariamente reflejan una degradación general del rendimiento del modelo, pero resaltan áreas donde las actualizaciones recientes pueden haber introducido regresiones. Los desarrolladores deben verificar sugerencias de código críticas y mantener protocolos de prueba cuando trabajen con modelos de IA actualizados.
📖 Read the full source: HN AI Agents
👀 Ver también

Anthropic lanza Claude Code Channels para mensajería desde Telegram o Discord.
Anthropic ha lanzado Claude Code Channels, permitiendo a los desarrolladores enviar mensajes a sus sesiones de codificación con IA desde Telegram o Discord mientras mantienen el código local.

Por qué la activación de dirección de Anthropic tiene problemas para generar JSON válido.
La activación de dirección, una técnica utilizada para la seguridad en IA, no logra generar JSON válido, alcanzando solo un 24.4% de validez en comparación con el 86.8% del modelo base no entrenado.

Cambios Frecuentes en OpenClaw: Procedimientos de Actualización y Problemas Actuales
OpenClaw ha lanzado 13 versiones puntuales solo en marzo de 2026, con cambios disruptivos ocurriendo cada 2-3 semanas. La fuente proporciona procedimientos de actualización específicos y detalla los problemas actuales en la versión 3.28, incluyendo cambios en la autenticación localhost y errores de regresión.

Anthropic duplica los límites de tasa de Claude Code y elimina la limitación de pico para los planes de pago
Anthropic ha duplicado los límites de tasa de 5 horas para Claude Code en los planes Pro, Max, Team y Enterprise, ha eliminado la limitación en horas pico y ha aumentado los límites de tasa de API para los modelos Opus.