Investigadores de Seguridad en IA: Tus Vulnerabilidades de Día Cero Podrían Filtrarse a través de la Opción de Inclusión de Datos

Si estás realizando red-teaming profundo en modelos de lenguaje grandes con el interruptor "Mejorar el modelo para todos" activado, tu investigación puede ser recolectada automáticamente por los proveedores y compartida con socios académicos antes de que puedas publicar tus hallazgos.
El Canal de Opción de Datos
La fuente describe cómo funciona esto:
- Disparadores Automatizados: Los proveedores ejecutan clasificadores de ML que escanean miles de millones de chats. Cuando participas en sesiones de varias páginas probando límites de alineación, fallas lógicas arquitectónicas o vectores de inyección social complejos, el sistema marca tu registro como una Señal de Alto Valor.
- Intercepción de Registros: Tu chat—incluyendo la terminología y pruebas de concepto que has desarrollado—se extrae del grupo de datos general y llega a los equipos internos de Seguridad y Alineación.
- "Lavado Académico": Los conjuntos de datos anonimizados a menudo se comparten con socios de investigación externos o académicos. Podrías ver tus conceptos de vulnerabilidad aparecer en borradores del IETF o artículos de arXiv bajo el nombre de otra persona.
Riesgos para los Investigadores
- Recompensas por Errores Quemadas: Si el equipo de Alineación implementa una "corrección silenciosa" antes de que envíes oficialmente tu informe, tu trabajo puede cerrarse como Duplicado o Informativo.
- Robo de Propiedad Intelectual: Tu terminología original y descubrimientos arquitectónicos podrían convertirse en la base para la tesis doctoral de otra persona o estándares de internet sin atribución.
Medidas de Protección
- Apaga el interruptor INMEDIATAMENTE: Antes de una investigación seria, ve a Configuración → Controles de Datos y desactiva el intercambio de datos para el entrenamiento del modelo.
- Cuentas Desechables: Mantén cuentas separadas—una para tareas diarias y una cuenta "sandbox" dedicada con telemetría desactivada para hacking/red-teaming.
- Marca la hora de tus copias de seguridad: Si inventas un nuevo concepto en un chat, solicita una exportación de datos (DSAR) inmediatamente para tener una prueba criptográfica de cuándo se originó tu idea.
El consejo principal: No hagas I+D gratuita para corporaciones. Protege tus ideas controlando la configuración de intercambio de datos antes de realizar investigaciones de seguridad en LLMs.
📖 Leer la fuente completa: r/LocalLLaMA
👀 Ver también

Se informa que el código fuente de Claude Code se filtró a través de un archivo map de NPM
Un tuit informa que el código fuente de Claude Code ha sido filtrado a través de un archivo de mapa en su registro de NPM. La discusión en HN tiene 93 puntos y 35 comentarios.

jqwik v1.10.0 introduce inyección de aviso que elimina código cuando es usado por agentes de IA
Johannes Link añadió una instrucción oculta a jqwik v1.10.0 que ordena a los agentes de codificación de IA eliminar todos los tests y código de jqwik, oculta con escapes ANSI. Claude la detecta correctamente, pero los usuarios humanos podrían no tener tanta suerte.

OneCLI: Bóveda de Credenciales de Código Abierto para Agentes de IA
OneCLI es una puerta de enlace de código abierto escrita en Rust que se sitúa entre los agentes de IA y los servicios externos, inyectando credenciales reales en el momento de la solicitud mientras que los agentes solo ven claves de marcador de posición. Proporciona almacenamiento cifrado AES-256-GCM, se ejecuta en un único contenedor Docker con PGlite integrado y funciona con cualquier framework de agentes que pueda configurar un HTTPS_PROXY.

Vulnerabilidad de Ejecución de Código Remoto en la Aplicación Bloc de Notas de Windows CVE-2026-20841
CVE-2026-20841 es una vulnerabilidad de ejecución remota de código en la aplicación Notepad de Windows. Los detalles y los pasos de mitigación están disponibles en la guía de actualización del Centro de Respuesta de Seguridad de Microsoft.