El bloqueo de Internet Archive amenaza la preservación de la historia web.

Qué está pasando con el acceso a Internet Archive
The New York Times ha comenzado a bloquear que Internet Archive rastree su sitio web utilizando medidas técnicas que van más allá de las reglas tradicionales de robots.txt. Otros periódicos, incluido The Guardian, parecen estar siguiendo este enfoque. Este bloqueo arriesga cortar el acceso a registros históricos de la web en los que periodistas, investigadores y tribunales han confiado durante décadas.
Por qué esto importa para la preservación histórica
Internet Archive opera la Wayback Machine, que contiene más de un billón de páginas web archivadas. Durante casi treinta años, ha preservado sitios de noticias tal como aparecieron originalmente en línea. Cuando los artículos se editan, cambian o eliminan, el Archivo a menudo se convierte en la única fuente para ver esas versiones originales. Que las grandes editoriales bloqueen estos rastreadores significa que el registro histórico comienza a desaparecer.
La conexión con la IA y el contexto legal
Las editoriales citan preocupaciones sobre empresas de IA que extraen contenido de noticias como su motivación para bloquear el Archivo. The New York Times y otros están demandando a empresas de IA por si entrenar modelos con material con derechos de autor viola la ley. Sin embargo, Internet Archive no está construyendo sistemas comerciales de IA, está preservando registros históricos. El artículo argumenta que bloquear a archiveros sin fines de lucro es la respuesta incorrecta a las preocupaciones sobre el entrenamiento de IA.
Desde una perspectiva legal, hacer que el material sea buscable es un uso justo establecido. Los tribunales han reconocido que construir índices buscables a menudo requiere hacer copias del material subyacente. Cuando Google copió libros enteros para crear una base de datos buscable, los tribunales reconocieron esto como uso justo porque servía al propósito transformador de permitir el descubrimiento y la investigación. Los mismos principios se aplican al archivo web.
Impacto práctico en la investigación y el periodismo
Solo Wikipedia enlaza a más de 2,6 millones de artículos de noticias preservados en Internet Archive, que abarcan 249 idiomas. Innumerables blogueros, investigadores y periodistas dependen del Archivo como un registro estable y autorizado de lo que se publicó en línea. Si las grandes editoriales continúan bloqueando el acceso, los futuros investigadores pueden encontrar que partes significativas de la historia de la web han desaparecido.
📖 Lea la fuente completa: HN AI Agents
👀 Ver también

Gemini Embedding 2: El Primer Modelo de Incrustación Nativamente Multimodal de Google Lanzado
Google ha lanzado Gemini Embedding 2, su primer modelo de incrustación multimodal nativo que mapea texto, imágenes, video, audio y documentos en un único espacio de incrustación. El modelo admite hasta 8192 tokens de texto, 6 imágenes por solicitud, 120 segundos de video y PDF de hasta 6 páginas de longitud, con dimensiones de salida flexibles desde 3072 hasta 768.

Agente de IA Dirige Tienda Minorista Física con Empleados Humanos
Andon Labs desplegó una IA llamada Luna para gestionar un contrato de arrendamiento minorista de 3 años en San Francisco. Luna contrató empleados humanos, gestionó contratistas y tomó todas las decisiones operativas para Andon Market.

Explorando las complejidades de OpenClaw: Cómo opera.
OpenClaw está revolucionando el panorama de la codificación con IA gracias a su arquitectura innovadora y sus funcionalidades únicas. Descubre el funcionamiento interno de este potente agente de automatización.

1.2B Modelo Local Vence a 1T Nubes en Póker: La Agresión Supera al Conocimiento en Formato Todo o Nada
Un modelo Liquid de 1.2B ganó 2 de 5 torneos de Texas Hold'em contra modelos de hasta 1T de parámetros, porque en un formato de stack corto, nunca retirarse generó más fichas que el juego inteligente.