Comment les assistants IA récupèrent les pages web : analyse des logs Nginx de ChatGPT, Claude, Gemini et autres

✍️ OpenClawRadar📅 Publié: April 20, 2026🔗 Source
Comment les assistants IA récupèrent les pages web : analyse des logs Nginx de ChatGPT, Claude, Gemini et autres
Ad

Un développeur a mené une expérience pratique pour déterminer si les assistants IA récupèrent les pages web en direct ou répondent à partir d'index mis en cache lorsque les utilisateurs interrogent des sites spécifiques. En configurant une journalisation Nginx personnalisée et en soumettant des chaînes de requête uniques aux principaux chatbots, ils ont obtenu des preuves claires du comportement de récupération.

Configuration de la sonde

Le test a utilisé un format de journal Nginx personnalisé pour capturer les en-têtes que le journal combiné par défaut compresse :

log_format ai_probe escape=json '{' '"time":"$time_iso8601",' '"ip":"$remote_addr",' '"uri":"$request_uri",' '"status":$status,' '"ua":"$http_user_agent",' '"referer":"$http_referer",' '"accept":"$http_accept"' '}';

Chaque assistant a reçu une instruction pointant vers une chaîne de requête unique (/?ai=chatgpt, /?ai=claude, etc.), rendant l'attribution simple. Les instructions ont été relancées sur plusieurs sessions pour éviter que des accès en cache temporaires ne masquent les schémas de récupération.

Qui s'est annoncé avec des agents utilisateur dédiés

Cinq assistants sont arrivés avec des signaux spécifiques de récupération :

  • ChatGPT : ChatGPT-User/1.0 (Accept de type Chrome, pas de vérification de robots.txt)
  • Claude : Claude-User/1.0 (Accept */*, vérifie toujours robots.txt d'abord)
  • Perplexity : Perplexity-User/1.0 (en-tête Accept vide)
  • Meta AI : meta-webindexer/1.1 (Accept */*, pas de vérification de robots.txt)
  • Manus : Suffixe Manus-User/1.0 sur l'UA Chrome (Accept de type Chrome)

Tous les cinq ont récupéré la page directement depuis l'origine.

Qui ne s'est pas annoncé

  • Gemini : Aucune requête d'un agent utilisateur Google pendant la fenêtre d'instruction. A répondu entièrement à partir de son propre index sans effectuer de récupération en direct côté fournisseur.
  • Copilot : Chrome 135 standard sur Linux x86_64, Accept complet de type navigateur. A récupéré mais impossible à distinguer des visiteurs humains.
  • Grok : Safari 26 Mac standard et Chrome 143 Mac standard. A récupéré mais impossible à distinguer des visiteurs humains.
Ad

Schémas comportementaux clés observés

ChatGPT : Accès depuis plusieurs adresses IP sources dans la même rafale, récupérant généralement plusieurs pages candidates à la fois tout en décidant laquelle citer. Dans une fenêtre de production de 24 heures, les requêtes ChatGPT-User provenaient de cinq plages Azure distinctes : 23.98.x.x, 20.215.x.x, 40.67.x.x, 51.8.x.x et 51.107.x.x.

Claude : Récupère toujours /robots.txt avant chaque récupération de page, depuis l'espace IP d'Anthropic dans la plage 216.73.216.0/24. Suit les redirections proprement, y compris la normalisation des barres obliques finales. Anthropic exécute trois robots distincts : Claude-User (récupération initiée par l'utilisateur), Claude-SearchBot (index de recherche) et ClaudeBot (robot d'exploration pour l'entraînement).

Perplexity : Récupération directe sans en-tête Accept ni référent. PerplexityBot (leur robot d'indexation de recherche) a séparément interrogé /robots.txt. L'auteur note que Perplexity peut récupérer en direct mais n'y est pas obligé, car il peut répondre à partir de son propre index.

Gemini : Aucune récupération en direct côté fournisseur observée. Google ne publie pas d'agent utilisateur spécifique à la récupération pour Gemini, et selon la documentation des robots de Google, les Résumés IA et le Mode IA s'appuient sur le même index de recherche que Googlebot alimente.

L'expérience distingue deux signaux : la récupération côté fournisseur (l'assistant accède à l'origine avec un agent utilisateur dédié) et les visites réelles par clic (un humain lit la réponse de l'IA et clique sur la citation, arrivant comme un navigateur normal avec l'assistant comme référent). Combiner les deux en un seul nombre de "trafic IA" masque cette distinction utile.

📖 Lire la Source complète : HN AI Agents

Ad

👀 See Also

Extension de Navigateur Coloriseur de Barre d'Utilisation Claude  
Construite avec Claude Code
Tools

Extension de Navigateur Coloriseur de Barre d'Utilisation Claude Construite avec Claude Code

Un développeur a créé une extension de navigateur qui recolore les barres d'utilisation de Claude du vert au jaune puis au rouge selon des seuils de pourcentage, ajoute une fenêtre contextuelle avec des données d'utilisation en direct, et permet la personnalisation des seuils et des couleurs. L'extension ne fonctionne que sur la page d'utilisation de Claude, stocke les paramètres localement et n'effectue aucune requête réseau externe.

OpenClawRadar
Compétences Claude Code en open source : un pipeline /do qui réduit les relances de 80 %
Tools

Compétences Claude Code en open source : un pipeline /do qui réduit les relances de 80 %

Un développeur a open-sourcé 15 compétences Claude Code construites sur plus de 100 projets freelance. La commande /do exécute un pipeline en 5 étapes (/todo → /dev → /verify-dev → /build → /test → push) avec des boucles de correction automatique, ce qui réduit les suivis de 80% et améliore la qualité du code de 60 à 65% sur plus de 2000 commits.

OpenClawRadar
Comment Mendral a réduit les coûts des LLM en passant à Opus : schéma de triage, accès SQL et architecture de sous-agent
Tools

Comment Mendral a réduit les coûts des LLM en passant à Opus : schéma de triage, accès SQL et architecture de sous-agent

Mendral est passé de Sonnet à Opus 4.6 pour l'analyse des échecs CI, mais a réduit les coûts en utilisant un trieur Haiku pour écarter 80% des échecs, en donnant aux agents un accès SQL à ClickHouse au lieu de pousser les logs, et en générant des sous-agents bon marché pour effectuer les recherches approfondies.

OpenClawRadar
Plateforme IA de Cloudflare : Couche d'Inférence Unifiée pour les Agents IA
Tools

Plateforme IA de Cloudflare : Couche d'Inférence Unifiée pour les Agents IA

La plateforme IA de Cloudflare fournit une API unique pour accéder à plus de 70 modèles provenant de plus de 12 fournisseurs, incluant une prise en charge multimodale pour les modèles d'image, vidéo et parole. Elle permet de changer de modèle avec une seule modification de code et offre une surveillance centralisée des coûts avec des métadonnées personnalisées.

OpenClawRadar