Wie KI-Assistenten Webseiten abrufen: Nginx-Loganalyse von ChatGPT, Claude, Gemini und anderen

✍️ OpenClawRadar📅 Veröffentlicht: 20. April 2026🔗 Source
Wie KI-Assistenten Webseiten abrufen: Nginx-Loganalyse von ChatGPT, Claude, Gemini und anderen
Ad

Ein Entwickler führte ein praktisches Experiment durch, um festzustellen, ob KI-Assistenten Webseiten live abrufen oder aus zwischengespeicherten Indizes antworten, wenn Benutzer nach bestimmten Websites fragen. Durch Einrichtung eines benutzerdefinierten Nginx-Loggings und Ansprache der wichtigsten Chatbots mit eindeutigen Abfragezeichenfolgen wurden klare Beweise für das Abrufverhalten erfasst.

Der Testaufbau

Der Test verwendete ein benutzerdefiniertes Nginx-Logformat, um Header zu erfassen, die das Standardkombinationslog komprimiert:

log_format ai_probe escape=json '{' '"time":"$time_iso8601",' '"ip":"$remote_addr",' '"uri":"$request_uri",' '"status":$status,' '"ua":"$http_user_agent",' '"referer":"$http_referer",' '"accept":"$http_accept"' '}';

Jeder Assistent erhielt eine Eingabeaufforderung, die auf eine eindeutige Abfragezeichenfolge verwies (/?ai=chatgpt, /?ai=claude usw.), was die Zuordnung einfach machte. Die Eingabeaufforderungen wurden über mehrere Sitzungen hinweg wiederholt, um vorübergehende Cache-Treffer zu vermeiden, die die Abrufmuster verschleiern könnten.

Wer sich mit dedizierten User-Agents ankündigte

Fünf Assistenten kamen mit abrufspezifischen Signalen:

  • ChatGPT: ChatGPT-User/1.0 (Chrome-ähnliches Accept, keine robots.txt-Prüfung)
  • Claude: Claude-User/1.0 (*/* Accept, prüft immer zuerst robots.txt)
  • Perplexity: Perplexity-User/1.0 (leerer Accept-Header)
  • Meta AI: meta-webindexer/1.1 (*/* Accept, keine robots.txt-Prüfung)
  • Manus: Manus-User/1.0-Suffix auf Chrome-UA (Chrome-ähnliches Accept)

Alle fünf holten die Seite direkt vom Ursprungsserver ab.

Wer sich nicht ankündigte

  • Gemini: Keine Anfragen von einem Google-User-Agent während des Eingabezeitfensters. Antwortete vollständig aus seinem eigenen Index, ohne einen Live-Abruf vom Anbieterserver durchzuführen.
  • Copilot: Einfacher Chrome 135 auf Linux x86_64, vollständiger Browser-ähnlicher Accept. Hat abgerufen, aber nicht von menschlichen Besuchern zu unterscheiden.
  • Grok: Einfacher Mac Safari 26 und einfacher Mac Chrome 143. Hat abgerufen, aber nicht von menschlichen Besuchern zu unterscheiden.
Ad

Beobachtete Schlüsselverhaltensmuster

ChatGPT: Zugriffe von mehreren Quell-IPs innerhalb desselben Bursts, zieht typischerweise mehrere Kandidatenseiten gleichzeitig, während entschieden wird, welche zitiert werden soll. In einem 24-Stunden-Produktionsfenster kamen ChatGPT-User-Anfragen aus fünf verschiedenen Azure-Bereichen: 23.98.x.x, 20.215.x.x, 40.67.x.x, 51.8.x.x und 51.107.x.x.

Claude: Holt immer /robots.txt vor jedem Seitenabruf ab, aus dem Anthropic-eigenen IP-Bereich 216.73.216.0/24. Folgt Weiterleitungen sauber, einschließlich der Normalisierung von abschließenden Schrägstrichen. Anthropic betreibt drei verschiedene Bots: Claude-User (benutzerinitiierter Abruf), Claude-SearchBot (Suchindex) und ClaudeBot (Trainings-Crawler).

Perplexity: Direkter Abruf ohne Accept-Header oder Referrer. PerplexityBot (der Suchindexierungs-Crawler) pingte separat /robots.txt an. Der Autor stellt fest, dass Perplexity live abrufen kann, aber nicht muss, da es aus seinem eigenen Index antworten kann.

Gemini: Kein Live-Abruf vom Anbieterserver beobachtet. Google veröffentlicht keinen abrufspezifischen User-Agent für Gemini, und laut der Google-Crawler-Dokumentation basieren AI Overviews und AI Mode auf demselben Suchindex, den Googlebot füllt.

Das Experiment unterscheidet zwischen zwei Signalen: Anbieterseitiger Abruf (Assistent erreicht Ursprungsserver mit dediziertem User-Agent) und echte Klickdurch-Besuche (Mensch liest KI-Antwort und klickt auf Zitat, kommt als normaler Browser mit Assistent als Referrer). Die Kombination beider zu einer einzigen "KI-Verkehrs"-Zahl verdeckt diese nützliche Unterscheidung.

📖 Source: HN AI Agents

Ad

👀 Siehe auch

Verwendung von Claude zur Automatisierung der Mobile-App-QA mit Capacitor WebViews
Werkzeuge

Verwendung von Claude zur Automatisierung der Mobile-App-QA mit Capacitor WebViews

Ein Entwickler hat ein automatisiertes QA-System mit Claude erstellt, um eine auf Capacitor basierende mobile App auf Android und iOS zu testen. Der Ansatz nutzt das Chrome DevTools Protocol für Android WebViews und Screenshots für visuelle Analysen, wobei die Android-Einrichtung 90 Minuten dauert, verglichen mit 6+ Stunden für iOS.

OpenClawRadar
KI-Funktionen: Laufzeit-Codegenerierung mit automatisierter Verifizierung
Werkzeuge

KI-Funktionen: Laufzeit-Codegenerierung mit automatisierter Verifizierung

AI Functions ist eine Python-Bibliothek, mit der Sie Funktionen mit natürlichen Sprachspezifikationen anstelle von Implementierungscode definieren können, zur Laufzeit generierten LLM-Code ausführt und Ausgaben mit Nachbedingungen validiert, die bei Fehlern automatische Wiederholungen auslösen.

OpenClawRadar
MTPLX: 2,24x schnellere Token auf Apple Silicon mit nativen MTP-Köpfen
Werkzeuge

MTPLX: 2,24x schnellere Token auf Apple Silicon mit nativen MTP-Köpfen

MTPLX erreicht 63 tok/s auf Qwen3.6-27B auf M5 Max (von 28 tok/s) unter Verwendung der integrierten MTP-Köpfe mit exakten Temperatur-Sampling und ohne externen Drafter.

OpenClawRadar
Claude-Code-Überprüfungsengpass und Browser-Automatisierungs-Plugin-Lösung
Werkzeuge

Claude-Code-Überprüfungsengpass und Browser-Automatisierungs-Plugin-Lösung

Ein Entwickler berichtet, dass die Überprüfung immer noch der langsamste Teil bei der Nutzung von Claude Code ist und manuelle Tests von Funktionen erfordert. Sie fanden ein Browser-Automatisierungs-Plugin, das es dem Agenten ermöglicht, echte Produktabläufe zu überprüfen, bevor Aufgaben als abgeschlossen markiert werden.

OpenClawRadar