KI-Assistenten im Vergleich: Nginx-Loganalyse von ChatGPT bis Gemini

Ein Entwickler führte ein praktisches Experiment durch, um festzustellen, ob KI-Assistenten Webseiten live abrufen oder aus zwischengespeicherten Indizes antworten, wenn Benutzer nach bestimmten Websites fragen. Durch Einrichtung eines benutzerdefinierten Nginx-Loggings und Ansprache der wichtigsten Chatbots mit eindeutigen Abfragezeichenfolgen wurden klare Beweise für das Abrufverhalten erfasst.

Der Testaufbau

Der Test verwendete ein benutzerdefiniertes Nginx-Logformat, um Header zu erfassen, die das Standardkombinationslog komprimiert:

log_format ai_probe escape=json '{' '"time":"$time_iso8601",' '"ip":"$remote_addr",' '"uri":"$request_uri",' '"status":$status,' '"ua":"$http_user_agent",' '"referer":"$http_referer",' '"accept":"$http_accept"' '}';

Jeder Assistent erhielt eine Eingabeaufforderung, die auf eine eindeutige Abfragezeichenfolge verwies (/?ai=chatgpt, /?ai=claude usw.), was die Zuordnung einfach machte. Die Eingabeaufforderungen wurden über mehrere Sitzungen hinweg wiederholt, um vorübergehende Cache-Treffer zu vermeiden, die die Abrufmuster verschleiern könnten.

Wer sich mit dedizierten User-Agents ankündigte

Fünf Assistenten kamen mit abrufspezifischen Signalen:

ChatGPT: ChatGPT-User/1.0 (Chrome-ähnliches Accept, keine robots.txt-Prüfung)
Claude: Claude-User/1.0 (*/* Accept, prüft immer zuerst robots.txt)
Perplexity: Perplexity-User/1.0 (leerer Accept-Header)
Meta AI: meta-webindexer/1.1 (*/* Accept, keine robots.txt-Prüfung)
Manus: Manus-User/1.0-Suffix auf Chrome-UA (Chrome-ähnliches Accept)

Alle fünf holten die Seite direkt vom Ursprungsserver ab.

Wer sich nicht ankündigte

Gemini: Keine Anfragen von einem Google-User-Agent während des Eingabezeitfensters. Antwortete vollständig aus seinem eigenen Index, ohne einen Live-Abruf vom Anbieterserver durchzuführen.
Copilot: Einfacher Chrome 135 auf Linux x86_64, vollständiger Browser-ähnlicher Accept. Hat abgerufen, aber nicht von menschlichen Besuchern zu unterscheiden.
Grok: Einfacher Mac Safari 26 und einfacher Mac Chrome 143. Hat abgerufen, aber nicht von menschlichen Besuchern zu unterscheiden.

Beobachtete Schlüsselverhaltensmuster

ChatGPT: Zugriffe von mehreren Quell-IPs innerhalb desselben Bursts, zieht typischerweise mehrere Kandidatenseiten gleichzeitig, während entschieden wird, welche zitiert werden soll. In einem 24-Stunden-Produktionsfenster kamen ChatGPT-User-Anfragen aus fünf verschiedenen Azure-Bereichen: 23.98.x.x, 20.215.x.x, 40.67.x.x, 51.8.x.x und 51.107.x.x.

Claude: Holt immer /robots.txt vor jedem Seitenabruf ab, aus dem Anthropic-eigenen IP-Bereich 216.73.216.0/24. Folgt Weiterleitungen sauber, einschließlich der Normalisierung von abschließenden Schrägstrichen. Anthropic betreibt drei verschiedene Bots: Claude-User (benutzerinitiierter Abruf), Claude-SearchBot (Suchindex) und ClaudeBot (Trainings-Crawler).

Perplexity: Direkter Abruf ohne Accept-Header oder Referrer. PerplexityBot (der Suchindexierungs-Crawler) pingte separat /robots.txt an. Der Autor stellt fest, dass Perplexity live abrufen kann, aber nicht muss, da es aus seinem eigenen Index antworten kann.

Gemini: Kein Live-Abruf vom Anbieterserver beobachtet. Google veröffentlicht keinen abrufspezifischen User-Agent für Gemini, und laut der Google-Crawler-Dokumentation basieren AI Overviews und AI Mode auf demselben Suchindex, den Googlebot füllt.

Das Experiment unterscheidet zwischen zwei Signalen: Anbieterseitiger Abruf (Assistent erreicht Ursprungsserver mit dediziertem User-Agent) und echte Klickdurch-Besuche (Mensch liest KI-Antwort und klickt auf Zitat, kommt als normaler Browser mit Assistent als Referrer). Die Kombination beider zu einer einzigen "KI-Verkehrs"-Zahl verdeckt diese nützliche Unterscheidung.

📖 Source: HN AI Agents

Wie KI-Assistenten Webseiten abrufen: Nginx-Loganalyse von ChatGPT, Claude, Gemini und anderen

Der Testaufbau

Wer sich mit dedizierten User-Agents ankündigte

Wer sich nicht ankündigte

Beobachtete Schlüsselverhaltensmuster

👀 Siehe auch

Allgemeine Bots: Open-Source-KI-Agenten-Plattform für selbst gehostete Unternehmensautomatisierung

SendToAI VS Code Extension löst Claudes 20-Dateien-Limit durch Projekt-Bündelung

TinySearch v0.2.0: Leichte Websuche für lokale LLMs jetzt mit SearXNG-Unterstützung

Skill Seekers v3.2.0 fügt die Extraktion von YouTube-Tutorials für Claude-Fähigkeiten hinzu.