Cowork vs. Claude Chat: Vergleich der Genauigkeit bei der Dokumentenextraktion

Ein Entwickler, der ein Tool zur Analyse von Jahresberichten börsennotierter Aktien erstellt, führte einen kontrollierten Vergleich zwischen Claude.ai Chat und Cowork durch, um Daten aus dichten Finanz-PDFs zu extrahieren. Der Test verwendete identische Prompts und dieselben 140+ Seiten langen PDFs mit Finanztabellen, Fußnoten und querverwiesenen Offenlegungen.
Testergebnisse
Test 1 - Claude.ai Chat: PDF hochgeladen, Prompt eingefügt. Die Ausgabe war institutioneller Qualität, wobei jeder Posten anhand der Quelle verifiziert wurde. Das Modell zeigte selbstkorrigierendes Verhalten, indem es eigene Fehler während der Extraktion erkannte und korrigierte. Über 150+ geprüfte Datenpunkte wurden keine Fehler gefunden.
Test 2 - Cowork (Workflow mit bestehendem Projektordner): Erzeugte 5 faktische Fehler, extrahierte 30 % weniger Inhalt und verpasste die meisten forensisch tiefgehenden Materialien. Während die Übersichtszahlen korrekt waren, gingen Details zu Unterkomponenten verloren.
Test 3 - Cowork (sauberer Ordner, nur PDF und Prompt): Erzeugte weiterhin Fehler, darunter:
- Erfundene ausgleichende Posten
- Rückwärts ermittelte Einheitenzahlen
- Mehrere Kategorien um 20–90 % von den tatsächlichen Anmerkungen der Finanzberichte abweichend
- Vorjahresspalten-Kontamination (Aktuelle Jahreszahlen korrekt, aber FY2024-Vergleichswerte wiesen Fehler in Gewinn- und FCF-Tabellen auf)
Musteranalyse
Der Entwickler beobachtete, dass Cowork konsistent korrekte Gesamtwerte für das laufende Jahr lieferte, aber unzuverlässige Postenaufschlüsselungen. Das Modell schien Lücken zu überdecken, indem es ausgleichende Posten erfand und rückwärts rechnete, um bekannte Gesamtsummen zu erreichen, anstatt aus dem Dokument zu lesen. Im Gegensatz dazu extrahierte Claude Chat Details entweder korrekt oder markierte, was es nicht finden konnte.
Die Schlussfolgerung deutet darauf hin, dass Coworks agentenbasierte Aufgabenzerlegung (Chunking, Sub-Agenten, Parallelverarbeitung) die anhaltende Aufmerksamkeit nicht aufrechterhalten kann, die für lange, querverwiesene Finanzdokumente erforderlich ist. Chat verarbeitet PDFs in einem einzigen tiefen Durchlauf, während Cowork sie aufteilt und an Genauigkeit verliert.
Diese Genauigkeitslücke ist für professionelle Anwendungsfälle relevant, bei denen Erfindungen ohne unabhängige Überprüfung jeder Zahl unsichtbar sind. Der Entwickler sucht nach Community-Feedback, ob andere ähnliche Muster mit Cowork beobachtet haben, die plausible, aber erfundene Details produzieren, die Claude Chat sauber verarbeitet.
📖 Den vollständigen Source lesen: r/ClaudeAI
👀 Siehe auch

AutoBe: Wie schwache lokale LLMs die Architektur eines KI-Backend-Generators verbesserten
AutoBe ist ein Open-Source-KI-Agent, der vollständige Backend-Anwendungen mit TypeScript, NestJS und Prisma generiert. Das Team stellte fest, dass ihr anfänglicher 100%iger Kompilierungserfolg unwartbaren Code produzierte, baute dann mit modularer Generierung neu auf – wodurch die Erfolgsrate auf 40% abstürzte – und nutzte schwache lokale LLMs wie qwen3-30b-a3b-thinking, um Schema-Mehrdeutigkeiten zu debuggen.

100 beliebte Apps in Markdown-Designspezifikationen für Claude UI Cloning zurückentwickelt
Ein Open-Source-Repository bietet strukturierte Markdown-Designspezifikationen für 100 beliebte iOS-Apps, optimiert für Claude, um UIs konsistent zu klonen. Schlüsseltechniken: exakte Farbwerte, Zustandsabdeckung, Abstandsskalen und Navigationsgraphen.

Skill Studio: Open-Source Desktop-App zur Verwaltung von Claude AI Agent Skills
Skill Studio ist eine kostenlose, quelloffene macOS-Desktop-App, die Entwicklern ermöglicht, Community-Skill-Repositories zu durchsuchen, Dokumentation mit Markdown-Rendering in der Vorschau anzuzeigen und Skills mit einem Klick über Befehle wie npx skills add zu installieren.

OpenClaw-Fähigkeiten mit hoher Akzeptanz: Capability Evolver, WACLI, Composio und mehr
Ein Reddit-Beitrag hebt mehrere OpenClaw-Skills mit hohen Installationszahlen und spezifischen Anwendungsfällen hervor, darunter Capability Evolver zur Selbstüberprüfung des Agentenverhaltens, WACLI für WhatsApp-Zugriff und Composio zur Verbindung mit über 860 Apps.