Cowork vs. Claude Chat: 文書抽出精度比較【実テスト結果】

公開株の年次報告書を分析するツールを開発している開発者が、密度の高い財務PDFからデータを抽出するために、Claude.aiチャットとCoworkの間で制御された比較を行いました。このテストでは、同一のプロンプトと、財務表、脚注、相互参照された開示を含む140ページ以上の同じPDFを使用しました。

テスト結果

テスト1 - Claude.aiチャット: PDFをアップロードし、プロンプトを貼り付けました。出力は機関投資家級で、すべての明細項目がソースに対して検証されました。このモデルは自己修正行動を示し、抽出中に自らの誤りを検出して修正しました。150以上のデータポイントをチェックした結果、エラーは見つかりませんでした。

テスト2 - Cowork（既存のプロジェクトフォルダを使用したワークフロー）: 5つの事実誤りを生成し、30%少ないコンテンツしか抽出せず、ほとんどの詳細な資料を見逃しました。見出しの数字は正しかったものの、サブコンポーネントの詳細は失われました。

テスト3 - Cowork（クリーンなフォルダ、PDFとプロンプトのみ）: 依然として以下のようなエラーを生成しました：

調整項目の捏造
単位カウントの逆算
財務諸表注記から20-90%ずれた複数のカテゴリー
前年度の列への混入（当期数値は正しいが、FY2024の比較数値に利益とFCF表全体で誤りがあった）

パターン分析

開発者は、Coworkが一貫して正しい当期合計を生成する一方で、明細項目の内訳は信頼できないことを観察しました。このモデルは、文書から読み取るのではなく、既知の希薄化後の合計に合わせるために調整項目を捏造し、逆算することでギャップを埋めているように見えました。対照的に、Claudeチャットは詳細を正しく抽出するか、見つけられなかったものを明示しました。

この結論は、Coworkのエージェント的なタスク分解（チャンキング、サブエージェント、並列処理）が、長く相互参照された財務文書に必要な持続的な注意力を維持できないことを示唆しています。チャットはPDFを単一の深いパスで処理しますが、Coworkはそれらを分割し、忠実度を失います。

この精度の差は、すべての数値を独立して検証しなければ捏造が見えないプロフェッショナルなユースケースにおいて重要です。開発者は、Claudeチャットがきれいに処理する一方で、Coworkがもっともらしいが捏造された詳細を生成する同様のパターンを他の人々が観察しているかどうかについて、コミュニティのフィードバックを求めています。

📖 全文を読む: r/ClaudeAI

Cowork vs. Claude Chat: 文書抽出精度の比較

テスト結果

パターン分析

👀 See Also

Claudeコード用のカスタム音声抽出プロセス（テンプレート付き）

MoltMarket：デジタルタスクを実行するAIエージェントを雇用するマーケットプレイス

Mike: セルフホスティングとマルチモデルに対応したオープンソース法律AI

オープンソースのMCPサーバーにより、AIエージェントがLightning Network経由でL402支払いを処理できるようになります