Cowork vs. Claude Chat: 文書抽出精度の比較

公開株の年次報告書を分析するツールを開発している開発者が、密度の高い財務PDFからデータを抽出するために、Claude.aiチャットとCoworkの間で制御された比較を行いました。このテストでは、同一のプロンプトと、財務表、脚注、相互参照された開示を含む140ページ以上の同じPDFを使用しました。
テスト結果
テスト1 - Claude.aiチャット: PDFをアップロードし、プロンプトを貼り付けました。出力は機関投資家級で、すべての明細項目がソースに対して検証されました。このモデルは自己修正行動を示し、抽出中に自らの誤りを検出して修正しました。150以上のデータポイントをチェックした結果、エラーは見つかりませんでした。
テスト2 - Cowork(既存のプロジェクトフォルダを使用したワークフロー): 5つの事実誤りを生成し、30%少ないコンテンツしか抽出せず、ほとんどの詳細な資料を見逃しました。見出しの数字は正しかったものの、サブコンポーネントの詳細は失われました。
テスト3 - Cowork(クリーンなフォルダ、PDFとプロンプトのみ): 依然として以下のようなエラーを生成しました:
- 調整項目の捏造
- 単位カウントの逆算
- 財務諸表注記から20-90%ずれた複数のカテゴリー
- 前年度の列への混入(当期数値は正しいが、FY2024の比較数値に利益とFCF表全体で誤りがあった)
パターン分析
開発者は、Coworkが一貫して正しい当期合計を生成する一方で、明細項目の内訳は信頼できないことを観察しました。このモデルは、文書から読み取るのではなく、既知の希薄化後の合計に合わせるために調整項目を捏造し、逆算することでギャップを埋めているように見えました。対照的に、Claudeチャットは詳細を正しく抽出するか、見つけられなかったものを明示しました。
この結論は、Coworkのエージェント的なタスク分解(チャンキング、サブエージェント、並列処理)が、長く相互参照された財務文書に必要な持続的な注意力を維持できないことを示唆しています。チャットはPDFを単一の深いパスで処理しますが、Coworkはそれらを分割し、忠実度を失います。
この精度の差は、すべての数値を独立して検証しなければ捏造が見えないプロフェッショナルなユースケースにおいて重要です。開発者は、Claudeチャットがきれいに処理する一方で、Coworkがもっともらしいが捏造された詳細を生成する同様のパターンを他の人々が観察しているかどうかについて、コミュニティのフィードバックを求めています。
📖 全文を読む: r/ClaudeAI
👀 See Also

オーク:マルチエージェントコーディングオーケストレーションツールが計画と通知機能を追加
Orcは、ローカルのTUIインターフェースでプロジェクト全体にわたってAIコーディングエージェントをオーケストレーションするオープンソースツールです。最新リリースでは、計画を第一級フェーズとして追加し、人間の介入のための通知システム、自然言語のライフサイクルフックを導入しています。

HomeClawプラグインは、Apple HomeKitをOpenClawに接続します。
HomeClawは、Apple Home/HomeKitデバイスをOpenClawに接続するOpenClawプラグインです。公認配布のためのApple HomeKit制限により、ビルドと実行にはApple Developerアカウントが必要です。

Pleng:AI駆動のインフラ管理を備えたセルフホスト型クラウドプラットフォーム
Plengは、AGPL-3.0ライセンスのセルフホスト型クラウドプラットフォームで、AIエージェント(現在はClaude)を使用してTelegramボットコマンドでインフラストラクチャを管理します。GitHubリポジトリまたはローカルディレクトリから自動化されたTraefikルーティング、Let's Encrypt SSL、基本分析機能を備えたデプロイを実現します。

コードを書く前に、/probeを使ってAIの幻覚を検出する
開発者が「/probe」という手法を共有しました。この手法は、AIが生成した計画に番号付きの主張と期待値を出力させ、実際のシステムに対してプローブを実行して不一致を検出します。この方法により、Claudeが自身のJSONL形式について説明した際の4つの事実誤認を発見し、コードのバグを引き起こす可能性があった問題を捕捉しました。