Claude、Gemini 3.1 Proで1万件の不動産権利書をAI分析する方法

プロジェクトの背景と課題

ブラジルの不動産会社は、10以上の自治体にまたがる約1万件の不動産権利証を、数十年にわたる不適切な管理状態で引き継ぎました。データには、数百件の未登録「引き出し契約」（提出されていない非公式売買）、同一物件の重複販売、不正契約、偽造委任状、不法占拠、および時効取得請求、強制裁定、立ち退き、重複販売紛争、2件の集団訴訟を含む約500件の係争中訴訟が含まれています。物理的な文書アーカイブの一部は、過去の捜査の一環として警察が保管しています。

技術的アプローチ

チーム（弁護士6名＋オペレーター3名）は、初期段階でのインフラ構築を避け、AI支援による発見重視のアプローチを選択しました。計画は以下の5段階で構成されます：

ステップ1 - 物理スキャン： 自治体別に整理された文書を、ADF（自動給紙装置）付きドキュメントスキャナーを使用し、命名規則「[自治体]_[文書タイプ]_[連番]」でバッチ処理スキャン。
ステップ2 - OCR： Google Document AI、Mistral OCR 3、AWS Textractなどのツールを検討中。劣化したラテンアメリカの登記文書で実際にテストされたツールに関するフィードバックを求めています。
ステップ3 - 発見： データベース構築前に、大規模コンテキストウィンドウを持つAIツールにOCR出力を直接入力し、オープンエンド分析を実施。Gemini 3.1 Pro（NotebookLMなど）を使用した広範なバッチ分析では、「複数の購入者に関連する区画はどれか？」「日付が矛盾する契約にフラグを立てる」「不審な名前や活動のクラスターを特定」「気づいていない問題と解決策を見出す」などのプロンプトを使用。同様の分析をClaude Projectsで並行実行。
ステップ4 - データクリーニングと標準化： データベース挿入前に抽出された生データを正規化。複数の表記がある自治体名（「B. Vista」「Bela Vista de GO」「Bela V. Goiás」など）を正規形に統一、記号の有無があるCPF（ブラジル個人ID番号）を標準化、一貫性のない区画状態記述を列挙型カテゴリに修正、スペルバリエーションのある購入者名をファジーマッチング。ツール：Python＋rapidfuzz（ファジーマッチング）、Claude API（自由記述フィールドのカテゴリ正規化）。チームは、数十年にわたる不整合がある1万件のレコードに対して、ファジーマッチング＋LLM正規化で十分か、より厳密なエンティティ解決（例：Dedupe.io）が必要か検討中。
ステップ5 - データベース： 選択されたスタック：Supabase（PostgreSQL＋pgvector）にNocoDBを上層に配置。評価された3つのオプション：Airtable（開始は容易だが規模拡大に制限）、直接PostgreSQL（制御性は最高だが反復が遅い）、Supabase＋NocoDB（中間的選択として採用）。

目標は、過去の整理失敗を回避し、30〜60日以内に実態を統合的に把握することです。

📖 Read the full source: r/ClaudeAI

AIで1万件のブラジル不動産権利書を解き明かす：技術的ケーススタディ

プロジェクトの背景と課題

技術的アプローチ

👀 See Also

Telegram AIエージェントのiOSバックタップによる音声コマンド操作の摩擦軽減

ローカルLLMで『Slay the Spire 2』エージェントを構築：学びと未解決課題

開発者はBDMAアプローチを用いてClaude Codeでフライト比較ツールを構築します

OpenClawからCowork + Claude Codeへの移行：開発者の経験談