Como Usar IA para Analisar 10.000 Títulos de Propriedade no Brasil

Contexto do Projeto e Problema

Uma empresa brasileira de imóveis herdou aproximadamente 10.000 títulos de propriedade em mais de 10 municípios, com décadas de gestão deficiente. Os dados incluem centenas de "contratos de gaveta" não registrados (vendas informais nunca protocoladas), vendas duplicadas das mesmas propriedades, contratos fraudulentos, procurações falsificadas, ocupações irregulares e aproximadamente 500 processos ativos, incluindo ações de usucapião, adjudicação compulsória, despejos, disputas por vendas duplicadas e 2 ações coletivas. O arquivo físico de documentos está parcialmente sob custódia da polícia como parte de uma investigação antiga.

Abordagem Técnica

A equipe (6 advogados + 3 operadores) decidiu não construir infraestrutura antecipadamente, optando por uma abordagem de descoberta inicial com assistência de IA. O plano envolve cinco etapas:

Etapa 1 - Digitalização física: Documentos organizados por município, digitalizados em lotes com convenção de nomenclatura: [município]_[tipo-documento]_[sequência] usando um scanner de documentos com ADF (alimentador automático de documentos).
Etapa 2 - OCR: Considerando Google Document AI, Mistral OCR 3, AWS Textract ou outras ferramentas. A equipe está pedindo feedback sobre ferramentas especificamente testadas em documentos de cartório latino-americanos degradados.
Etapa 3 - Descoberta: Alimentando a saída do OCR diretamente em ferramentas de IA com grandes janelas de contexto para análise aberta antes da configuração do banco de dados. Usando Gemini 3.1 Pro (no NotebookLM ou outra interface) para análise ampla em lote com prompts como "quais lotes parecem vinculados a mais de um comprador?", "sinalize contratos com datas incoerentes", "identifique agrupamentos de nomes ou atividades suspeitas" e "ajude-nos a ver problemas e soluções para o que não estamos enxergando". Executando Claude Projects em paralelo para análise semelhante.
Etapa 4 - Limpeza e padronização de dados: Normalizando dados brutos extraídos antes da inserção no banco de dados. Tratando nomes de municípios escritos de múltiplas formas ("B. Vista", "Bela Vista de GO", "Bela V. Goiás") para forma canônica, padronizando CPFs (números de identificação pessoal brasileiros) com e sem pontuação, corrigindo descrições inconsistentes de status de lotes para categorias enumeradas e correspondência aproximada de nomes de compradores com variações ortográficas. Ferramentas: Python + rapidfuzz para correspondência aproximada, API Claude para normalizar campos de texto livre em categorias. A equipe está perguntando se correspondência aproximada + normalização por LLM é suficiente para 10.000 registros com décadas de inconsistência ou se precisam de resolução de entidades mais rigorosa (ex: Dedupe.io).
Etapa 5 - Banco de dados: Stack escolhida: Supabase (PostgreSQL + pgvector) com NocoDB em cima. Três opções foram avaliadas: Airtable (mais fácil para começar, mas limitado em escala), PostgreSQL direto (mais controle, mas iteração mais lenta) e Supabase + NocoDB (escolhido como meio-termo).

O objetivo é obter uma imagem consolidada real em 30-60 dias, evitando as tentativas anteriores fracassadas de organização.

📖 Read the full source: r/ClaudeAI

Usando IA para Desembaraçar 10.000 Títulos de Propriedade Brasileiros: Um Estudo de Caso Técnico

Contexto do Projeto e Problema

Abordagem Técnica

👀 See Also

Execução Paralela para Agentes de IA Claude Alcançada com Abordagem de Sistema Distribuído

Fluxo de Trabalho do Claude Mobile: Brainstorm de Recursos no Telefone, Implementação Autônoma

Problema de Desvio de Contexto no Pipeline de LLM Local em Fluxos de Trabalho Agentes de Múltiplos Passos

Usuário do Reddit compartilha configuração do Claude Code para projetos de portfólio