Os LLMs geram consultas SQL para analisar terabytes de logs de CI em segundos.

O agente de IA da Mendral rastreou um teste instável até uma atualização de dependência de três semanas antes, escrevendo suas próprias consultas SQL, examinando centenas de milhões de linhas de log em uma dúzia de consultas e seguindo um rastro dos metadados do trabalho até a saída bruta do log. Toda a investigação levou segundos.
Toda semana, cerca de 1,5 bilhão de linhas de log de CI e 700 mil trabalhos fluem pelo sistema. Tudo isso é armazenado no ClickHouse, comprimido em 35:1. Tudo isso pode ser consultado em milissegundos.
Interface SQL para o agente
Eles expõem uma interface SQL para o agente, limitada à organização que está sendo investigada. O agente constrói suas próprias consultas com base na pergunta. Sem biblioteca de consultas predefinidas, sem API de ferramentas rígida. Uma API de ferramentas restrita como get_failure_rate(workflow, days) limitaria o agente a perguntas antecipadas. Uma interface SQL permite que ele faça perguntas nunca pensadas, o que importa ao depurar falhas novas.
O agente consulta dois alvos principais:
- Metadados do trabalho: uma visualização materializada com uma linha por execução de trabalho de CI. O agente usa isso 63% do tempo para perguntas como "com que frequência isso falha?", "qual é a taxa de sucesso?", "quais trabalhos são mais lentos?", "quando isso começou a falhar?"
- Linhas de log brutas: uma linha por linha de log. O agente usa isso 37% do tempo para perguntas como "mostre-me a saída de erro para este trabalho", "quando esse padrão de log apareceu pela primeira vez?", "com que frequência essa mensagem de erro ocorre em várias execuções?"
Padrões de consulta e escala
Eles analisaram 8.534 sessões do agente e 52.312 consultas de seu pipeline de observabilidade. O agente não para em uma consulta. Ele investiga - começa amplo e depois aprofunda.
Total de linhas examinadas em todas as consultas para responder a uma pergunta:
- Pergunta típica: 335 mil linhas em cerca de 3 consultas
- P75: 5,2 milhões de linhas
- P95: 940 milhões de linhas
- Sessões mais pesadas de log bruto examinam 4,3 bilhões de linhas
O agente faz em média 4,4 consultas por sessão. Uma investigação típica começa com metadados do trabalho (consultas baratas, mediana de 47 mil linhas) contra uma visualização materializada compacta e pré-agregada. Quando encontra algo interessante, aprofunda-se nos logs brutos (consultas caras, mediana de 1,1 milhão de linhas).
Arquitetura de dados
Para o agente consultar tão rápido, os dados precisam ser estruturados para ele. Até 300 milhões de linhas de log fluem em um dia movimentado. Eles usam ClickHouse.
Cada linha de log carrega 48 colunas de metadados: o contexto completo da execução de CI à qual pertence. SHA do commit, autor, branch, título do PR, nome do fluxo de trabalho, nome do trabalho, nome da etapa, informações do executor, timestamps e mais.
No formato colunar do ClickHouse, desnormalizar 48 colunas em cada linha de log é praticamente gratuito. Uma coluna como commit_message tem o mesmo valor para cada linha de log em uma execução de CI, e uma única execução pode produzir milhares de linhas de log. O ClickHouse armazena esses milhares de valores idênticos em sequência. O algoritmo de compressão vê a repetição e a comprime para quase nada.
Taxas de compressão:
commit_message: 301:1display_title: 160:1workflow_path: 79:1step_name: 52:1job_name: 48:1
Sem desnormalização, cada consulta exigiria uma junção. Com ela, todas são filtros simples.
📖 Leia a fonte completa: HN LLM Tools
👀 See Also

Um prompt que encontra, envia e-mails e registra 200 contatos de investidores via Claude Code
Um único prompt para o Claude Code ou qualquer agente de IA vasculha investidores, verifica duplicatas no Gmail/Notion, envia e-mails frios personalizados via SMTP e registra tudo no Notion — tudo de forma autônoma.

Desacoplar a Narrativa do Rastreamento de Estado Corrige a Amnésia de Aventuras de Texto de IA
Um desenvolvedor criou um mecanismo de simulação com estado onde o PostgreSQL rastreia o estado do jogo e os LLMs apenas geram texto narrativo após mudanças de estado, evitando alucinações de inventário e perda de enredo.

Claude Code no Fluxo de Trabalho de Pesquisa: Resultados Práticos da Redação de Artigos
Um pesquisador utilizou o Claude Code para tarefas auxiliares durante a redação de um artigo, descobrindo que ele foi eficaz na geração de figuras prontas para publicação a partir de instruções vagas, na migração de um ambiente de pesquisa entre bases de código em menos de uma hora e na formatação de mais de 12 páginas de provas matemáticas em LaTeX, onde identificou uma condição de limite incompleta que havia passado despercebida. Ele teve dificuldades para depurar um problema de concorrência que, na verdade, era uma questão de alocação de CPU não evidente no código ou nos logs.

Como um Bug no useEffect do React Causou Feedback Háptico Aleatório e Prejudicou a Retenção do Aplicativo
Um desenvolvedor ignorou por meses os relatos de usuários sobre vibrações aleatórias no aplicativo, apenas para descobrir que um problema de dependência do React useEffect estava causando feedback háptico constante em dispositivos de médio porte, fazendo a retenção de 7 dias cair de 35% para 18%.