LLMs Geram SQL: Analise TB de Logs de CI em Segundos

O agente de IA da Mendral rastreou um teste instável até uma atualização de dependência de três semanas antes, escrevendo suas próprias consultas SQL, examinando centenas de milhões de linhas de log em uma dúzia de consultas e seguindo um rastro dos metadados do trabalho até a saída bruta do log. Toda a investigação levou segundos.

Toda semana, cerca de 1,5 bilhão de linhas de log de CI e 700 mil trabalhos fluem pelo sistema. Tudo isso é armazenado no ClickHouse, comprimido em 35:1. Tudo isso pode ser consultado em milissegundos.

Interface SQL para o agente

Eles expõem uma interface SQL para o agente, limitada à organização que está sendo investigada. O agente constrói suas próprias consultas com base na pergunta. Sem biblioteca de consultas predefinidas, sem API de ferramentas rígida. Uma API de ferramentas restrita como get_failure_rate(workflow, days) limitaria o agente a perguntas antecipadas. Uma interface SQL permite que ele faça perguntas nunca pensadas, o que importa ao depurar falhas novas.

O agente consulta dois alvos principais:

Metadados do trabalho: uma visualização materializada com uma linha por execução de trabalho de CI. O agente usa isso 63% do tempo para perguntas como "com que frequência isso falha?", "qual é a taxa de sucesso?", "quais trabalhos são mais lentos?", "quando isso começou a falhar?"
Linhas de log brutas: uma linha por linha de log. O agente usa isso 37% do tempo para perguntas como "mostre-me a saída de erro para este trabalho", "quando esse padrão de log apareceu pela primeira vez?", "com que frequência essa mensagem de erro ocorre em várias execuções?"

Padrões de consulta e escala

Eles analisaram 8.534 sessões do agente e 52.312 consultas de seu pipeline de observabilidade. O agente não para em uma consulta. Ele investiga - começa amplo e depois aprofunda.

Total de linhas examinadas em todas as consultas para responder a uma pergunta:

Pergunta típica: 335 mil linhas em cerca de 3 consultas
P75: 5,2 milhões de linhas
P95: 940 milhões de linhas
Sessões mais pesadas de log bruto examinam 4,3 bilhões de linhas

O agente faz em média 4,4 consultas por sessão. Uma investigação típica começa com metadados do trabalho (consultas baratas, mediana de 47 mil linhas) contra uma visualização materializada compacta e pré-agregada. Quando encontra algo interessante, aprofunda-se nos logs brutos (consultas caras, mediana de 1,1 milhão de linhas).

Arquitetura de dados

Para o agente consultar tão rápido, os dados precisam ser estruturados para ele. Até 300 milhões de linhas de log fluem em um dia movimentado. Eles usam ClickHouse.

Cada linha de log carrega 48 colunas de metadados: o contexto completo da execução de CI à qual pertence. SHA do commit, autor, branch, título do PR, nome do fluxo de trabalho, nome do trabalho, nome da etapa, informações do executor, timestamps e mais.

No formato colunar do ClickHouse, desnormalizar 48 colunas em cada linha de log é praticamente gratuito. Uma coluna como commit_message tem o mesmo valor para cada linha de log em uma execução de CI, e uma única execução pode produzir milhares de linhas de log. O ClickHouse armazena esses milhares de valores idênticos em sequência. O algoritmo de compressão vê a repetição e a comprime para quase nada.

Taxas de compressão: