Componentes de um Agente de Codificação: Como Ferramentas, Memória e Contexto Estendem os LLMs

Sebastian Raschka descreve a arquitetura dos agentes de programação, que são sistemas que envolvem LLMs em camadas de aplicação para melhorar o desempenho em tarefas de codificação. Ele distingue entre LLMs, modelos de raciocínio e agentes, explicando que grande parte do progresso prático nos sistemas LLM vem dos componentes do sistema ao redor, e não apenas de modelos melhores.
Componentes Principais dos Agentes de Programação
O artigo identifica seis blocos de construção principais que tornam os agentes de programação eficazes:
- Contexto do repositório: Navegação e gerenciamento das informações do repositório de código
- Design de ferramentas: Integração de ferramentas e funções externas
- Estabilidade do cache de prompts: Gerenciamento consistente de prompts entre sessões
- Memória: Retenção de estado e continuidade da sessão
- Continuidade de sessões longas: Manutenção do contexto em interações prolongadas
- Escolha do modelo: Seleção do LLM ou modelo de raciocínio apropriado
Camadas da Arquitetura
Raschka define vários conceitos-chave no ecossistema de agentes:
- LLM: O modelo central de próximo token
- Modelo de raciocínio: Um LLM treinado ou instruído para gastar mais tempo de inferência no raciocínio intermediário, verificação ou busca por respostas candidatas
- Agente: Um loop de controle ao redor do modelo que decide o que inspecionar a seguir, quais ferramentas chamar, como atualizar seu estado e quando parar
- Agente de suporte: A estrutura de software ao redor de um agente que gerencia contexto, uso de ferramentas, prompts, estado e fluxo de controle
- Suporte de programação: Um caso especial de agente de suporte especificamente para engenharia de software que gerencia contexto de código, ferramentas, execução e feedback iterativo
Ele observa que Claude Code e Codex CLI podem ser considerados suportes de programação. A relação é descrita como: o LLM é o motor, um modelo de raciocínio é um motor reforçado, e um agente de suporte nos ajuda a usar o modelo de forma eficaz.
O trabalho de programação envolve mais do que apenas a geração do próximo token — requer navegação no repositório, busca, consulta de funções, aplicação de diffs, execução de testes, inspeção de erros e gerenciamento de contexto. Os suportes de programação combinam três camadas: a família de modelos, um loop de agente e suportes de tempo de execução.
📖 Leia a fonte completa: HN AI Agents
👀 See Also

Como Executar o OpenClaw Totalmente Local com Ollama
Uma postagem no Reddit descreve um processo para executar o OpenClaw completamente localmente, sem APIs em nuvem ou cobrança por token, usando Ollama e LLMFit para avaliar modelos locais.

VPS vs Máquina Dedicada: Onde Executar o OpenClaw
Nenhum

Fluxo de Trabalho de IA Estruturado com Comandos Baseados em Fases para Reduzir Retrabalho
Um desenvolvedor compartilha um fluxo de trabalho programável usando comandos específicos como /pwf-brainstorm e /pwf-work-plan para abordar problemas comuns de codificação com IA: perda de contexto, padrões quebrados e planejamento/execução misturados. A abordagem inclui atualizações obrigatórias de documentação e uma estrutura de projeto multi-raiz.

Executando um LLM de 1 Trilhão de Parâmetros Localmente em um Cluster AMD Ryzen AI Max+
A AMD demonstra a execução do modelo de código aberto Kimi K2.5 (375GB, 1 trilhão de parâmetros) em quatro sistemas Framework Desktop com processadores Ryzen AI Max+ 395 usando llama.cpp RPC. O guia aborda modificações no kernel TTM para 120GB de VRAM por nó e fornece duas opções de configuração: binários pré-construídos do Lemonade SDK ou instalação manual do ROCm 7.0.2.