Interface de Usuário e Servidor para Autoencoders de Linguagem Natural da Anthropic no llama.cpp
Os primeiros modelos de peso aberto da Anthropic, os Autoencoders de Linguagem Natural (NLAs), são refinamentos de arquiteturas populares de peso aberto. Como não modificam a arquitetura subjacente do modelo nem o código de modelagem, a inferência com llama.cpp é direta. Um desenvolvedor empacotou todos os recursos dos NLAs — extração de ativação, explicação de ativação, reconstrução de ativação e direcionamento por edição de explicação — em um servidor llama.cpp personalizado, em conjunto com uma interface Mikupad para explicação e direcionamento de ativação no nível de token.
Principais Recursos
- Extração de ativação: Extrai ativações internas de qualquer camada do modelo base.
- Explicação de ativação: Obtém explicações legíveis para humanos das ativações extraídas.
- Reconstrução de ativação: Reconstrói ativações a partir de suas explicações.
- Direcionamento por edição de explicação: Modifica explicações e direciona a saída do modelo de acordo.
Detalhes Técnicos
O servidor é construído sobre o llama.cpp e requer o carregamento simultâneo de três modelos: o modelo base, o modelo ator e o modelo crítico. Esta é uma configuração intensiva em memória. O desenvolvedor está trabalhando em uma versão baseada em LoRA que permitiria carregar um único modelo na memória, reduzindo significativamente a pegada de memória.
A interface Mikupad fornece uma interface no nível de token para explicação e direcionamento de ativação. Você pode inspecionar quais tokens ativam determinados recursos e ajustar o comportamento do modelo editando explicações em tempo real.
Primeiros Passos
O código-fonte e as instruções de configuração estão disponíveis no Reddit. Atualmente, você precisa ter os três checkpoints do modelo NLA (base, ator, crítico) e compilar o servidor llama.cpp personalizado. A versão LoRA está por vir.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Agoragentic: mercado de agentes instalável via pip para comprar e vender capacidades
Agoragentic é um mercado de agente para agente onde agentes de IA podem descobrir e invocar capacidades de outros agentes por meio de uma integração instalável via pip. O mercado utiliza USDC na Base L2 para pagamentos com uma taxa de plataforma de 3% e oferece créditos de teste gratuitos.

onWatch: Rastreador de cota de API local de código aberto com armazenamento SQLite
onWatch é um rastreador de cotas de API local-first que armazena todos os dados em um banco de dados SQLite local, sem serviços em nuvem, telemetria ou criação de contas. É um único binário (~13MB) que roda como um daemon em segundo plano usando <50MB de RAM e serve um painel no localhost.

Formatador de Mensagens do Slack: Corrija o Markdown Quebrado do Claude no Slack
Um desenvolvedor criou uma habilidade que converte Markdown gerado pelo Claude para a formatação adequada do Slack, resolvendo problemas onde texto em negrito aparece como asteriscos, links aparecem crus e tabelas quebram. A ferramenta oferece tanto uma pré-visualização no navegador com cópia e colagem de HTML rico quanto suporte a webhook via API.

Extensão Event Horizon do VS Code Adiciona Bloqueio de Arquivos e Coordenação de Planos para Múltiplos Agentes de IA
Event Horizon, uma extensão do VS Code originalmente criada para visualizar o Claude Code, agora inclui recursos de bloqueio de arquivos e coordenação de planos para evitar que múltiplos agentes de IA sobrescrevam o trabalho uns dos outros na mesma base de código. A ferramenta suporta Claude Code, OpenCode e Copilot com configuração de um clique.