Título: Spec27: Validação Orientada por Spec para Agentes de IA – Testes em Nível de API Sem Acesso Interno

A Safe Intelligence lançou o Spec27, uma ferramenta de validação orientada por especificações para agentes de IA. Diferente de frameworks tradicionais de avaliação de LLM que pontuam o comportamento geral do modelo, o Spec27 permite que as equipes definam especificações reutilizáveis para a missão específica que um agente deve cumprir. Os testes são gerados automaticamente a partir dessas especificações e executados apenas nas interfaces primárias do agente — sem suposições sobre a pilha interna, sem necessidade de SDKs ou gateways.
Principais Recursos
- Testes de fora para dentro: Todos os testes são executados contra a API ou interface de usuário exposta do agente. Não é necessário instrumentar os componentes internos do agente, o que é crucial para agentes construídos em plataformas de terceiros onde você não controla a pilha.
- Geração de testes orientada por especificações: Defina especificações em termos de comportamento esperado (por exemplo, “quando perguntado X, deve fazer Y e não Z”). O Spec27 gera automaticamente verificações adversariais e de robustez, revelando sensibilidades e regressões à medida que modelos, prompts ou ferramentas mudam.
- Acesso antecipado: Atualmente mais forte para validação de agentes e aplicações de interação única. Interações de múltiplas etapas e integração mais rica de telemetria/chamadas de ferramentas estão no roteiro.
Para Quem É
Equipes que implantam agentes internos, agentes de terceiros ou qualquer sistema de IA onde a confiabilidade importa mais do que pontuações de benchmark. Se você está testando agentes em plataformas que não expõem componentes internos, a abordagem de caixa-preta do Spec27 aborda diretamente essa lacuna.
Primeiros Passos
O Spec27 está aberto para teste por leitores do HN. O site de lançamento oferece um fluxo de amostra para que você possa explorar sem configuração. Cadastre-se em spec27.ai/launch.
📖 Leia a fonte completa: HN AI Agents
👀 See Also

ExposureGuard MCP Server Adiciona Varredura de Segurança de Domínio ao Claude Desktop
Um desenvolvedor criou um servidor MCP para verificação de segurança de domínios usando o Claude Code, expondo quatro ferramentas que verificam SPF, DMARC, SSL, cabeçalhos de segurança, DNSSEC, portas abertas, MX e HTTPS. O servidor está disponível via pip install exposureguard-mcp com um plano gratuito de 100 chamadas de API por dia.

Dominando os Modos de Assinatura da Antropic: Haiku, Sonnet e Opus
Explore os modos de assinatura inovadores da Antropic—Haiku, Sonnet e Opus—projetados para aprimorar sua experiência de codificação com IA com recursos e preços personalizados.

AIsbf 0.9.8 adiciona cache, melhorias de roteamento e suporte expandido a serviços de IA.
AIsbf 0.9.8 é um proxy/roteador de API que expõe uma interface compatível com OpenAI para múltiplos serviços de IA. Esta versão adiciona cache com Redis, SQLite, MySQL e baseado em arquivos, roteamento semântico aprimorado e suporte completo a OAuth2 para assinantes do Claude.ai, Amazon Kiro-cli, OpenAI Codex e Kilo.ai.

Servidor MCP Conecta Claude ao Inventário de Vinhos do CellarTracker
Um desenvolvedor criou um servidor MCP que conecta o Claude diretamente a contas do CellarTracker, permitindo consultas conversacionais sobre inventário de vinhos, notas de degustação, histórico de compras e janelas de consumo sem exportações manuais de CSV.