Spec27: AI 에이전트를 위한 스펙 기반 검증 – 내부 접근 없이 API 레벨 테스트

Safe Intelligence가 AI 에이전트를 위한 스펙 기반 검증 도구인 Spec27을 출시했습니다. 일반적인 모델 동작을 평가하는 전통적인 LLM 평가 프레임워크와 달리, Spec27은 팀이 에이전트가 수행해야 하는 특정 임무에 대해 재사용 가능한 스펙을 정의할 수 있게 합니다. 테스트는 해당 스펙에서 자동으로 생성되며, 에이전트의 기본 인터페이스에 대해서만 실행됩니다. 내부 스택에 대한 가정이나 SDK 또는 게이트웨이가 필요하지 않습니다.
주요 기능
- 외부에서 내부로 테스트: 모든 테스트는 에이전트의 노출된 API 또는 UI에 대해 실행됩니다. 에이전트 내부를 계측할 필요가 없으며, 이는 스택을 제어할 수 없는 벤더 플랫폼에서 구축된 에이전트에 중요합니다.
- 스펙 기반 테스트 생성: 예상 동작(예: "X를 물었을 때, Y를 수행하고 Z를 하지 않아야 함")으로 스펙을 정의합니다. Spec27은 자동으로 적대적 검사와 견고성 검사를 생성하여 모델, 프롬프트 또는 도구가 변경될 때 민감도와 회귀를 표면화합니다.
- 초기 액세스: 현재 단일 턴 에이전트 및 애플리케이션 검증에 가장 강력합니다. 다중 턴 상호작용과 더 풍부한 텔레메트리/도구 호출 통합은 로드맵에 있습니다.
대상 사용자
내부 에이전트, 벤더 에이전트 또는 벤치마크 점수보다 안정성이 더 중요한 AI 시스템을 배포하는 팀. 내부를 노출하지 않는 플랫폼에서 에이전트를 테스트하는 경우, Spec27의 블랙박스 접근 방식이 그 격차를 직접 해결합니다.
시작하기
Spec27은 HN 독자들이 사용해 볼 수 있도록 공개되었습니다. 런칭 사이트에서는 설정 없이 탐색할 수 있는 샘플 흐름을 제공합니다. spec27.ai/launch에서 가입하세요.
📖 전체 출처 읽기: HN AI Agents
👀 See Also

mcp-optimizer는 Claude Code에서 유휴 상태의 MCP 서버로 인한 토큰 낭비를 줄여줍니다.
mcp-optimizer는 Claude Code에서 MCP 서버 사용 시 발생하는 토큰 낭비 문제를 해결하는 플러그인입니다. 이 플러그인은 도구 사용 패턴을 분석하고 최적화된 구성을 생성합니다. 네 가지 유틸리티를 포함하고 있습니다: 서버 상태 점검용 mcp-doctor, 사용 분석용 mcp-audit, 프로젝트별 최적 구성 생성용 mcp-optimize, 그리고 도구를 주문형 Skills로 변환하는 mcp-to-skills입니다.

포켓봇: iOS 앱이 자연어로부터 결정론적 JavaScript 자동화를 생성하기 위해 Claude를 사용합니다
PocketBot은 AWS Bedrock을 통해 Claude를 활용하여 일반 언어 요청을 독립적인 JavaScript 스크립트로 변환하는 iOS 모바일 자동화 앱입니다. LLM이 코드를 한 번 작성하면, 결정론적 스크립트가 AI 개입 없이 샌드박스 런타임에서 예약 실행됩니다.

OMAR: 수백 개의 AI 코딩 에이전트를 계층적으로 관리하는 오픈소스 TUI
OMAR는 터미널 기반 대시보드로, 계층적 조직에서 코딩 에이전트(Claude Code, Codex, Cursor, Opencode) 무리를 관리할 수 있습니다. tmux 기반으로 구축되었으며, 에이전트가 에이전트를 관리하는 계층 구조, 이기종 백엔드, Slack 통합을 특징으로 합니다.

지문 인식의 AI 에이전트 개발자를 위한 무료 웹 봇 인증 테스트 도구
Fingerprint가 Web Bot Auth 구현을 테스트하기 위한 무료 공개 엔드포인트를 출시했습니다. 이 도구는 HTTP 요청의 암호화 서명을 검증하여 봇 및 AI 에이전트 개발자가 프로덕션 환경에 배포하기 전에 WBA 설정이 올바르게 작동하는지 확인할 수 있도록 돕습니다.