Spec27: Spezifikationsgesteuerte Validierung für KI-Agenten – API-Level-Tests ohne internen Zugriff

Safe Intelligence hat Spec27 gestartet, ein spezifikationsgesteuertes Validierungstool für KI-Agenten. Im Gegensatz zu traditionellen LLM-Evaluierungs-Frameworks, die allgemeines Modellverhalten bewerten, ermöglicht Spec27 Teams, wiederverwendbare Spezifikationen für die spezifische Aufgabe zu definieren, die ein Agent erfüllen muss. Tests werden automatisch aus diesen Spezifikationen generiert und nur gegen die primären Schnittstellen des Agenten ausgeführt — ohne Annahmen über den internen Stack, ohne SDKs oder Gateways.
Hauptmerkmale
- Outside-in-Testing: Alle Tests werden gegen die exponierte API oder UI des Agenten ausgeführt. Es ist nicht nötig, die Interna des Agenten zu instrumentieren, was entscheidend für Agenten ist, die auf Vendor-Plattformen aufbauen, bei denen der Stack nicht kontrolliert wird.
- Spezifikationsgesteuerte Testgenerierung: Definiere Spezifikationen in Bezug auf erwartetes Verhalten (z. B. „wenn nach X gefragt, muss Y tun und Z nicht tun“). Spec27 generiert automatisch adversarielle und Robustheitsprüfungen und zeigt Empfindlichkeiten und Regressionen, wenn Modelle, Prompts oder Tools geändert werden.
- Früher Zugang: Derzeit am stärksten für Single-Turn-Agenten- und Anwendungsvalidierung. Multi-Turn-Interaktionen und umfangreichere Telemetrie-/Tool-Call-Integration sind in der Roadmap.
Für wen ist es gedacht
Teams, die interne Agenten, Vendor-Agenten oder KI-Systeme einsetzen, bei denen Zuverlässigkeit wichtiger ist als Benchmark-Ergebnisse. Wenn du Agenten auf Plattformen testest, die keine Interna preisgeben, adressiert Spec27s Black-Box-Ansatz direkt diese Lücke.
Erste Schritte
Spec27 ist offen für eine Testphase für HN-Leser. Die Startseite bietet einen Beispielworkflow, den du ohne Einrichtung erkunden kannst. Melde dich an unter spec27.ai/launch.
📖 Lese die vollständige Quelle: HN AI Agents
👀 Siehe auch

Reddit-Nutzer testet Selbstlernfunktion von Hermes-KI-Agent und findet kritische Mängel
Ein Reddit-Nutzer testete die Selbstlernfunktion des Hermes KI-Agents, die automatisch Fähigkeiten aus Markdown-Dateien erstellt. Der Nutzer stellte fest, dass es seine eigenen Ergebnisse immer als erfolgreich bewertet, selbst wenn die Ausgabe falsch ist, und manuelle Bearbeitungen überschreibt.

Claude Cowork vs OpenClaw: Wo die Ersatz-Narrative zutrifft und wo nicht
Claude Cowork bietet persistente Desktop-Sitzungen mit geringer Reibung, während OpenClaw Vorteile bei der Systemautomatisierung, Skill-Ökosystemen und der Workflow-Steuerung beibehält.
Multi-Agent-Speicher: Open-Source-Gemeinschaftsspeichersystem für KI-Agenten
Multi-Agent Memory ist ein Open-Source-Projekt, das ein gemeinsames Speichersystem für KI-Agenten über verschiedene Maschinen, Tools und Frameworks hinweg bereitstellt. Es unterstützt vier verschiedene Speichertypen mit spezifischen Verhaltensweisen und umfasst Funktionen wie Bereinigung von Zugangsdaten, Agenten-Isolation und KI-Konsolidierung.

TasteBud-Gedächtnis: Reversible Agentenerinnerung durch hyperdimensionale Berechnung
Ein 600-zeiliges Node.js-Tool nutzt hyperdimensionale Berechnung, um eine reversible Gedächtnisschicht für KI-Agenten zu schaffen. Es unterstützt verlustfreie Dekodierung, Drifterkennung und Benachrichtigungen über unbekannte Projekte.