TestThread: Open-Source-Testframework für KI-Agenten

✍️ OpenClawRadar📅 Veröffentlicht: 24. März 2026🔗 Source
TestThread: Open-Source-Testframework für KI-Agenten
Ad

Was TestThread leistet

TestThread ist ein Open-Source-Testframework, das speziell für KI-Agenten entwickelt wurde, ähnlich wie pytest für traditionellen Code funktioniert. Es adressiert das Problem, dass Agenten in der Produktion stillschweigend mit falschen Ausgaben, Halluzinationen oder fehlgeschlagenen Tool-Aufrufen brechen, die erst dann offensichtlich werden, wenn nachgelagerte Systeme abstürzen.

Hauptfunktionen

  • 4 Match-Typen inklusive semantischem Matching, bei dem die KI die Bedeutung bewertet und nicht nur den Text
  • KI-Diagnose bei Fehlern, die erklärt, warum Tests fehlgeschlagen sind, und Lösungsvorschläge macht
  • Regression-Erkennung, die markiert, wenn die Pass-Raten sinken
  • PII-Erkennung, die Tests automatisch als fehlgeschlagen markiert, wenn Agenten sensible Daten preisgeben
  • Trajektorie-Assertions, die Agentenschritte zusätzlich zu den endgültigen Ausgaben testen
  • CI/CD GitHub Action, die Tests bei jedem Push ausführt
  • Geplante Ausführungen in stündlichen, täglichen oder wöchentlichen Intervallen
  • Kostenschätzung pro Ausführung
Ad

Installation und Einrichtung

Installation über Paketmanager:

pip install testthread
npm install testthread

Das Framework umfasst eine Live-API, ein Dashboard und Python/JavaScript SDKs. Es ist Teil der Thread Suite neben Iron-Thread, das Ausgaben validiert, während TestThread das Verhalten testet.

Wie es funktioniert

Sie definieren, was Ihr Agent tun soll, führen ihn gegen Ihren Live-Endpunkt aus und erhalten Pass/Fail-Ergebnisse mit KI-gestützten Erklärungen für Fehler. Dieser Ansatz hilft, Probleme zu erkennen, bevor sie Produktionssysteme beeinträchtigen.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Entwicklung einer Programmiersprache mit Claude Code: Das Cutlet-Experiment
Werkzeuge

Entwicklung einer Programmiersprache mit Claude Code: Das Cutlet-Experiment

Ankur Sethi entwickelte in vier Wochen eine vollständige Programmiersprache namens Cutlet mithilfe von Claude Code, wobei die KI jede Codezeile generierte, während er sich auf Sicherheitsvorkehrungen und Tests konzentrierte. Die Sprache bietet dynamische Typisierung, vektorisierte Operationen und eine REPL und läuft auf macOS und Linux.

OpenClawRadar
Kontext CLI: Anmeldeinformations-Broker für KI-Codierungsagenten
Werkzeuge

Kontext CLI: Anmeldeinformations-Broker für KI-Codierungsagenten

Kontext CLI ist ein auf Go basierender Credential-Broker, der KI-Coding-Agenten kurzlebige Zugriffstoken anstelle von langlebigen API-Schlüsseln bereitstellt. Es nutzt RFC 8693 Token Exchange, streamt Audit-Logs für jeden Tool-Aufruf und funktioniert bereits heute mit Claude Code.

OpenClawRadar
soul.py fügt lokalen LLMs mit einem einfachen dateibasierten Ansatz persistente Speicherung hinzu
Werkzeuge

soul.py fügt lokalen LLMs mit einem einfachen dateibasierten Ansatz persistente Speicherung hinzu

soul.py ist eine Python-Bibliothek, die persistente Speicherung für beliebige LLMs hinzufügt, indem sie zwei Markdown-Dateien für Identität und Konversationsprotokollierung verwendet. Sie funktioniert mit Ollama-, OpenAI- und Anthropic-Modellen, ohne Datenbanken oder Server zu benötigen.

OpenClawRadar
Obsidian-Integration für Persistent Memory in OpenClaw und Claude Code
Werkzeuge

Obsidian-Integration für Persistent Memory in OpenClaw und Claude Code

Ein Reddit-Nutzer demonstriert, wie die Verbindung von OpenClaw und Claude Code mit einem Obsidian-Vault persistente Langzeiterinnerung über Sitzungen hinweg schafft. Das Setup verknüpft automatisch Erinnerungen, Kontext, Projektdateien und Notizen, wobei alle Instanzen bei Bedarf auf den gemeinsamen Speicher zugreifen können.

OpenClawRadar