TEMM1E v3.1.0: KI-Agent, der sich selbst durch Benutzerinteraktionen feinabstimmt

Was TEMM1E Eigen-Tune leistet

TEMM1Es Eigen-Tune-Engine erfasst jeden LLM-Aufruf als gelabelte Trainingsdaten, die normalerweise verworfen würden. Es bewertet die Antwortqualität anhand von Nutzerverhaltenssignalen (fortfahren, wiederholen, ablehnen), destilliert Wissen in ein lokales Modell via LoRA-Feinabstimmung und lässt Modelle durch statistische Schwellenwerte aufsteigen – alles ohne zusätzliche LLM-Kosten.

Technische Umsetzung

Das System nutzt eine 7-stufige Closed-Loop-Pipeline: Sammeln, Bewerten, Kuratieren, Trainieren, Evaluieren, Schatten, Überwachen. Jede Stufe hat mathematische Schwellenwerte:

SPRT (Wald, 1945) für den Aufstieg – eine schlechte Antwort kostet 19 gute, um sich zu erholen
CUSUM (Page, 1954) für Drift-Erkennung – erkennt 5% Genauigkeitsverluste in 38 Stichproben
Wilson-Score mit 99% Konfidenz für die Evaluation

Die Evaluation ist bewusst kostenlos: Embedding-Ähnlichkeit via lokalem Ollama-Modell (0$), Nutzerverhaltenssignale für Schattentests (0$), zweistufige Erkennung mit sofortigen Heuristiken plus semantischen Embeddings und mehrsprachige Ablehnungserkennung in 12 Sprachen.

Benchmark-Ergebnisse

Echte Destillation auf Apple M2 (16 GB RAM): SmolLM2-135M via LoRA feinabgestimmt mit 0,242% trainierbaren Parametern. Training: 100 Iterationen, Verlust von 2,45 auf 1,24 reduziert (49% Reduktion). Spitzenspeicher: 0,509 GB Training, 0,303 GB Inferenz. Basismodell berechnete fälschlich 72°F = '150°C', während das feinabgestimmte Modell nach dem Lernen aus 10 Beispielen korrekt '21,2°C' ausgab.

Hardwarebewusste Modellauswahl

Das System erkennt Hardware automatisch und empfiehlt Modelle:

SmolLM2-135M für Proof of Concept
Qwen2.5-1.5B für gute Balance
Phi-3.5-3.8B für hohe Qualität
Llama-3.1-8B für maximale Fähigkeiten

Konfigurieren mit /eigentune model oder automatisch belassen.

Einrichtung und Implementierung

Aktivieren mit einer Zeile in der Konfiguration: [eigentune] enabled = true. Das System übernimmt Sammlung, Qualitätsbewertung, Datensatzkuration, Feinabstimmung, Evaluation, Aufstieg und Überwachung. Jedes Scheitern fällt auf Cloud zurück – niemals Stille, niemals schlechter als zuvor.

Gebaut in Rust mit 18 Crates, 136 Tests in Eigen-Tune, 1.638 im gesamten Workspace, 0 Warnungen. Open Source unter MIT-Lizenz.

📖 Read the full source: r/openclaw

TEMM1E v3.1.0: KI-Agent, der sich selbst durch Benutzerinteraktionen feinabstimmt

Was TEMM1E Eigen-Tune leistet

Technische Umsetzung

Benchmark-Ergebnisse

Hardwarebewusste Modellauswahl

Einrichtung und Implementierung

👀 Siehe auch

Claudlytics: Selbst gehostetes Dashboard zur Verfolgung von Claude-Code-Token-Nutzung und Kosten

codebase-md: Tool generiert automatisch CLAUDE.md mit Git-Hook-Wartung

Claude Counter: Android-App verfolgt Claude-Nutzungslimits mit Echtzeit-Benachrichtigungen

OpenClaw implementiert Agent History Compression, um die Kontextnutzung zu reduzieren