TEMM1E v3.1.0: KI-Agent, der sich selbst durch Benutzerinteraktionen feinabstimmt

Was TEMM1E Eigen-Tune leistet
TEMM1Es Eigen-Tune-Engine erfasst jeden LLM-Aufruf als gelabelte Trainingsdaten, die normalerweise verworfen würden. Es bewertet die Antwortqualität anhand von Nutzerverhaltenssignalen (fortfahren, wiederholen, ablehnen), destilliert Wissen in ein lokales Modell via LoRA-Feinabstimmung und lässt Modelle durch statistische Schwellenwerte aufsteigen – alles ohne zusätzliche LLM-Kosten.
Technische Umsetzung
Das System nutzt eine 7-stufige Closed-Loop-Pipeline: Sammeln, Bewerten, Kuratieren, Trainieren, Evaluieren, Schatten, Überwachen. Jede Stufe hat mathematische Schwellenwerte:
- SPRT (Wald, 1945) für den Aufstieg – eine schlechte Antwort kostet 19 gute, um sich zu erholen
- CUSUM (Page, 1954) für Drift-Erkennung – erkennt 5% Genauigkeitsverluste in 38 Stichproben
- Wilson-Score mit 99% Konfidenz für die Evaluation
Die Evaluation ist bewusst kostenlos: Embedding-Ähnlichkeit via lokalem Ollama-Modell (0$), Nutzerverhaltenssignale für Schattentests (0$), zweistufige Erkennung mit sofortigen Heuristiken plus semantischen Embeddings und mehrsprachige Ablehnungserkennung in 12 Sprachen.
Benchmark-Ergebnisse
Echte Destillation auf Apple M2 (16 GB RAM): SmolLM2-135M via LoRA feinabgestimmt mit 0,242% trainierbaren Parametern. Training: 100 Iterationen, Verlust von 2,45 auf 1,24 reduziert (49% Reduktion). Spitzenspeicher: 0,509 GB Training, 0,303 GB Inferenz. Basismodell berechnete fälschlich 72°F = '150°C', während das feinabgestimmte Modell nach dem Lernen aus 10 Beispielen korrekt '21,2°C' ausgab.
Hardwarebewusste Modellauswahl
Das System erkennt Hardware automatisch und empfiehlt Modelle:
- SmolLM2-135M für Proof of Concept
- Qwen2.5-1.5B für gute Balance
- Phi-3.5-3.8B für hohe Qualität
- Llama-3.1-8B für maximale Fähigkeiten
Konfigurieren mit /eigentune model oder automatisch belassen.
Einrichtung und Implementierung
Aktivieren mit einer Zeile in der Konfiguration: [eigentune] enabled = true. Das System übernimmt Sammlung, Qualitätsbewertung, Datensatzkuration, Feinabstimmung, Evaluation, Aufstieg und Überwachung. Jedes Scheitern fällt auf Cloud zurück – niemals Stille, niemals schlechter als zuvor.
Gebaut in Rust mit 18 Crates, 136 Tests in Eigen-Tune, 1.638 im gesamten Workspace, 0 Warnungen. Open Source unter MIT-Lizenz.
📖 Read the full source: r/openclaw
👀 Siehe auch

Claudlytics: Selbst gehostetes Dashboard zur Verfolgung von Claude-Code-Token-Nutzung und Kosten
Claudlytics ist ein Node.js-Webserver, der lokale .jsonl-Sitzungsdateien von Claude Code liest, um die Token-Nutzung und Kosten in Echtzeit zu verfolgen. Er läuft lokal auf 127.0.0.1 und kann über einen SSH-Tunnel für Remote-Server zugänglich gemacht werden.

codebase-md: Tool generiert automatisch CLAUDE.md mit Git-Hook-Wartung
codebase-md v0.1.0 scannt Projekte, um CLAUDE.md-Dateien mit Architekturerkennung, Abhängigkeitsgesundheitsprüfungen und Git-Einblicken zu generieren. Es enthält Git-Hooks, um die Dokumentation aktuell zu halten, und unterstützt andere KI-Codierungstools mit zusätzlichen Konfigurationsdateien.

Claude Counter: Android-App verfolgt Claude-Nutzungslimits mit Echtzeit-Benachrichtigungen
Ein Entwickler hat Claude Counter erstellt, eine kostenlose Android-App, die die API von Claude abfragt, um Live-Sitzungs- und wöchentliche Nutzungslimits anzuzeigen. Die App zeigt Fortschrittsbalken, bietet umfangreiche Benachrichtigungen mit verbleibenden Prozentsätzen und warnt, wenn Limits zurückgesetzt werden.

OpenClaw implementiert Agent History Compression, um die Kontextnutzung zu reduzieren
OpenClaw komprimiert nun den Agentenverlauf, indem abgeschlossene Teilaufgabenprotokolle durch strukturierte Zusammenfassungen ersetzt werden, wodurch ~1 Million Token auf ~30.000 reduziert werden. Das System nutzt einen 4-Pass-Scanner, um Aufgabenlebenszyklen zu identifizieren, und erstellt maskierte Zusammenfassungen, die die Agentenkompatibilität beibehalten.