SkillOpt: Optimierung von Markdown-Fähigkeitsdateien als trainierbare Parameter für KI-Agenten

SkillOpt ist ein neues Optimierungs-Framework, das Markdown-Skill-Dateien als trainierbare Parameter behandelt und die Ad-hoc-Skill-Bearbeitung, die viele Agent-Entwickler bereits durchführen, mit richtiger Optimierungsmethodik versieht. Das Papier (arxiv.org/pdf/2605.23904) formalisiert einen Prozess: Ein Frontier-Modell schlägt begrenzte Änderungen (Hinzufügen/Löschen/Ersetzen) an Markdown-Skill-Dateien vor, und jede Änderung wird gegen einen zurückgehaltenen Validierungssatz geprüft. Nur strikte Verbesserungen werden akzeptiert; Gleichstände werden abgelehnt, und abgelehnte Änderungen dienen als negatives Signal für nachfolgende Runden.
Wichtigste Erkenntnisse
- Konvergenz: Die besten Skills konvergieren mit 1 bis 4 akzeptierten Änderungen aus vielen weiteren Vorschlägen. Ein Änderungsbudget von 4 bis 8 pro Schritt funktioniert am besten; wenn die Obergrenze entfernt wird, bricht die Leistung ein.
- Skill-Größe: Der mediane endgültige Skill hat ~920 Tokens.
- Modellübertragung: Ein auf Codex optimierter Skill wurde ohne Änderung auf Claude Code übertragen und erzielte +59,7 auf SpreadsheetBench. GPT 4.1 Nano mit einem optimierten Skill erreichte in etwa die Leistung von Frontier-Modellen bei prozeduralen Benchmarks.
Einschränkungen
Das Validierungs-Gate erfordert einen automatischen Bewerter mit klaren korrekten Antworten. Dies funktioniert für Code und Tabellenkalkulationen, versagt jedoch bei allem Offenen.
Für wen es gedacht ist
Entwickler, die KI-Codierungsagenten bauen und Skill-Dateien systematisch optimieren möchten, anstatt sich auf manuelle Iteration oder Ad-hoc-Prompt-Engineering zu verlassen.
📖 Vollständige Quelle lesen: r/LocalLLaMA
👀 Siehe auch

Community-Patch fügt RTL-Sprachunterstützung zu Claude Desktop unter Windows hinzu
Ein Entwickler hat einen Patch erstellt, der ordnungsgemäße Unterstützung für rechts-nach-links-Sprachen in Claude Desktop unter Windows hinzufügt und damit die fehlerhafte Darstellung für Hebräisch, Arabisch und andere RTL-Sprachen behebt. Der Patch injiziert RTL-Erkennungslogik in den Renderer der Electron-App und enthält Backup- und Wiederherstellungsfunktionalität.

Multi-Agenten-Debatte-Ansatz verbessert die Denkqualität von LLMs
Ein Entwickler experimentierte mit einem Multi-Agenten-Debattenansatz unter Verwendung von CyrcloAI, bei dem verschiedene KI-Agenten Rollen wie Analyst, Kritiker und Synthetisierer übernehmen, um die Antworten der anderen zu kritisieren, bevor eine endgültige Antwort erstellt wird, was zu strukturierteren und durchdachteren Ergebnissen führt.
Hugging Face's Physik-Praktikant: Multi-Agent-Framework verdoppelt Gemini im CritPt-Benchmark
Hugging Face hat physics-intern veröffentlicht, ein Multi-Agenten-Framework für theoretische Physik, das die Leistung von Gemini-Modellen im CritPt-Benchmark verdoppelt und einen neuen SOTA-Wert im Vergleich zu GPT-5.5 Pro zu geringeren Kosten erreicht.

Entwickler baut KI-Framework mit 17 biologischen Prinzipien unter Verwendung von Claude Code
Ein Entwickler hat ein KI-Framework namens Cognitive Sparks erstellt, indem er 17 biologische Prinzipien wie Schwellenwertfeuerung und Hebb'sche Plastizität implementierte, basierend auf dem Buch 'Sparks of Genius' von 1999. Das gesamte Projekt – 22 Design-Dokumente und 3.300 Codezeilen – wurde an einem Tag mit Claude Code erstellt, ohne von Menschen geschriebenen Code.