UI und Server für Anthropics Natural Language Autoencoder auf llama.cpp

✍️ OpenClawRadar📅 Veröffentlicht: 13. Mai 2026🔗 Source
Ad

Anthropics erste Open-Weight-Modelle, die Natural Language Autoencoder (NLAs), sind Feinabstimmungen beliebter Open-Weight-Architekturen. Da sie die zugrunde liegende Modellarchitektur oder den Modellierungscode nicht ändern, ist die Inferenz mit llama.cpp unkompliziert. Ein Entwickler hat alle NLA-Funktionen – Aktivierungsextraktion, Aktivierungserklärung, Aktivierungsrekonstruktion und Steuerung durch Erklärungsbearbeitung – in einen benutzerdefinierten llama.cpp-Server integriert, gepaart mit einer Mikupad-Benutzeroberfläche für tokenweise Aktivierungserklärung und Steuerung.

Hauptfunktionen

  • Aktivierungsextraktion: Extrahiert interne Aktivierungen aus jeder Schicht des Basismodells.
  • Aktivierungserklärung: Liefert menschenlesbare Erklärungen für extrahierte Aktivierungen.
  • Aktivierungsrekonstruktion: Rekonstruiert Aktivierungen aus ihren Erklärungen.
  • Steuerung durch Erklärungsbearbeitung: Ändert Erklärungen und steuert die Modellausgabe entsprechend.
Ad

Technische Details

Der Server basiert auf llama.cpp und erfordert das gleichzeitige Laden von drei Modellen: das Basismodell, das Actor-Modell und das Critic-Modell. Dies ist ein speicherintensiver Aufbau. Der Entwickler arbeitet an einer LoRA-basierten Version, die das Laden eines einzigen Modells in den Speicher erlauben würde, wodurch der Speicherbedarf deutlich reduziert wird.

Die Mikupad-Benutzeroberfläche bietet eine tokenweise Schnittstelle für Aktivierungserklärung und Steuerung. Sie können überprüfen, welche Tokens bestimmte Merkmale aktivieren, und das Verhalten des Modells anpassen, indem Sie Erklärungen in Echtzeit bearbeiten.

Erste Schritte

Quellcode und Einrichtungsanweisungen sind auf Reddit verfügbar. Derzeit benötigen Sie die drei NLA-Modell-Checkpoints (Base, Actor, Critic) und müssen den benutzerdefinierten llama.cpp-Server kompilieren. Die LoRA-Version folgt in Kürze.

📖 Quelle: r/LocalLLaMA

Ad

👀 Siehe auch