Interface utilisateur et serveur pour les autoencodeurs en langage naturel d'Anthropic sur llama.cpp

✍️ OpenClawRadar📅 Publié: May 13, 2026🔗 Source
Ad

Les premiers modèles à poids ouverts d'Anthropic, les autoencodeurs en langage naturel (NLA), sont des versions affinées d'architectures populaires à poids ouverts. Comme ils ne modifient ni l'architecture sous-jacente du modèle ni le code de modélisation, l'inférence avec llama.cpp est simple. Un développeur a regroupé toutes les fonctionnalités des NLA — extraction d'activations, explication d'activations, reconstruction d'activations et guidage par édition d'explications — dans un serveur llama.cpp personnalisé, associé à une interface Mikupad pour l'explication et le guidage des activations au niveau des tokens.

Fonctionnalités clés

  • Extraction d'activations : Extraire les activations internes de n'importe quelle couche du modèle de base.
  • Explication d'activations : Obtenir des explications lisibles par l'homme pour les activations extraites.
  • Reconstruction d'activations : Reconstruire les activations à partir de leurs explications.
  • Guidage par édition d'explications : Modifier les explications et orienter la sortie du modèle en conséquence.
Ad

Détails techniques

Le serveur est construit sur llama.cpp et nécessite le chargement simultané de trois modèles : le modèle de base, le modèle acteur et le modèle critique. Il s'agit d'une configuration gourmande en mémoire. Le développeur travaille sur une version basée sur LoRA qui permettrait de charger un seul modèle en mémoire, réduisant ainsi considérablement l'empreinte.

L'interface Mikupad offre une interface au niveau des tokens pour l'explication et le guidage des activations. Vous pouvez inspecter quels tokens activent certaines caractéristiques et ajuster le comportement du modèle en éditant les explications en temps réel.

Pour commencer

Le code source et les instructions d'installation sont disponibles sur Reddit. Actuellement, vous devez disposer des trois points de contrôle du modèle NLA (base, acteur, critique) et compiler le serveur llama.cpp personnalisé. La version LoRA est à venir.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

Système Open Source Capture les Modèles de Code Claude dans une Documentation Évolutive
Tools

Système Open Source Capture les Modèles de Code Claude dans une Documentation Évolutive

Le développeur Lee Fuhr a publié trois dépôts open source qui capturent et codifient systématiquement les apprentissages issus du travail avec Claude Code. Le système comprend un document méthodologique avec 14 principes et 19 modèles, un cadre de classification d'architecture, et un système de mémoire avec 149 fonctionnalités.

OpenClawRadar
Centre de Sessions d'Agent IA : Tableau de bord 3D pour la surveillance des sessions de code Claude
Tools

Centre de Sessions d'Agent IA : Tableau de bord 3D pour la surveillance des sessions de code Claude

Le Centre de Sessions d'Agents IA est un tableau de bord en temps réel qui visualise les sessions Claude Code sous forme de robots 3D dans un cyberdrome, avec des animations montrant l'état des agents et des fonctionnalités incluant des vues terminal en direct, des alertes d'approbation et la reprise de session. Il s'installe via npx avec des hooks bash légers.

OpenClawRadar
Microsoft BitNet : un framework d'inférence LLM 1-bit pour CPU et GPU
Tools

Microsoft BitNet : un framework d'inférence LLM 1-bit pour CPU et GPU

Microsoft a publié BitNet, un framework d'inférence pour les LLM 1-bit qui permet des accélérations de 1,37x à 6,17x sur les CPU et réduit la consommation d'énergie de 55,4% à 82,2%. Il peut exécuter un modèle de 100 milliards de paramètres sur un seul CPU à une vitesse de 5 à 7 tokens par seconde.

OpenClawRadar
Pilot Shell : Une couche de workflow structurée pour Claude Code
Tools

Pilot Shell : Une couche de workflow structurée pour Claude Code

Pilot Shell ajoute des workflows pilotés par les spécifications, des hooks de qualité, de l'ingénierie de contexte et une optimisation des tokens à Claude Code — sans la complexité des frameworks multi-agents.

OpenClawRadar