DeepSeek-V4-Flash rend le pilotage des LLM pratique pour les modèles locaux

Le dernier article de Seen Goedecke soutient que DeepSeek-V4-Flash change la donne pour le guidage des LLM — la technique qui consiste à manipuler les activations du modèle en cours d'inférence pour orienter les sorties. Le moteur clé est DwarfStar, un fork allégé de llama.cpp par antirez qui exécute uniquement DeepSeek-V4-Flash et intègre le guidage comme fonctionnalité de première classe.
Qu'est-ce que le guidage ?
Le guidage extrait un concept (comme « répondre de manière laconique ») des activations internes du modèle. Une méthode : fournir une centaine d'invites deux fois — une fois normalement, une fois avec « répondre de manière laconique » ajouté — puis soustraire les matrices d'activation pour obtenir un vecteur de guidage. Ajoutez ce vecteur aux activations de n'importe quelle invite et le modèle devient laconique. Une approche plus avancée utilise des autoencodeurs parcimonieux (comme ceux d'Anthropic) pour apprendre des motifs de caractéristiques, à un coût plus élevé.
Pourquoi c'est important
Le guidage promet un contrôle direct sur le comportement du modèle sans ingénierie d'invite. Au lieu d'écrire des qualificatifs « vous DEVEZ », vous auriez un curseur pour la concision ou la conscience. C'est aussi fascinant du point de vue de l'interprétabilité — pensez à la fixation du Golden Gate Claude, mais que vous pouvez ajuster.
Pourquoi pas avant ?
Le guidage a été une idée de classe moyenne : trop grossière pour les grands laboratoires (ils se contentent de réentraîner le modèle) et inaccessible aux utilisateurs d'API (pas d'accès aux poids ou aux activations). Les modèles à poids ouverts étaient trop faibles pour s'en embêter — jusqu'à DeepSeek-V4-Flash, qui est suffisamment puissant pour le codage agentique. Même alors, l'ingénierie d'invite l'emporte souvent sur le guidage pour des traits simples comme la verbosité ; le vrai gain est de guider un concept non invitable comme l'intelligence.
Goedecke prévoit de suivre DwarfStar de près. Au moment de la rédaction, son support du guidage est rudimentaire (juste un bouton de verbosité similaire à l'ingénierie d'invite), mais la version datait de seulement huit jours.
📖 Read the full source: HN LLM Tools
👀 See Also

OpenClaw organise son premier AMA : aperçu des agents de codage IA
OpenClaw, une figure éminente parmi les agents d'IA pour le codage, a organisé son premier AMA sur Reddit. La discussion a mis en lumière ses impacts, ses projets futurs et les défis rencontrés.

Psychiatre à Melbourne refuse de nouveaux patients qui ne consentent pas à la prise de notes par IA
Un psychiatre de Melbourne exige désormais que les nouveaux patients acceptent la transcription par IA des séances, sous peine d'être redirigés ailleurs, soulevant des problèmes de sécurité des données et de précision.

Compte Google suspendu après une tentative d'intégration d'OpenClaw
Le compte Google tout neuf d'un développeur a été suspendu dans les 48 heures suivant la configuration de l'accès API pour l'intégration d'OpenClaw, signalé comme activité de bot malgré une création manuelle.

Liquid AI publie le modèle LFM2.5-350M pour les boucles agentiques.
Liquid AI a publié LFM2.5-350M, un modèle de 350 millions de paramètres entraîné pour l'extraction fiable de données et l'utilisation d'outils. Il pèse moins de 500 Mo une fois quantifié et surpasse des modèles plus grands comme Qwen3.5-0.8B dans la plupart des benchmarks, tout en étant plus rapide et plus économe en mémoire.