Kimi K2.7-Code : Modèle de codage open source avec une meilleure efficacité des tokens

✍️ OpenClawRadar📅 Publié: June 13, 2026🔗 Source
Kimi K2.7-Code : Modèle de codage open source avec une meilleure efficacité des tokens
Ad

Moonshot AI a publié Kimi K2.7-Code, un modèle de codage open-source disponible sur Hugging Face sous l'espace de noms moonshotai/Kimi-K2.7-Code. Le modèle est étiqueté comme image-texte-texte et utilise la bibliothèque Transformers. Il se positionne comme une alternative économe en tokens pour la génération et la compréhension de code.

Caractéristiques principales

  • Fournisseurs d'inférence : Novita propose le modèle avec un statut en direct, la prise en charge des appels d'outils (toolCalling: true), et une sortie structurée actuellement indisponible. Le débit mesuré est de 36,1 tokens/seconde.
  • Architecture du modèle : Le modèle est divisé en 64 fragments (format safetensors : model-00001-of-000064.safetensors).
  • Efficacité des tokens : Le modèle utilise un modèle de chat personnalisé qui préserve le contenu du raisonnement (preserve_thinking: true) et optimise l'utilisation des tokens en séparant les messages d'historique et de suffixe. Le modèle inclut des tokens spéciaux comme <|im_user|>, <|im_assistant|>, et <|im_system|> pour la gestion des rôles, et des blocs <think>/</think> pour encapsuler le raisonnement en chaîne de pensée.
  • Appels d'outils : Prise en charge native des appels d'outils avec un formatage structuré des arguments, utilisant les marqueurs <|tool_call_begin|> et <|tool_call_end|>.
  • Engagement de la communauté : 334 likes sur Hugging Face, avec 4 commentaires HN et 41 points au moment de la publication.
Ad

Implications pratiques

La conception du modèle évite explicitement d'intégrer les tokens de raisonnement dans l'historique lorsque preserve_thinking est faux, réduisant ainsi le contexte supplémentaire. Pour les développeurs utilisant des agents de codage IA, cela signifie une consommation de tokens réduite par interaction — particulièrement bénéfique pour les longues boucles d'agents où les chaînes de raisonnement se répètent. Le format d'appel d'outils est aligné sur JSON, ce qui facilite l'intégration avec les pipelines d'appel de fonctions existants.

Le modèle est disponible pour une utilisation immédiate via Novita, et le dépôt Hugging Face comprend la configuration complète du tokenizer et la source du modèle.

📖 Lire la source complète : HN AI Agents

Ad

👀 See Also

Claude en Tête des Classements de l'App Store Malgré l'Impasse Gouvernementale
News

Claude en Tête des Classements de l'App Store Malgré l'Impasse Gouvernementale

L'application Claude d'Anthropic est passée de la 42e à la 1ère place des classements des applications les plus téléchargées sur l'App Store américain, ChatGPT et Gemini occupant respectivement les deuxième et troisième positions. Cette hausse fait suite à un désaccord public entre Anthropic et le gouvernement américain concernant l'utilisation militaire et de surveillance de la technologie d'IA.

OpenClawRadar
La quantification Q8_0 de llama.cpp obtient une accélération de 3,1x sur les GPU Intel Arc grâce au correctif de réorganisation SYCL.
News

La quantification Q8_0 de llama.cpp obtient une accélération de 3,1x sur les GPU Intel Arc grâce au correctif de réorganisation SYCL.

Une correction apportée au backend SYCL de llama.cpp améliore la quantification Q8_0 sur les GPU Intel Arc, passant de 21 % à 66 % de la bande passante mémoire théorique, atteignant 15,24 tokens/seconde contre 4,88 tokens/seconde auparavant sur un Arc Pro B70 avec Qwen3.5-27B.

OpenClawRadar
Talkie : Un LLM de 13B entraîné exclusivement sur des textes antérieurs à 1931, utilisant Claude comme juge dans l'entraînement RL
News

Talkie : Un LLM de 13B entraîné exclusivement sur des textes antérieurs à 1931, utilisant Claude comme juge dans l'entraînement RL

Des chercheurs ont publié Talkie, un LLM de 13B entraîné uniquement sur des textes publiés avant 1931 (pas d'internet, pas de données de la Seconde Guerre mondiale). Claude Sonnet 4.6 a été utilisé comme juge dans son pipeline d'apprentissage par renforcement DPO en ligne, et Claude Opus 4.4 a généré des conversations multi-tours synthétiques pour le fine-tuning. Le modèle peut écrire du code Python à partir de quelques exemples en contexte malgré l'absence totale de code moderne dans l'entraînement.

OpenClawRadar
Développeur Cherche des Conseils d'Architecture pour Servir des Modèles d'Embedding, de Reclassement et Zero-Shot sur 8 Go de VRAM
News

Développeur Cherche des Conseils d'Architecture pour Servir des Modèles d'Embedding, de Reclassement et Zero-Shot sur 8 Go de VRAM

Un développeur créant un service unifié de graphe de connaissances/RAG pour un agent de codage local rencontre des contraintes de mémoire sur 8 Go de VRAM et 16 Go de RAM système, avec des erreurs de mémoire insuffisante (OOM), des pics de latence et des arrêts du noyau Linux lors du service simultané de trois modèles de transformateurs.

OpenClawRadar