Kimi K2.7-Code : modèle de codage open-source à haute efficacité token

Moonshot AI a publié Kimi K2.7-Code, un modèle de codage open-source disponible sur Hugging Face sous l'espace de noms moonshotai/Kimi-K2.7-Code. Le modèle est étiqueté comme image-texte-texte et utilise la bibliothèque Transformers. Il se positionne comme une alternative économe en tokens pour la génération et la compréhension de code.

Caractéristiques principales

Fournisseurs d'inférence : Novita propose le modèle avec un statut en direct, la prise en charge des appels d'outils (toolCalling: true), et une sortie structurée actuellement indisponible. Le débit mesuré est de 36,1 tokens/seconde.
Architecture du modèle : Le modèle est divisé en 64 fragments (format safetensors : model-00001-of-000064.safetensors).
Efficacité des tokens : Le modèle utilise un modèle de chat personnalisé qui préserve le contenu du raisonnement (preserve_thinking: true) et optimise l'utilisation des tokens en séparant les messages d'historique et de suffixe. Le modèle inclut des tokens spéciaux comme <|im_user|>, <|im_assistant|>, et <|im_system|> pour la gestion des rôles, et des blocs <think>/</think> pour encapsuler le raisonnement en chaîne de pensée.
Appels d'outils : Prise en charge native des appels d'outils avec un formatage structuré des arguments, utilisant les marqueurs <|tool_call_begin|> et <|tool_call_end|>.
Engagement de la communauté : 334 likes sur Hugging Face, avec 4 commentaires HN et 41 points au moment de la publication.

Implications pratiques

La conception du modèle évite explicitement d'intégrer les tokens de raisonnement dans l'historique lorsque preserve_thinking est faux, réduisant ainsi le contexte supplémentaire. Pour les développeurs utilisant des agents de codage IA, cela signifie une consommation de tokens réduite par interaction — particulièrement bénéfique pour les longues boucles d'agents où les chaînes de raisonnement se répètent. Le format d'appel d'outils est aligné sur JSON, ce qui facilite l'intégration avec les pipelines d'appel de fonctions existants.

Le modèle est disponible pour une utilisation immédiate via Novita, et le dépôt Hugging Face comprend la configuration complète du tokenizer et la source du modèle.

📖 Lire la source complète : HN AI Agents

Kimi K2.7-Code : Modèle de codage open source avec une meilleure efficacité des tokens

Caractéristiques principales

Implications pratiques

👀 See Also

Claude en Tête des Classements de l'App Store Malgré l'Impasse Gouvernementale

La quantification Q8_0 de llama.cpp obtient une accélération de 3,1x sur les GPU Intel Arc grâce au correctif de réorganisation SYCL.

Talkie : Un LLM de 13B entraîné exclusivement sur des textes antérieurs à 1931, utilisant Claude comme juge dans l'entraînement RL

Développeur Cherche des Conseils d'Architecture pour Servir des Modèles d'Embedding, de Reclassement et Zero-Shot sur 8 Go de VRAM