Supra-50M-Reasoning : Petit modèle open-source avec raisonnement par chaîne de pensée

✍️ OpenClawRadar📅 Publié: June 20, 2026🔗 Source
Supra-50M-Reasoning : Petit modèle open-source avec raisonnement par chaîne de pensée
Ad

SupraLabs a publié Supra-50M-Reasoning (ThinkSupra-50M), un minuscule modèle de 50 millions de paramètres qui génère une chaîne de pensée complète avant de répondre. C'est la variante de raisonnement de Supra-50M-Instruct, affinée à partir de Supra-50M-Base à l'aide d'un ensemble de données synthétiques de 500 exemples générés par Qwen3 1.7B, entraîné pendant 6 époques avec SFT en bfloat16. Expérimental, sujet aux hallucinations et entièrement ouvert.

Format d'inférence

Chaque réponse suit cette structure :

<|begin_of_thought|> ... réflexion ... <|end_of_thought|> <|begin_of_solution|> ... réponse finale ... <|end_of_solution|>

Démarrage rapide

import torch
from transformers import pipeline, AutoTokenizer

MODEL_ID = "SupraLabs/Supra-50M-Reasoning" tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, clean_up_tokenization_spaces=False) pipe = pipeline("text-generation", model=MODEL_ID, tokenizer=tokenizer, device_map="auto", torch_dtype=torch.bfloat16 if torch.cuda.is_available() else torch.float32)

def build_prompt(instruction, input_text=""): if input_text.strip(): return f"Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.\n\n### Instruction:\n{instruction}\n\n### Input:\n{input_text}\n\n### Response:\n" return f"Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n### Instruction:\n{instruction}\n\n### Response:\n"

def generate(instruction, input_text=""): result = pipe(build_prompt(instruction, input_text), max_new_tokens=512, do_sample=True, temperature=0.3, top_k=50, top_p=0.9, repetition_penalty=1.15, pad_token_id=pipe.tokenizer.pad_token_id, eos_token_id=pipe.tokenizer.eos_token_id, return_full_text=False) return result[0]['generated_text'].strip()

Ad

Exemple de sortie

Prompt : "Qu'est-ce que l'IA ?"

Réflexion : "D'accord, l'utilisateur demande ce qu'est l'IA. Laissez-moi commencer par rappeler la définition de l'IA. L'IA est un sous-ensemble de l'apprentissage automatique, plus précisément des réseaux de neurones..."

Réponse : "L'IA est un sous-ensemble de l'apprentissage automatique qui permet aux machines d'apprendre à partir des données... utilisée dans la santé, la finance et même la robotique."

Prochaines étapes

SupraLabs prévoit des modèles plus grands : Supra-124M (Base, Chat, Raisonnement) et Supra-350M (Base, Chat, Raisonnement, Codage).

Modèle sur Hugging Face : Supra-50M-Reasoning
Dataset : SupraThink-Dataset-500x

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

Conception du Harnais Multi-Agent d'Anthropic pour Améliorer la Qualité du Code de Claude
Tools

Conception du Harnais Multi-Agent d'Anthropic pour Améliorer la Qualité du Code de Claude

L'article de blog d'Anthropic détaille une conception de harnais utilisant plusieurs agents pour résoudre l'anxiété contextuelle et le biais d'auto-évaluation de Claude, avec des rôles d'agents spécifiques et des critères de notation pour le développement frontend et full-stack.

OpenClawRadar
L'outil GrapeRoot réduit les coûts de Claude Code de 45 % grâce à un contexte de référentiel pré-analysé.
Tools

L'outil GrapeRoot réduit les coûts de Claude Code de 45 % grâce à un contexte de référentiel pré-analysé.

Un outil gratuit appelé GrapeRoot qui pré-analyse les dépôts et construit des graphes de dépendances a réduit les coûts de Claude Code de 45 % en moyenne sur 10 tâches d'ingénierie tout en améliorant la qualité des réponses de 13 %. L'outil élimine les boucles d'exploration qui consomment normalement des tokens.

OpenClawRadar
Plugin Peek pour Claude Code : Navigation Automatique dans la Mémoire de Session
Tools

Plugin Peek pour Claude Code : Navigation Automatique dans la Mémoire de Session

Peek est un plugin Claude Code qui capture et injecte automatiquement les corrections et préférences des utilisateurs pour orienter l'assistant IA. Il utilise une recherche par fusion avec des embeddings, BM25, une décroissance temporelle et des filtres de métadonnées pour fournir un contexte pertinent sans sollicitation manuelle.

OpenClawRadar
Le moteur de RPG solo open-source utilise trois instances Claude pour l'analyse, la narration et la direction.
Tools

Le moteur de RPG solo open-source utilise trois instances Claude pour l'analyse, la narration et la direction.

EdgeTales est un moteur de jeu de rôle solo open-source basé sur du texte où la mécanique des dés détermine les résultats et l'IA Claude génère une prose atmosphérique. Le système utilise trois instances Claude en pipeline : Cerveau (Haiku) pour analyser l'entrée en JSON, Narrateur (Sonnet) pour écrire la prose, et Directeur (Haiku) pour l'analyse asynchrone des scènes.

OpenClawRadar