Supra-50M-Reasoning: Razonador Abierto y Pequeño con Cadena de Pensamiento

SupraLabs lanzó Supra-50M-Reasoning (ThinkSupra-50M), un pequeño modelo de 50 millones de parámetros que genera una cadena de pensamiento (CoT) completa antes de responder. Es la variante de razonamiento de Supra-50M-Instruct, ajustada a partir de Supra-50M-Base usando un conjunto de datos sintético de 500 ejemplos generados por Qwen3 1.7B, entrenada durante 6 épocas con SFT en bfloat16. Experimental, propenso a alucinaciones y completamente abierto.

Formato de Inferencia

Cada respuesta sigue esta estructura:

<|begin_of_thought|> ... pensamiento ... <|end_of_thought|> <|begin_of_solution|> ... respuesta final ... <|end_of_solution|>

Inicio Rápido

import torch
from transformers import pipeline, AutoTokenizer

MODEL_ID = "SupraLabs/Supra-50M-Reasoning"
tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, clean_up_tokenization_spaces=False)
pipe = pipeline("text-generation", model=MODEL_ID, tokenizer=tokenizer, device_map="auto", torch_dtype=torch.bfloat16 if torch.cuda.is_available() else torch.float32)
def build_prompt(instruction, input_text=""):
    if input_text.strip():
        return f"Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.\n\n### Instruction:\n{instruction}\n\n### Input:\n{input_text}\n\n### Response:\n"
    return f"Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n### Instruction:\n{instruction}\n\n### Response:\n"
def generate(instruction, input_text=""):
    result = pipe(build_prompt(instruction, input_text), max_new_tokens=512, do_sample=True, temperature=0.3, top_k=50, top_p=0.9, repetition_penalty=1.15, pad_token_id=pipe.tokenizer.pad_token_id, eos_token_id=pipe.tokenizer.eos_token_id, return_full_text=False)
    return result[0]['generated_text'].strip()

Ejemplo de Salida

Prompt: "¿Qué es la IA?"

Pensamiento: "Bien, el usuario pregunta sobre IA. Empecemos recordando qué es IA. La IA es un subconjunto del aprendizaje automático, específicamente redes neuronales..."

Respuesta: "La IA es un subconjunto del aprendizaje automático que se centra en permitir que las máquinas aprendan de datos... se usa en salud, finanzas e incluso en el campo de la robótica."

Próximos Pasos

SupraLabs planea modelos más grandes: Supra-124M (Base, Chat, Razonamiento) y Supra-350M (Base, Chat, Razonamiento, Codificación).

Modelo en Hugging Face: Supra-50M-Reasoning
Dataset: SupraThink-Dataset-500x

📖 Lee la fuente completa: r/LocalLLaMA

Supra-50M-Razonamiento: Modelo Tiny de Código Abierto con Pensamiento en Cadena

Formato de Inferencia

Inicio Rápido

Ejemplo de Salida

Próximos Pasos

👀 Ver también

La herramienta GrapeRoot reduce los costos de Claude Code en un 45% con contexto de repositorio pre-escaneado.

120 Patrones de Prompt Probados: 8 Que Realmente Funcionan para Claude Code

Sistema de traducción autoactualizable para OpenClaw mantiene glosarios de dominio automáticamente.

oMLX presenta el almacenamiento en caché SSD KV para Apple Silicon, reduciendo los tiempos de respuesta de OpenClaw de 30-90 segundos a 5 segundos.