Supra-50M-Razonamiento: Modelo Tiny de Código Abierto con Pensamiento en Cadena

SupraLabs lanzó Supra-50M-Reasoning (ThinkSupra-50M), un pequeño modelo de 50 millones de parámetros que genera una cadena de pensamiento (CoT) completa antes de responder. Es la variante de razonamiento de Supra-50M-Instruct, ajustada a partir de Supra-50M-Base usando un conjunto de datos sintético de 500 ejemplos generados por Qwen3 1.7B, entrenada durante 6 épocas con SFT en bfloat16. Experimental, propenso a alucinaciones y completamente abierto.
Formato de Inferencia
Cada respuesta sigue esta estructura:
<|begin_of_thought|> ... pensamiento ... <|end_of_thought|> <|begin_of_solution|> ... respuesta final ... <|end_of_solution|>
Inicio Rápido
import torch from transformers import pipeline, AutoTokenizerMODEL_ID = "SupraLabs/Supra-50M-Reasoning" tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, clean_up_tokenization_spaces=False) pipe = pipeline("text-generation", model=MODEL_ID, tokenizer=tokenizer, device_map="auto", torch_dtype=torch.bfloat16 if torch.cuda.is_available() else torch.float32)
def build_prompt(instruction, input_text=""): if input_text.strip(): return f"Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.\n\n### Instruction:\n{instruction}\n\n### Input:\n{input_text}\n\n### Response:\n" return f"Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n### Instruction:\n{instruction}\n\n### Response:\n"
def generate(instruction, input_text=""): result = pipe(build_prompt(instruction, input_text), max_new_tokens=512, do_sample=True, temperature=0.3, top_k=50, top_p=0.9, repetition_penalty=1.15, pad_token_id=pipe.tokenizer.pad_token_id, eos_token_id=pipe.tokenizer.eos_token_id, return_full_text=False) return result[0]['generated_text'].strip()
Ejemplo de Salida
Prompt: "¿Qué es la IA?"
Pensamiento: "Bien, el usuario pregunta sobre IA. Empecemos recordando qué es IA. La IA es un subconjunto del aprendizaje automático, específicamente redes neuronales..."
Respuesta: "La IA es un subconjunto del aprendizaje automático que se centra en permitir que las máquinas aprendan de datos... se usa en salud, finanzas e incluso en el campo de la robótica."
Próximos Pasos
SupraLabs planea modelos más grandes: Supra-124M (Base, Chat, Razonamiento) y Supra-350M (Base, Chat, Razonamiento, Codificación).
Modelo en Hugging Face: Supra-50M-Reasoning
Dataset: SupraThink-Dataset-500x
📖 Lee la fuente completa: r/LocalLLaMA
👀 Ver también

La herramienta GrapeRoot reduce los costos de Claude Code en un 45% con contexto de repositorio pre-escaneado.
Una herramienta gratuita llamada GrapeRoot que escanea previamente repositorios y construye gráficos de dependencias redujo los costos de Claude Code en un 45% en promedio en 10 tareas de ingeniería, mientras mejoraba la calidad de las respuestas en un 13%. La herramienta elimina los bucles de exploración que normalmente consumen tokens.

120 Patrones de Prompt Probados: 8 Que Realmente Funcionan para Claude Code
Una prueba empírica de 3 meses con 120 patrones de prompt para Claude Code arroja 8 comandos accionables y 5 prompts de validación. Patrones clave: L99 (elimina titubeos), /ghost (quita la voz de IA), OODA (razonamiento estructurado), ULTRATHINK (razonamiento profundo), HARDMODE (depuración con restricciones).

Sistema de traducción autoactualizable para OpenClaw mantiene glosarios de dominio automáticamente.
Un script de Python envuelve la API de Kimi2.5 para traducir archivos .srt de subtítulos mientras preserva los índices de bloque, las marcas de tiempo y la segmentación. El sistema utiliza perfiles de proyecto con archivos glossary.json, style.md y memory.jsonl, e incluye un trabajo cron que escanea fuentes oficiales cada 6 horas para actualizar la terminología.

oMLX presenta el almacenamiento en caché SSD KV para Apple Silicon, reduciendo los tiempos de respuesta de OpenClaw de 30-90 segundos a 5 segundos.
oMLX es un nuevo backend que persiste los bloques de caché KV en SSD en formato safetensors, evitando la invalidación de la caché cuando cambia el contexto. Esto reduce los tiempos de respuesta de OpenClaw de 30-90 segundos a solo 5 segundos en turnos posteriores.