Supra-50M-추론: 사고체인을 활용한 오픈소스 소형 모델

SupraLabs가 Supra-50M-Reasoning(ThinkSupra-50M)을 출시했습니다. 이는 응답 전에 완전한 사고 사슬(CoT)을 생성하는 50M 파라미터의 소형 모델입니다. Supra-50M-Instruct의 추론 변형으로, Qwen3 1.7B가 생성한 500개 합성 샘플 데이터셋을 사용하여 Supra-50M-Base에서 미세 조정되었으며, bfloat16으로 SFT를 통해 6 에폭 학습했습니다. 실험적이며 환각 현상이 발생하기 쉽고, 완전히 공개되었습니다.
추론 형식
모든 응답은 다음 구조를 따릅니다:
<|begin_of_thought|> ... 생각 ... <|end_of_thought|> <|begin_of_solution|> ... 최종 답변 ... <|end_of_solution|>
빠른 시작
import torch from transformers import pipeline, AutoTokenizerMODEL_ID = "SupraLabs/Supra-50M-Reasoning" tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, clean_up_tokenization_spaces=False) pipe = pipeline("text-generation", model=MODEL_ID, tokenizer=tokenizer, device_map="auto", torch_dtype=torch.bfloat16 if torch.cuda.is_available() else torch.float32)
def build_prompt(instruction, input_text=""): if input_text.strip(): return f"Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.\n\n### Instruction:\n{instruction}\n\n### Input:\n{input_text}\n\n### Response:\n" return f"Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n### Instruction:\n{instruction}\n\n### Response:\n"
def generate(instruction, input_text=""): result = pipe(build_prompt(instruction, input_text), max_new_tokens=512, do_sample=True, temperature=0.3, top_k=50, top_p=0.9, repetition_penalty=1.15, pad_token_id=pipe.tokenizer.pad_token_id, eos_token_id=pipe.tokenizer.eos_token_id, return_full_text=False) return result[0]['generated_text'].strip()
샘플 출력
프롬프트: "AI란 무엇인가?"
생각: "좋아요, 사용자가 AI에 대해 묻고 있습니다. 먼저 AI가 무엇인지 떠올려 봅시다. AI는 머신러닝의 하위 집합, 특히 신경망입니다..."
응답: "AI는 머신러닝의 하위 집합으로, 기계가 데이터로부터 학습할 수 있도록 하는 데 중점을 둡니다... 의료, 금융, 로봇공학 분야에서 사용됩니다."
다음 단계
SupraLabs는 더 큰 모델을 계획 중입니다: Supra-124M(Base, Chat, Reasoning)과 Supra-350M(Base, Chat, Reasoning, Coding).
Hugging Face 모델: Supra-50M-Reasoning
데이터셋: SupraThink-Dataset-500x
📖 전체 출처 읽기: r/LocalLLaMA
👀 See Also
니들: FFN 전혀 없이 구축된 2600만 파라미터 도구 호출 모델
Needle은 MLP가 없는 26M 파라미터 함수 호출 모델로, 소비자 기기에서 6000 tok/s 프리필과 1200 tok/s 디코드를 달성합니다. 단일 호출 도구 호출에서 FunctionGemma-270M, Qwen-0.6B, Granite-350M, LFM2.5-350M을 능가합니다.

로컬 35B MoE 모델, 에이전트 OS 코드 실패율 0% 달성
한 개발자가 멀티 에이전트 시스템의 런타임을 Qwen 3.6 35B A3B (MoE, 3B 활성 파라미터)로 전환한 후 코드 오류가 사라졌으며, 5계층 검증 게이트를 통해 100% 성공률을 달성했다고 보고했습니다.

마이크로소프트 VibeVoice: 60분 ASR 및 90분 TTS 모델 오픈소스화
VibeVoice는 Microsoft의 오픈소스 음성 AI 모델 제품군으로, ASR(60분 단일 패스, 화자 분리, 50개 이상 언어)과 TTS(90분 다중 화자, 실시간 스트리밍)를 포함합니다. 7.5Hz 연속 음성 토크나이저와 next-token diffusion을 사용합니다.

Claude Code v2.1.76 시스템 프롬프트 업데이트: 보안 모니터 개선 및 새로운 훅 이벤트
Claude Code v2.1.76는 시스템 프롬프트 업데이트를 포함하며, 자율 에이전트용 보안 모니터 개선과 PostCompact 훅 이벤트 추가 등 43개의 새로운 토큰이 특징입니다. 변경 사항에는 민감 데이터 감지 명확화, 코드 역직렬화 예시 확장, 비가역적 로컬 삭제 안내 형식 개선이 포함됩니다.