스터링-8B: 토큰 수준 귀속 기능을 갖춘 해석 가능한 언어 모델

✍️ OpenClawRadar📅 게시일: February 24, 2026🔗 Source
스터링-8B: 토큰 수준 귀속 기능을 갖춘 해석 가능한 언어 모델
Ad

모델 아키텍처와 기능

Steerling-8B는 다음 토큰 수준뿐만 아니라 다중 토큰 시퀀스 전체에서 생성 과정을 조정할 수 있도록 하는 인과적 이산 확산 모델 백본 위에 구축되었습니다. 핵심 설계는 모델의 임베딩을 세 가지 명시적 경로로 분해합니다: 약 33,000개의 지도 학습된 "알려진" 개념, 모델이 스스로 학습하는 약 100,000개의 "발견된" 개념, 그리고 나머지 정보를 포착하는 잔차 구성 요소입니다.

이 모델은 근본적인 성능 절충 없이 개념을 통한 신호 라우팅을 보장하는 학습 손실 함수를 사용합니다. 개념은 선형 경로를 통해 로짓에 공급되어 모든 예측이 정확히 개념별 기여도로 분해될 수 있도록 합니다. 이러한 기여도는 재학습 없이 추론 시점에 편집될 수 있습니다.

성능 및 해석 가능성 지표

비교 가능한 모델들보다 상당히 적은 컴퓨팅 자원으로 학습되었음에도 불구하고, Steerling-8B는 표준 벤치마크에서 경쟁력 있는 성능을 달성합니다. 이 모델은 더 적은 FLOPs를 사용하면서도 전체 평균에서 LLaMA2-7B와 Deepseek-7B를 모두 능가하며, 2-10배 더 많은 컴퓨팅 자원으로 학습된 모델들의 범위 내에 머뭅니다.

홀드아웃 검증 세트에서, 토큰 수준 기여도의 84% 이상이 개념 모듈에서 비롯되어, 모델이 단순히 잔차를 사용하여 예측하는 것이 아님을 나타냅니다. 잔차 경로가 제거되었을 때, 여러 LM Harness 작업에서의 성능은 작은 영향만을 보여 모델의 예측 신호가 숨겨진 채널보다는 개념을 통해 주로 라우팅됨을 시사합니다.

Steerling은 텍스트에서 알려진 개념을 96.2% AU(곡선 아래 면적)로 탐지할 수 있습니다.

Ad

실용적 기능

Steerling이 생성하는 출력 토큰 그룹에 대해, 사용자는 이러한 토큰을 다음으로 추적할 수 있습니다:

  • 입력 컨텍스트: 출력에 영향을 미친 특정 프롬프트 토큰
  • 개념: 모델 표현 내의 인간이 이해 가능한 주제들 ("분석적, 임상적"과 같은 어조 및 "유전자 변형 방법론"과 같은 내용 모두)
  • 학습 데이터: 출력을 이끈 학습 데이터 소스들, ArXiv, Wikipedia, FLAN과 같은 소스들 간 분포를 보여줌

이 모델은 개념 제어를 통한 추론 시점 정렬을 가능하게 하여, 수천 개의 안전성 학습 예제를 명시적 개념 수준 조정으로 대체합니다. 또한 재학습 없이 추론 시점에 특정 개념을 억제하거나 증폭시킬 수 있습니다.

사용 가능한 아티팩트

  • Hugging Face에서 모델 가중치 사용 가능
  • GitHub에서 동반 코드 사용 가능
  • PyPI에서 패키지 사용 가능

📖 전체 소스 읽기: HN AI Agents

Ad

👀 See Also

the-knowledge-guy: 클로드 코드 스킬로 책장을 튜터로 바꾸다
Tools

the-knowledge-guy: 클로드 코드 스킬로 책장을 튜터로 바꾸다

PDF/EPUB 책을 로컬에서 읽어들이고 질문에 답하거나 주제별로 학습하거나 치트시트를 뽑아낼 수 있는 Claude Code 스킬 세트입니다. 모든 인용은 라이브러리 전체에서 이루어집니다.

OpenClawRadar
클로드 코드 프롬프트 아키텍처 로컬 모델용 역설계
Tools

클로드 코드 프롬프트 아키텍처 로컬 모델용 역설계

GitHub에서 Claude Code의 26개 프롬프트 아키텍처를 클린룸 방식으로 재구현한 버전이 공개되었습니다. 이는 시스템 프롬프트, 도구 프롬프트, 안전 규칙, 메모리 압축, 검증 패턴을 포함하여 Ollama, llama.cpp, vLLM과 같은 로컬 모델에서 코딩 에이전트를 구축하기 위한 것입니다.

OpenClawRadar
클로드 가격 인상 후 대체 AI 코딩 설정
Tools

클로드 가격 인상 후 대체 AI 코딩 설정

한 개발자가 GPT 5.4를 주 모델로 사용하고, ChatGPT 구독에 포함된 Codex를 대체 모델로, 코딩 플랜 요금제의 Minimax 2.7을 백업으로 활용하는 현재 AI 코딩 설정을 공유합니다.

OpenClawRadar
리브레토: AI 코딩 에이전트를 위한 결정론적 브라우저 자동화 생성
Tools

리브레토: AI 코딩 에이전트를 위한 결정론적 브라우저 자동화 생성

Libretto는 AI 코딩 에이전트가 런타임 AI 에이전트에서 벗어나 실제 코드로 결정론적 브라우저 자동화 스크립트를 생성할 수 있도록 하는 Skill+CLI 툴킷입니다. 신뢰성을 위해 Playwright UI 자동화와 직접 네트워크/API 요청을 결합하며, 단계별 디버깅과 읽기 전용 모드를 포함합니다.

OpenClawRadar