Steerling-8B: 80억 파라미터 해석 가능 언어 모델 출시

모델 아키텍처와 기능

Steerling-8B는 다음 토큰 수준뿐만 아니라 다중 토큰 시퀀스 전체에서 생성 과정을 조정할 수 있도록 하는 인과적 이산 확산 모델 백본 위에 구축되었습니다. 핵심 설계는 모델의 임베딩을 세 가지 명시적 경로로 분해합니다: 약 33,000개의 지도 학습된 "알려진" 개념, 모델이 스스로 학습하는 약 100,000개의 "발견된" 개념, 그리고 나머지 정보를 포착하는 잔차 구성 요소입니다.

이 모델은 근본적인 성능 절충 없이 개념을 통한 신호 라우팅을 보장하는 학습 손실 함수를 사용합니다. 개념은 선형 경로를 통해 로짓에 공급되어 모든 예측이 정확히 개념별 기여도로 분해될 수 있도록 합니다. 이러한 기여도는 재학습 없이 추론 시점에 편집될 수 있습니다.

성능 및 해석 가능성 지표

비교 가능한 모델들보다 상당히 적은 컴퓨팅 자원으로 학습되었음에도 불구하고, Steerling-8B는 표준 벤치마크에서 경쟁력 있는 성능을 달성합니다. 이 모델은 더 적은 FLOPs를 사용하면서도 전체 평균에서 LLaMA2-7B와 Deepseek-7B를 모두 능가하며, 2-10배 더 많은 컴퓨팅 자원으로 학습된 모델들의 범위 내에 머뭅니다.

홀드아웃 검증 세트에서, 토큰 수준 기여도의 84% 이상이 개념 모듈에서 비롯되어, 모델이 단순히 잔차를 사용하여 예측하는 것이 아님을 나타냅니다. 잔차 경로가 제거되었을 때, 여러 LM Harness 작업에서의 성능은 작은 영향만을 보여 모델의 예측 신호가 숨겨진 채널보다는 개념을 통해 주로 라우팅됨을 시사합니다.

Steerling은 텍스트에서 알려진 개념을 96.2% AU(곡선 아래 면적)로 탐지할 수 있습니다.

실용적 기능

Steerling이 생성하는 출력 토큰 그룹에 대해, 사용자는 이러한 토큰을 다음으로 추적할 수 있습니다:

입력 컨텍스트: 출력에 영향을 미친 특정 프롬프트 토큰
개념: 모델 표현 내의 인간이 이해 가능한 주제들 ("분석적, 임상적"과 같은 어조 및 "유전자 변형 방법론"과 같은 내용 모두)
학습 데이터: 출력을 이끈 학습 데이터 소스들, ArXiv, Wikipedia, FLAN과 같은 소스들 간 분포를 보여줌

이 모델은 개념 제어를 통한 추론 시점 정렬을 가능하게 하여, 수천 개의 안전성 학습 예제를 명시적 개념 수준 조정으로 대체합니다. 또한 재학습 없이 추론 시점에 특정 개념을 억제하거나 증폭시킬 수 있습니다.

사용 가능한 아티팩트

Hugging Face에서 모델 가중치 사용 가능
GitHub에서 동반 코드 사용 가능
PyPI에서 패키지 사용 가능

📖 전체 소스 읽기: HN AI Agents

스터링-8B: 토큰 수준 귀속 기능을 갖춘 해석 가능한 언어 모델

모델 아키텍처와 기능

성능 및 해석 가능성 지표

실용적 기능

사용 가능한 아티팩트

👀 See Also

OpenClaw 스킬은 로컬 ComfyUI 지원과 큐레이팅된 프롬프트를 통한 AI 이미지 생성 기능을 추가합니다.

Claude Code v2.1.90은 CLAUDE_CODE_NO_FLICKER 플래그로 마우스 지원을 추가합니다.

클로드-컨트롤: 클로드 코드 세션용 모바일 원격 제어

세션 사이펀: 오픈소스 도구로 AI 코딩 에이전트 대화를 통합합니다