NLA가 Gemma 3의 내부 활성화를 모든 토큰에 대해 읽을 수 있는 텍스트로 변환

✍️ OpenClawRadar📅 게시일: May 8, 2026🔗 Source
NLA가 Gemma 3의 내부 활성화를 모든 토큰에 대해 읽을 수 있는 텍스트로 변환
Ad

Anthropic이 특정 토큰에 대한 LLM의 내부 활성화를 사람이 읽을 수 있는 텍스트로 변환하는 NLA(Natural Language Autoencoders)라는 새로운 기법을 발표했습니다. Gemma 3 27b Instruct용 모델 가중치 두 세트를 공개했습니다:

  • Auto Verbalizer (AV): 대상 모델의 활성화를 입력으로 받아 특정 토큰을 생성할 때 모델이 "생각"하는 내용을 자연어로 설명하는 LLM입니다. 가중치는 kitft/nla-gemma3-27b-L41-av에서 확인할 수 있습니다.
  • Activation Reconstructor (AR): AV의 텍스트 출력에서 활성화를 재구성하여 오토인코더의 충실성을 검증하는 보조 모델입니다. 가중치는 kitft/nla-gemma3-27b-L41-ar에 있습니다.

Neuronpedia는 이미 neuronpedia.org/gemma-3-27b-it/nla에서 대화형 데모를 호스팅하고 있습니다. Gemma 3에 질문하고 응답에서 토큰을 클릭한 후 "explain"을 클릭하면 해당 토큰에 대한 모델의 내부 추론이 평문으로 표시됩니다.

이는 어텐션이나 중요도 맵이 아닙니다. 숨겨진 상태 벡터를 직접 디코딩합니다. AV 모델은 LLM과 함께 실행되어 토큰별 설명을 생성할 수 있으며, AR 모델은 AV 출력이 유효한 재구성임을 보장합니다. 두 모델 모두 오픈 가중치로 공개되었습니다.

대상: 메커니즘적 해석 가능성 연구자와 엔지니어, 또는 에이전트 모델이 특정 토큰을 선택하는 이유가 궁금한 개발자.

📖 전체 소스 읽기: r/LocalLLaMA

Ad

👀 See Also

오픈소스 Claude CLI용 멀티 계정 관리자가 프로필 전환을 가능하게 합니다.
Tools

오픈소스 Claude CLI용 멀티 계정 관리자가 프로필 전환을 가능하게 합니다.

claude-multi-account는 여러 Claude 계정을 위한 격리된 프로필을 생성하는 CLI 도구로, 로그아웃 없이 즉시 전환할 수 있습니다. 공유 설정, 클라우드 백업을 지원하며 Windows, Linux, macOS, Termux에서 작동합니다.

OpenClawRadar
Ctxpact: 로컬 LLM을 위한 컨텍스트 압축 프록시
Tools

Ctxpact: 로컬 LLM을 위한 컨텍스트 압축 프록시

Ctxpact는 16k 컨텍스트 윈도우를 가진 로컬 LLM을 위해 과도하게 큰 입력을 압축하는 OpenAI 호환 프록시로, DCP, 요약, 추출 전략을 포함한 3단계 파이프라인을 사용합니다. 벤치마크 결과, 110k 토큰이 12k로 압축되었으며 8개의 독해 질문 중 8개 정답을 기록했습니다.

OpenClawRadar
AnyClaw: Android 하드웨어 접근 및 터미널 개발용 AI 에이전트가 탑재된 Ubuntu 24.04
Tools

AnyClaw: Android 하드웨어 접근 및 터미널 개발용 AI 에이전트가 탑재된 Ubuntu 24.04

AnyClaw는 Android에서 proot로 실행되는 완전한 Ubuntu 24.04 환경을 제공하며, 터미널에서 bash 명령어와 Java 실행을 통해 카메라, GPS, 배터리, 센서 등 Android 하드웨어 API에 직접 접근할 수 있습니다. 동일 네트워크의 모든 브라우저에서 접근 가능한 웹 UI와 이러한 도구들을 조율할 수 있는 AI 코딩 에이전트를 포함하고 있습니다.

OpenClawRadar
Storybloq: Mac 앱, CLI, MCP를 갖춘 Claude Code용 프로젝트 트래커
Tools

Storybloq: Mac 앱, CLI, MCP를 갖춘 Claude Code용 프로젝트 트래커

Storybloq는 리포지토리 내 .story/ 디렉토리에 저장되는 무료 오픈소스 프로젝트 트래커입니다. Mac 앱(App Store), CLI, 그리고 Claude Code에 티켓, 이슈 및 세션 핸드오버를 노출하는 MCP 서버를 포함합니다.

OpenClawRadar