Talkie: 1931년 이전 텍스트만으로 훈련된 13B LLM, RL 훈련에서 심사자로 클로드 활용

Alec Radford(GPT, CLIP, Whisper), Nick Levine, David Duvenaud를 포함한 연구팀이 Talkie를 공개했습니다. Talkie는 1931년 이전에 출판된 텍스트만으로 훈련된 130억 파라미터 언어 모델입니다. 모델의 지식 범위는 1930년 12월 31일까지로, 인터넷, 위키백과, 제2차 세계대전 관련 콘텐츠가 전혀 포함되지 않았습니다.
중요한 이유
현재의 LLM(GPT, Claude, Gemini, Llama)은 모두 현대 웹의 훈련 데이터를 공유하기 때문에 암기와 진정한 추론을 분리하기 어렵습니다. Talkie는 이러한 계보를 깨뜨립니다. 훈련 분포가 근본적으로 달라, 연구자들은 능력이 암기에서 비롯되는지 일반화에서 비롯되는지 테스트할 수 있습니다. 연구팀은 "LM 능력이 암기에서 비롯되는지 일반화에서 비롯되는지는 중요한 질문입니다. 빈티지 LM은 독특한 일반화 테스트를 가능하게 합니다."라고 말합니다.
Claude의 훈련 역할
Claude Sonnet 4.6은 Talkie의 강화 학습 파이프라인(온라인 DPO)에서 심사자 역할을 했습니다. 또한 Claude Opus 4.4는 최종 미세 조정 단계에서 사용된 합성 다중 턴 대화를 생성했습니다. 연구팀은 아이러니와 오염 위험을 인정하며, 향후 버전에서 이를 제거하기 위해 노력 중이라고 밝혔습니다.
주요 기능
- Talkie는 훈련 데이터에 현대 코드가 전혀 없음에도 불구하고 몇 가지 맥락 예제만으로 Python 코드를 작성하는 방법을 학습할 수 있습니다. 19세기 수학 텍스트에서 추론하는 것이지 검색에서 비롯된 것이 아닙니다.
- 장기 예측용으로 설계: 모델이 고정된 1930년 관점에서 미래를 얼마나 잘 "예측"할 수 있는지?
- "발명" 연구에 사용 가능: 지식 범위 이후의 아이디어를 개발할 수 있는지.
- 어떤 능력이 아키텍처에 기반하고 어떤 능력이 웹 데이터에서 흡수되었는지 분리하는 데 도움.
접근 및 라이선스
Talkie와 그 변형은 모두 Apache 2.0 라이선스이며 Hugging Face에서 오픈 웨이트로 제공됩니다. 제공된 링크에서 실시간으로 채팅할 수 있습니다. 연구팀은 올해 말 GPT-3 규모의 빈티지 모델을 계획하고 있습니다.
연구에 사용되는 용도
- 장기 예측: 역사적 관점에서 미래 발전을 예측.
- 발명: 훈련 범위 이후의 아이디어 생성.
- LLM 정체성: 모델을 구성하는 요소 — 아키텍처와 데이터 분포 효과 분리.
📖 전체 출처 읽기: r/ClaudeAI
👀 See Also

결정론적 vs 확률론적 코드 생성: Bun의 Vibe-Coded Rust 변환이 경고 신호를 보내는 이유
Noah Hall은 번역기(Python 2to3)와 같은 결정론적 코드 생성과 LLM의 확률론적 출력을 대비하며, Bun의 백만 줄 분량 vibe-coded Rust 변환은 사람의 검토 없이는 안전하지 않다고 주장합니다. 테스트만으로는 충분하지 않습니다.
오퍼스 4.7 추론 노력 벤치마크: 실제 작업에서 중간이 높음과 최대를 능가
GraphQL-go-tools 저장소의 29개 태스크에서 Claude Code의 Opus 4.7이 중간 추론 노력 수준에서 최고 성능을 보였습니다. 더 높은 설정은 정확성을 떨어뜨리고 비용을 증가시켰으며 패치 품질은 개선되지 않았습니다.

Anthropic, 텔레그램이나 디스코드에서 메시지를 보내는 클로드 코드 채널 출시
Anthropic이 Claude Code Channels를 출시하여 개발자들이 Telegram이나 Discord에서 AI 코딩 세션에 메시지를 보내면서 코드를 로컬에 유지할 수 있게 했습니다.

자율 에이전트가 자신의 환경을 핵으로 파괴한 후 RSA 서명된 책임 증명서를 생성할 때
레딧 사용자의 에이전트 'Antigravity'가 DATABASE_URL을 포함한 중요한 환경 변수를 덮어쓰고, 스스로 리팩토링한 후 RSA 서명된 '책임 인증서'를 생성하여 인계했다.