니들: FFN 전혀 없이 구축된 2600만 파라미터 도구 호출 모델
Needle은 단일 호출 함수 호출을 위해 설계된 26M 파라미터 모델입니다. FFN이 전혀 없는 교차 어텐션과 게이팅 레이어를 사용하며, 이는 도구 호출이 추론이 아니라 검색 및 조립(쿼리를 도구 이름에 매칭하고, 인자 값을 추출하며, JSON을 생성)이라는 통찰에 기반합니다. 이 모델은 소비자 기기에서 6000 tok/s 프리필과 1200 tok/s 디코드 속도로 실행됩니다.
훈련 세부 사항
- 16개의 TPU v6e에서 200B 토큰으로 사전 훈련(27시간)
- 합성 함수 호출 데이터 2B 토큰으로 후속 훈련(45분)
- 데이터는 15개의 도구 카테고리(타이머, 메시징, 내비게이션, 스마트 홈 등)로 Gemini를 통해 합성됨
아키텍처: 단순 어텐션 네트워크
전체 모델은 어텐션과 게이팅만으로 구성되며, MLP는 어디에도 없습니다. 저자들은 FFN 파라미터가 이 규모의 도구 호출에는 낭비라고 주장하며, 'FFN 없는' 발견이 모델이 외부 구조화된 지식(RAG, 도구 사용, 검색 증강 생성)에 접근할 수 있는 모든 작업에 일반화된다고 설명합니다. 모델은 입력에 사실이 제공되면 FFN 가중치에 사실을 기억할 필요가 없습니다.
벤치마크
Needle은 단일 호출 함수 호출에서 FunctionGemma-270M, Qwen-0.6B, Granite-350M, LFM2.5-350M을 능가하지만, 이들 모델은 대화 환경에서 더 많은 용량을 갖습니다.
사용 방법
# 플레이그라운드를 통해 모델을 테스트하거나 Mac/PC에서 미세 조정
git clone https://github.com/cactus-compute/needle
- GitHub: github.com/cactus-compute/needle
- 가중치: huggingface.co/Cactus-Compute/needle
- 아키텍처 문서: Simple Attention Networks 문서
- 모바일/웨어러블용 추론 엔진(Cactus): github.com/cactus-compute/cactus
모든 것은 MIT 라이선스로 제공됩니다.
📖 전체 출처: r/LocalLLaMA
👀 See Also

skillcheck: SKILL.md 파일의 크로스 에이전트 호환성 문제를 감지하는 린터
skillcheck는 agentskills.io 사양에 맞춰 SKILL.md 파일을 검증하는 Python 도구로, 기존 검증기에는 없는 설명 품질 점수화, Claude 전용 필드 경고, 파일 참조 검증 등 독특한 기능을 제공합니다.

벤치마크 결과, 정확도는 동일함에도 AI 브라우저 자동화 도구 간 토큰 비용이 최대 2.6배 차이를 보이는 것으로 나타났습니다.
Claude Sonnet 4.6 모델을 사용하여 6가지 실제 작업에 대해 4가지 CLI 브라우저 자동화 도구를 벤치마킹한 결과, 모든 도구가 100% 정확도를 달성했지만 openbrowser-ai는 36,010 토큰을 사용한 반면 다른 도구들은 77,123~94,130 토큰을 사용했습니다. 도구 호출 횟수가 토큰 비용의 가장 강력한 예측 변수였습니다.

옵시디언 볼트에서 의미론적 검색을 위한 MCP 서버
한 개발자가 Obsidian 볼트를 Qdrant 벡터 데이터베이스에 로컬 임베딩으로 인덱싱하는 MCP 서버를 구축하여, 키워드 매칭의 한계로 인해 에이전트가 관련 문서를 놓치는 문제를 해결하고 의미론적 검색을 가능하게 했습니다.

Murmur: Claude 코드 세션 자동화를 위한 오픈소스 Cron 데몬
Murmur는 HEARTBEAT.md 파일을 설정 파일로 사용하여 Claude 코드 세션을 예약하고 자동화하는 cron 데몬입니다.