니들(Needle): 모바일에서 초당 6000토큰으로 실행되는 2600만 파라미터 함수 호출 모델
Cactus가 Needle을 오픈소스로 공개했습니다. Needle은 저가형 휴대폰, 시계, 안경에서 구동되도록 설계된 2600만 파라미터 함수 호출 모델입니다. 자체 추론 엔진인 Cactus를 사용하여 소비자 기기에서 6000 tok/s 프리필과 1200 tok/s 디코드를 달성합니다.
아키텍처: Simple Attention Networks
Needle은 Simple Attention Network를 사용합니다. MLP는 전혀 없으며, 모델 전체가 어텐션과 게이팅 계층으로 구성됩니다. 주요 설계: d=512, 8H/4KV, BPE=8192, 인코더-디코더 구조(12개 인코더 계층, 8개 디코더 계층)로 크로스 어텐션, RoPE를 적용한 마스크드 셀프 어텐션, 그리고 결합된 임베딩을 사용합니다.
학습 세부사항
- 16개의 TPU v6e에서 2000억 토큰으로 사전 학습 (27시간)
- 합성된 함수 호출 데이터 20억 토큰으로 후처리 학습 (45분)
- 데이터는 Gemini를 통해 15개 도구 카테고리(타이머, 메시징, 내비게이션, 스마트 홈 등)로 합성됨
벤치마크 결과
Needle은 단일 호출 함수 실행에서 FunctionGemma-270M, Qwen-0.6B, Granite-350M, LFM2.5-350M을 능가합니다. 하지만 이 모델들은 더 넓은 범위와 용량을 가지며 대화형 환경에서 뛰어납니다.
빠른 시작
git clone https://github.com/cactus-compute/needle.git
cd needle && source ./setup
needle playground웹 UI가 http://127.0.0.1:7860에서 열리며, 자체 도구로 테스트 및 파인튜닝할 수 있습니다.
사용법 (Python)
from needle import SimpleAttentionNetwork, load_checkpoint, generate, get_tokenizer
params, config = load_checkpoint("checkpoints/needle.pkl")
model = SimpleAttentionNetwork(config)
tokenizer = get_tokenizer()
result = generate(
model, params, tokenizer,
query="What's the weather in San Francisco?",
tools='[{"name":"get_weather","parameters":{"location":"string"}}]',
stream=False
)
print(result)
[{"name":"get_weather","arguments":{"location":"San Francisco"}}]
로컬 파인튜닝
# playground 사용 (Gemini로 데이터 자동 생성)
needle playground
또는 자체 데이터 제공
needle finetune data.jsonl
다운로드
가중치는 Hugging Face에서 확인 가능: Cactus-Compute/needle. 모든 것은 MIT 라이선스입니다.
📖 전체 소스 읽기: HN AI Agents
👀 See Also

개발자가 현실적인 관계형 데이터베이스 생성 도구를 개발하다
한 개발자가 현실적인 데이터로 완전히 구성된 관계형 데이터베이스를 생성하는 도구를 만들어, 외래 키 관계와 테이블 간 일관성이 유지된 테스트 데이터베이스 생성 문제를 해결했습니다.

자동화된 클로드 코드 파이프라인으로 기능당 토큰 사용량 78k에서 15k로 절감
Claude Code용 오픈소스 파이프라인은 기존 코드의 사전 점검 분석을 포함한 12단계를 자동화하여 기능당 토큰 사용량을 약 78k에서 약 15k로 줄입니다. 세 가지 프로필(yolo, standard, paranoid)을 제공하며 신뢰도 점수를 grep 기반 검증으로 대체합니다.

클로드 코드를 컴파일러로: AI 개발을 위한 실용적 재구성
레딧 게시글은 클로드 코드가 영어를 작동하는 소프트웨어로 번역하는 컴파일러 역할을 한다고 주장하며, 그레이스 호퍼의 A-0과 포트란 같은 역사적인 컴퓨팅 혁신과 유사점을 그립니다. 저자는 3문단의 영어 설명으로부터 6개 파일에 걸쳐 400줄을 생성하고, 25분 만에 두 가지 문제를 발견했다고 설명합니다.

OpenClaw PARA 기술은 AI 어시스턴트 파일을 자동으로 정리합니다.
한 개발자가 OpenClaw용 스킬을 오픈소스로 공개했는데, 이 스킬은 AI 어시스턴트가 무질서한 루트 디렉터리를 만드는 대신 PARA 방법을 사용해 파일을 정리하도록 강제합니다.