애플 뉴럴 엔진을 역공학하여 MicroGPT 모델 학습하기

Apple Neural Engine 직접 접근
한 개발자가 Apple의 CoreML 프레임워크를 우회하여 M4 Mac mini의 Apple Neural Engine(ANE)에 직접 접근하여 소규모 언어 모델을 위한 맞춤형 학습 파이프라인을 만들었습니다. 이 프로젝트는 Claude를 사용하여 ANE의 비공개 API를 리버스 엔지니어링한 후, Apple이 권장하는 CoreML 인터페이스 없이 벤치마크를 실행하고 학습을 구현하는 과정을 포함했습니다.
기술 사양 및 성능
M4 칩의 ANE는 공칭 INT8 연산 성능으로 38 TFLOPS를 제공하지만, 개발자는 실제로는 FP16 프로세서이므로 유효 연산 성능은 절반 수준이라고 지적했습니다. ANE의 최대 연산 성능은 단 2.8W만 소비하여 6.6 TFLOPS/watt의 효율을 달성했습니다. 비교를 위해, Metal GPU는 약 1 TFLOPS/watt, NVIDIA의 H100은 1.4 TFLOPS/watt에 도달합니다.
학습 구현
개발자는 ANE에서 110M 파라미터 MicroGPT 모델을 성공적으로 학습시킨 맞춤형 학습 파이프라인을 만들었습니다. 단일 칩으로는 더 큰 모델을 실제로 학습시키기 어렵지만, 개발자는 ANE 장치 클러스터를 사용하면 이론적으로 더 큰 모델을 학습시킬 수 있을 것이라고 제안했습니다. 단일 장치에서도 3B 또는 7B 파라미터 모델에 대한 LoRA 학습은 가능할 것으로 보입니다.
NPU에서 학습하는 이유
주요 동기는 전력 효율성입니다. ANE의 6.6 TFLOPS/watt 효율은 기존 GPU 학습 방법보다 상당히 더 높은 전력 효율성을 제공하며, 이는 에지 컴퓨팅과 에너지 의식적인 개발에 특히 가치가 있습니다.
사용 가능한 자료
- 리버스 엔지니어링 문서
- 벤치마크 결과
- 학습 구현 (진행 중 작업)
- 코드가 포함된 GitHub 저장소
이 프로젝트는 일반적으로 블랙박스로 취급되는 Apple의 Neural Engine이 맞춤형 AI 학습 워크플로우를 위해 직접 접근할 수 있으며, 개발자들에게 GPU 기반 학습보다 우수한 전력 효율성을 제공하는 대안을 제시한다는 점을 보여줍니다.
📖 전체 출처 읽기: r/LocalLLaMA
👀 See Also

OpenClaw Outlook 애드인은 로컬 에이전트를 이메일 사이드바에 연결합니다.
한 개발자가 WebSocket을 통해 로컬 OpenClaw Gateway에 연결하는 Outlook 애드인을 구축했습니다. 이 도구는 선택된 이메일을 컨텍스트로 읽고, 이메일별 채팅 세션을 유지하며, Outlook 데스크톱 및 웹에서 작동합니다.

브라우저 CLI: AI 코딩 에이전트를 위한 토큰 효율적인 브라우저 자동화 도구
Browser CLI는 일반 Bash 명령어를 통해 브라우저 자동화를 제공하는 지속형 헤드리스 Chromium 데몬으로, Playwright MCP와 비교하여 호출당 토큰 수를 약 1,500개에서 약 75개로 줄여 약 95%의 토큰 절감 효과를 달성합니다.

Octopoda: 로컬 AI 에이전트를 위한 오픈 소스 메모리 레이어
옥토포다는 로컬 AI 에이전트에게 세션 간 지속적인 메모리, 의미론적 검색, 루프 감지, 충돌 복구 기능을 제공하는 오픈소스 메모리 레이어입니다. 33MB 임베딩 모델로 완전 오프라인에서 실행되며 LangChain, CrewAI, AutoGen, OpenAI Agents SDK와 통합됩니다.

Jork 에이전트 프레임워크, Claude로 구축, 400만 달러 해커톤에서 톱 10에 랭크
한 개발자가 Claude와 GLM 모델을 사용해 Jork라는 에이전트 프레임워크를 구축한 경험을 공유했는데, 이 프로젝트는 최근 400만 달러 규모 해커톤에서 2000개 이상의 응모작 중 상위 10위 안에 들었습니다. 이 프로젝트는 완전 자율 에이전트를 만들려는 초기 실패한 시도에서 발전한 것입니다.