Orion: Apple Neural Engine에서 직접 LLM 실행 및 학습을 위한 CoreML 우회 방법

✍️ OpenClawRadar📅 게시일: March 7, 2026🔗 Source
Orion: Apple Neural Engine에서 직접 LLM 실행 및 학습을 위한 CoreML 우회 방법
Ad

LLM 작업을 위한 직접적인 ANE 접근

Orion은 CoreML을 완전히 우회하여 LLM을 Apple Neural Engine(ANE)에서 직접 실행하고 학습시키는 종단 간 Objective-C 시스템을 제공합니다. 이 접근 방식은 개발자에게 ANE에 대한 직접적인 제어권을 부여하는데, 이전에는 CoreML에 의해 블랙박스 스케줄러로 취급되어 직접적인 제어나 학습 능력이 제거되었습니다.

기술적 구현과 제약사항

이 프로젝트는 비공개 ANEClient 및 ANECompiler API를 매핑한 리버스 엔지니어링 작업을 기반으로 합니다. ANE는 개발자가 "하드웨어 임피던스 불일치"라고 부르는 17가지 프로그래밍 제약사항을 제시하는데, 이 중 11가지는 완전히 문서화되지 않았습니다. 주요 제약사항은 다음과 같습니다:

  • concat 연산은 즉각적이고 조용한 컴파일러 실패를 유발합니다
  • BLOBFILE 가중치는 청크 헤더에서 64바이트 오프셋이 필요하며, 그렇지 않으면 조용한 수치 손상이 발생합니다
  • ANE는 내부 상태를 유지하며 프로세스당 약 119회 컴파일 후 조용히 실패하도록 하드코딩되어 있습니다

학습 과제에 대한 해결책

ANE 학습에 대한 이전 시도들은 단일 단계 후 NaN 발산에 부딪혔습니다. Orion은 다음과 같은 방법으로 이 문제를 해결합니다:

  • 지연 컴파일 파이프라인 구축
  • fp16 오버플로우 연쇄를 막기 위한 엄격한 활성화 클램핑 구현 (활성화를 -65504에서 +65504로 클램핑)
  • 119회 컴파일 제한을 우회하기 위해 매 학습 단계 후 exec() 프로세스 재시작 루프 사용
Ad

성능 결과

컴파일러는 27개 연산 그래프 IR을 5개의 최적화 패스를 통해 ANE 네이티브 MIL로 낮춥니다. 현재 성능은 다음과 같습니다:

  • GPT-2 124M 디코딩에서 초당 170개 이상의 토큰
  • 1억 1천만 파라미터 트랜스포머에서 기계적으로 안정적인 다단계 학습 (하드웨어의 "일관성 한계")
  • 1,000단계 이상에서 손실이 12.3에서 6.2로 감소하며 NaN이 전혀 발생하지 않음

현재 한계

ANE는 컴파일 시점에 가중치를 고정시키므로, 모든 학습 업데이트에는 약 4.2초의 재컴파일 패널티가 필요합니다. ANE는 fp16에서 약 19 TFLOPS를 제공하지만, 이를 사용하는 근본적인 제약은 컴퓨팅 능력이 아니라 네이티브 오케스트레이션 계층의 완전한 부재였습니다.

📖 전체 소스 읽기: r/LocalLLaMA

Ad

👀 See Also

VibeSmith: Claude 코드 프로젝트의 스킬 충돌 감지를 위한 로컬 도구
Tools

VibeSmith: Claude 코드 프로젝트의 스킬 충돌 감지를 위한 로컬 도구

VibeSmith는 Claude Code 프로젝트 전반에 걸쳐 통합된 가시성을 제공하는 로컬 macOS 데스크톱 앱으로, 전역 및 프로젝트 수준 구성 요소가 이름을 공유할 때 충돌을 감지하고, 의존성을 DAG로 시각화하며, 컨텍스트 토큰 사용량을 추적합니다.

OpenClawRadar
macOS의 sandbox-exec를 활용한 안전한 애플리케이션 실행 탐구
Tools

macOS의 sandbox-exec를 활용한 안전한 애플리케이션 실행 탐구

sandbox-exec는 macOS에 내장된 명령줄 유틸리티로, 애플리케이션을 제한된 환경에서 실행할 수 있게 합니다. 사용자 정의 샌드박스 프로필을 활용하는 방법을 알아보세요.

OpenClawRadar
홈버틀러: 텔레그램을 통한 홈랩 관리를 위한 오픈클로 스킬
Tools

홈버틀러: 텔레그램을 통한 홈랩 관리를 위한 오픈클로 스킬

Homebutler는 단일 Go 바이너리(~13MB, 종속성 없음)로 작동하는 OpenClaw 스킬로서 Telegram 채팅에서 홈랩을 관리합니다. SSH 세션이나 대시보드 로그인 없이 서버를 모니터링하고, Docker 컨테이너를 재시작하며, 기기를 깨우고, 네트워크를 스캔하며, 리소스 급증 시 경고를 보냅니다.

OpenClawRadar
Qwen 3.6 27B 양자화 벤치마크: 실용적 트레이드오프에서 Q4_K_M이 Q8_0을 앞서다
Tools

Qwen 3.6 27B 양자화 벤치마크: 실용적 트레이드오프에서 Q4_K_M이 Q8_0을 앞서다

BF16, Q4_K_M, Q8_0 GGUF 양자화 버전에서 HumanEval, HellaSwag, BFCL을 사용하여 Qwen 3.6 27B를 평가했습니다. Q4_K_M은 48% 적은 RAM, 1.45배 빠른 속도, 68.8% 더 작은 파일 크기로 BF16에 근접한 성능을 제공합니다.

OpenClawRadar