Orion: Apple Neural Engine에서 LLM 실행 및 학습하는 CoreML 우회 방법

LLM 작업을 위한 직접적인 ANE 접근

Orion은 CoreML을 완전히 우회하여 LLM을 Apple Neural Engine(ANE)에서 직접 실행하고 학습시키는 종단 간 Objective-C 시스템을 제공합니다. 이 접근 방식은 개발자에게 ANE에 대한 직접적인 제어권을 부여하는데, 이전에는 CoreML에 의해 블랙박스 스케줄러로 취급되어 직접적인 제어나 학습 능력이 제거되었습니다.

기술적 구현과 제약사항

이 프로젝트는 비공개 ANEClient 및 ANECompiler API를 매핑한 리버스 엔지니어링 작업을 기반으로 합니다. ANE는 개발자가 "하드웨어 임피던스 불일치"라고 부르는 17가지 프로그래밍 제약사항을 제시하는데, 이 중 11가지는 완전히 문서화되지 않았습니다. 주요 제약사항은 다음과 같습니다:

concat 연산은 즉각적이고 조용한 컴파일러 실패를 유발합니다
BLOBFILE 가중치는 청크 헤더에서 64바이트 오프셋이 필요하며, 그렇지 않으면 조용한 수치 손상이 발생합니다
ANE는 내부 상태를 유지하며 프로세스당 약 119회 컴파일 후 조용히 실패하도록 하드코딩되어 있습니다

학습 과제에 대한 해결책

ANE 학습에 대한 이전 시도들은 단일 단계 후 NaN 발산에 부딪혔습니다. Orion은 다음과 같은 방법으로 이 문제를 해결합니다:

지연 컴파일 파이프라인 구축
fp16 오버플로우 연쇄를 막기 위한 엄격한 활성화 클램핑 구현 (활성화를 -65504에서 +65504로 클램핑)
119회 컴파일 제한을 우회하기 위해 매 학습 단계 후 exec() 프로세스 재시작 루프 사용

성능 결과

컴파일러는 27개 연산 그래프 IR을 5개의 최적화 패스를 통해 ANE 네이티브 MIL로 낮춥니다. 현재 성능은 다음과 같습니다:

GPT-2 124M 디코딩에서 초당 170개 이상의 토큰
1억 1천만 파라미터 트랜스포머에서 기계적으로 안정적인 다단계 학습 (하드웨어의 "일관성 한계")
1,000단계 이상에서 손실이 12.3에서 6.2로 감소하며 NaN이 전혀 발생하지 않음

현재 한계

ANE는 컴파일 시점에 가중치를 고정시키므로, 모든 학습 업데이트에는 약 4.2초의 재컴파일 패널티가 필요합니다. ANE는 fp16에서 약 19 TFLOPS를 제공하지만, 이를 사용하는 근본적인 제약은 컴퓨팅 능력이 아니라 네이티브 오케스트레이션 계층의 완전한 부재였습니다.

📖 전체 소스 읽기: r/LocalLLaMA