전화 기반 AI 실험을 통한 ANE 최적화는 커널 융합의 이점을 보여줍니다

한 개발자가 토요일에 주로 휴대폰에서 프로세스를 주도하며 autoresearch-ane 포크에서 55개의 최적화 실험을 수행했습니다. 이 작업은 커널 최적화와 아키텍처 변경을 통해 Apple Neural Engine(ANE) 성능 향상에 초점을 맞췄습니다.
성능 향상
실험 결과 여러 지표에서 측정 가능한 성과를 얻었습니다:
- 검증 손실이 3.75(최적화된 3.2에서 회귀)에서 2.49로 감소
- 단계 시간이 176ms에서 96ms로 개선
- ANE 활용률이 3.6%에서 6.5%로 증가
핵심 기술적 변경
가장 중요한 개선은 커널 융합에서 비롯되었습니다: "3개의 ANE 커널을 1개의 메가 커널로 융합하여 단계당 12번의 IOSurface 왕복을 제거했습니다 - 이 단일 변경 사항이 모든 하이퍼파라미터 조정을 합친 것보다 더 큰 효과를 냈습니다." 이 아키텍처 최적화는 매개변수 조정보다 더 큰 영향을 미쳤습니다.
워크플로우 세부사항
개발자는 비전통적인 접근 방식을 사용했습니다:
- 원격으로 실험을 실행하고, 짧은 순간에 휴대폰에서 주도
- 클로드를 사용하여 브레인스토밍하고 저장소 README에 나열된 공개 소스에서 통찰력 도출
- "짧은 주의력과 최소한의 토큰 입력"으로 문제에 접근 - 정확한 단계를 지시하기보다 방향성을 추측
- "실제 타이핑이 필요한 몇 가지 경우"를 포함하여 55개의 실험 완료
- 권한 제약으로 인해 비파괴 모드로만 작업("rm -rf /* 등 불가")
주요 학습점
기술적 개선을 넘어서, 개발자는 다음과 같이 언급했습니다: "주요 학습점은 개선 자체가 아닙니다. 짧은 주의력과 최소한의 토큰 입력 - 단계를 지시하기보다 방향성을 브레인스토밍하는 것이 - 어려운 시스템 문제에서 실제 측정 가능한 성과를 낼 수 있다는 점입니다."
이 작업은 개발자의 노트북에서 수행되었으며, 실험 결과와 관련하여 "55vs45가 수학적으로 정확히 맞지 않음"이라는 수용률 불일치를 언급했습니다.
📖 전체 소스 읽기: r/LocalLLaMA
👀 See Also

LLM을 위한 관계형 메모리: 사용자 관계를 모델링하는 3계층 시스템
오픈소스 파이썬 도구로, 평면적인 사실 저장 대신 3계층 서사 구조를 사용하여 7가지 심리적 차원에서 사용자-AI 관계를 모델링함으로써 LLM에 관계적 메모리를 추가합니다.

클로드 코드 훅 구현 프로젝트, 23개 훅 전체 커버
한 개발자가 Claude 코드의 모든 23가지 후크를 구현한 프로젝트를 만들었습니다. 이 프로젝트는 Claude 코드로만 구축되었으며, 각 후크의 사용 사례를 설명하는 동영상과 GitHub 저장소가 제공됩니다.

Vektori의 메모리 아키텍처: Claude의 유출된 시스템 원칙
Vektori는 Claude의 아키텍처에서 유출된 원칙에서 영감을 받아 AI 메모리를 위한 3계층 계층적 문장 그래프를 구현합니다. 이 시스템은 엄격한 품질 필터, 0.3 최소 점수의 회의적 검색을 사용하며 세션 간 수정 기록을 유지합니다.

SIDJUA V1.0: AI 에이전트를 위한 셀프 호스팅 거버넌스 플랫폼
SIDJUA V1.0은 Docker에서 실행되는 AI 에이전트를 위한 무료, 자체 호스팅 거버넌스 플랫폼으로, 라즈베리 파이를 포함합니다. 이 플랫폼은 에이전트 작업에 대한 필수 검문소, 암호화된 자격 증명 저장소, 네트워크 격리, 세분화된 예산 제어 기능을 제공합니다.