Orion: Обход CoreML для запуска и обучения LLM напрямую на Apple Neural Engine

Прямой доступ к ANE для работы с LLM
Orion предоставляет сквозную систему на Objective-C, которая полностью обходит CoreML для запуска и обучения LLM непосредственно на Apple Neural Engine (ANE). Этот подход даёт разработчикам прямой контроль над ANE, который ранее CoreML обрабатывал как «чёрный ящик»-планировщик, лишая любого прямого управления или возможности обучения.
Техническая реализация и ограничения
Проект основан на работе по реверс-инжинирингу, в ходе которой были сопоставлены приватные API ANEClient и ANECompiler. ANE представляет собой то, что разработчик называет «аппаратным несоответствием импеданса» с 17 общими программными ограничениями, 11 из которых были полностью недокументированы. Ключевые ограничения включают:
- Операция concat вызывает немедленный, тихий сбой компилятора
- Веса BLOBFILE требуют смещения в 64 байта от заголовка чанка, иначе происходит тихое числовое искажение
- ANE поддерживает внутреннее состояние, которое жёстко ограничивается примерно 119 компиляциями на процесс перед тихим сбоем
Решения проблем обучения
Предыдущие попытки обучения на ANE сталкивались с расхождением NaN после одного шага. Orion решает это с помощью:
- Настройки конвейера отложенной компиляции
- Реализации строгого ограничения активаций для предотвращения каскадного переполнения fp16 (ограничение активаций от -65504 до +65504)
- Использования цикла перезапуска процесса exec() после каждого шага обучения для обхода ограничения в 119 компиляций
Результаты производительности
Компилятор преобразует граф IR из 27 операций через пять этапов оптимизации в нативный для ANE MIL. Текущая производительность включает:
- Более 170 токенов/с для декодирования GPT-2 124M
- Механически стабильное многошаговое обучение трансформера с 110 млн параметров («потолок связности» аппаратного обеспечения)
- За более чем 1000 шагов потери снизились с 12,3 до 6,2 без единого NaN
Текущие ограничения
ANE запекает веса во время компиляции, что означает, что каждое обновление обучения требует штрафа за перекомпиляцию около 4,2 с. ANE выдаёт примерно 19 TFLOPS в fp16, но фундаментальным ограничением для его использования была не вычислительная мощность, а полное отсутствие нативного уровня оркестрации.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Клод исправляет и отлаживает собственную ошибку в сервере файловой системы MCP, связанную с UNC-путями в Windows.
Разработчик использовал Claude Opus для диагностики и исправления ошибки в MCP Filesystem Server, где пути к сетевым ресурсам UNC в Windows не работали для операций с подкаталогами. Исправление решает проблему с проверкой путей, которая препятствовала доступу к файлам и папкам внутри сетевых ресурсов UNC.

Prism MCP v2.1 добавляет постоянную память к сессиям Claude.
Prism MCP v2.1.0 'Дворец разума' обеспечивает постоянную память сессий для Claude, устраняя необходимость повторного объяснения контекста проекта. Он включает локальное хранилище SQLite, визуальный браузер памяти, откат состояния и синхронизацию контекста между клиентами.

Prefex: Локальный прокси для кода Claude, автоматизирующий кэширование промптов и управление памятью сессий
Prefex — это локальный прокси, который находится между Claude Code и API Anthropic, автоматически добавляя заголовок, необходимый для бета-функции кэширования промптов Anthropic. Он также реализует сессионную память, чтобы избежать повторной отправки полной истории разговора, и включает маршрутизатор моделей для оптимизации затрат.

Агентный контекстный движок: Автоматизированный цикл улучшения агентов с приростом точности на 34,2%
Инструмент с открытым исходным кодом автоматизирует весь цикл улучшения агентов — от анализа трассировок до внедрения исправлений, обеспечивая повышение точности на 34,2% на Tau-2 Bench за одну итерацию. Система использует Claude Code в REPL-среде для анализа сбоев и принятия решений о корректировках промптов или кода.