55 экспериментов ANE: слияние ядер снизило потери на 34%

Разработчик провел 55 экспериментов по оптимизации в форке autoresearch-ane, в основном управляя процессом со своего телефона в субботу. Работа была сосредоточена на улучшении производительности Apple Neural Engine (ANE) за счет оптимизации ядер и архитектурных изменений.

Улучшение производительности

Эксперименты дали измеримые улучшения по нескольким показателям:

Потери при валидации снизились с 3.75 (возврат с оптимизированных 3.2) до 2.49
Время шага улучшилось с 176 мс до 96 мс
Использование ANE увеличилось с 3.6% до 6.5%

Ключевое техническое изменение

Наиболее значительное улучшение пришло от слияния ядер: «Объединение 3 ядер ANE в 1 мега-ядро устранило 12 циклов IOSurface за шаг — это одно изменение превзошло все настройки гиперпараметров вместе взятые». Эта архитектурная оптимизация оказалась более эффективной, чем корректировка параметров.

Детали рабочего процесса

Разработчик использовал нестандартный подход:

Проводил эксперименты удаленно, управляя со своего телефона в короткие моменты
Использовал Claude для мозгового штурма и извлечения идей из публичных источников, перечисленных в README репозитория
Подходил к проблеме с «коротким вниманием и минимальным вводом токенов» — предполагая направления, а не диктуя точные шаги
Выполнил 55 экспериментов с «несколькими случаями фактического набора текста»
Работал только в неразрушающем режиме из-за ограничений прав доступа («никаких rm -rf /* и подобного»)

Основной вывод

Помимо технических улучшений, разработчик отметил: «Основной вывод не в самом улучшении. А в том, что короткое внимание и минимальный ввод токенов — мозговой штурм направления, а не диктовка шагов — могут дать реальные измеримые результаты в сложной системной задаче».

Работа проводилась на ноутбуке разработчика, и он упоминает о несоответствии в проценте принятия: «55 против 45 не совсем сходится» в отношении результатов экспериментов.

📖 Read the full source: r/LocalLLaMA

Оптимизация ANE посредством экспериментов с ИИ, управляемым через телефон, демонстрирует преимущества слияния ядер.

Улучшение производительности

Ключевое техническое изменение

Детали рабочего процесса

Основной вывод

👀 Смотрите также

Skynet: Сеть МногоАгентного Взаимодействия для Кодовых Агентов Claude

Многомодельный рабочий процесс проверки кода, упакованный как переиспользуемый навык

Навык Claude Code сочетает подходы DeepMind Aletheia и Anthropic harness.

Замена Kafka, Redis и RabbitMQ на NATS: опыт разработчика