Die Optimierung von ANE durch telefonisch gesteuerte KI-Experimente zeigt Vorteile der Kernel-Fusion.

Ein Entwickler führte 55 Optimierungsexperimente auf dem autoresearch-ane-Fork durch und steuerte den Prozess hauptsächlich von seinem Telefon aus an einem Samstag. Die Arbeit konzentrierte sich auf Leistungsverbesserungen der Apple Neural Engine (ANE) durch Kerneloptimierung und architektonische Änderungen.
Leistungsverbesserungen
Die Experimente erzielten messbare Verbesserungen in mehreren Metriken:
- Der Validierungsverlust sank von 3,75 (ein Rückfall von optimierten 3,2) auf 2,49
- Die Schrittzeit verbesserte sich von 176 ms auf 96 ms
- Die ANE-Auslastung stieg von 3,6 % auf 6,5 %
Wichtige technische Änderung
Die bedeutendste Verbesserung kam durch Kernel-Fusion: "Die Verschmelzung von 3 ANE-Kerneln zu einem Mega-Kernel eliminierte 12 IOSurface-Rundläufe pro Schritt – diese einzelne Änderung übertraf alle Hyperparameter-Anpassungen zusammen." Diese architektonische Optimierung erwies sich als wirkungsvoller als Parameteranpassungen.
Arbeitsablaufdetails
Der Entwickler verwendete einen unkonventionellen Ansatz:
- Führte Experimente remote durch, gesteuert von seinem Telefon in kurzen Momenten
- Nutzte Claude für Brainstorming und zum Ziehen von Erkenntnissen aus öffentlichen Quellen, die im Repository-README aufgeführt sind
- Näherte sich dem Problem mit "kurzer Aufmerksamkeit und minimaler Token-Eingabe" – spekulierte über Richtungen, anstatt präzise Schritte vorzugeben
- Absolvierte 55 Experimente mit "mehreren Fällen von tatsächlichem Tippen"
- Arbeitete ausschließlich im nicht-destruktiven Modus aufgrund von Berechtigungseinschränkungen ("kein rm -rf /* und ähnliches")
Hauptlernerfolg
Über die technischen Verbesserungen hinaus bemerkte der Entwickler: "Die Hauptlehre ist nicht die Verbesserung selbst. Es ist, dass kurze Aufmerksamkeit und minimale Token-Eingabe – Brainstorming von Richtungen, nicht das Vorgeben von Schritten – echte messbare Gewinne bei einem schwierigen Systemproblem erzielen können."
Die Arbeit wurde auf dem Laptop des Entwicklers durchgeführt, und er erwähnt eine Diskrepanz in der Akzeptanzrate: "55vs45 passt nicht ganz" in Bezug auf die Experimentergebnisse.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

graphify-ts: Lokaler MCP-Server reduziert Claude Code PR-Review-Tokens von 63K auf 8,7K
graphify-ts erstellt einen lokalen Wissensgraphen deiner Codebasis unter Verwendung von tree-sitter AST + Louvain Communities + BM25 + optionalem ONNX-Reranking und stellt ihn über MCP stdio bereit. In Produktionstests reduzierte es die Eingabe-Token für Codeabfragen um das 2,6-fache und die Latenz um das 2,8-fache, und verkürzte PR-Review-Prompts von 63K auf 8,7K Token.

Clooks: Eine persistente Hook-Laufzeitumgebung für Claude Code
Clooks ist ein persistenter HTTP-Daemon, der die Claude Code Hook-Verteilung ohne Prozess-Erzeugung handhabt und die Latenz von ~34,6 ms auf ~0,31 ms pro Aufruf reduziert. Er umfasst automatische Migration, LLM-Handler mit Prompt-Vorlagen, Abhängigkeitsauflösung und Plugin-Paketierung.

Überwachen Sie Ihre Claude AI-Nutzung mit einem neuen Linux-Taskleisten-Widget.
Ein neues Linux-Taskleisten-Widget hilft Benutzern, ihre Nutzung des Claude AI-Abonnements in Echtzeit zu verfolgen, mit farbcodiertem Feedback und einfacher Installation.

GAN-Fähigkeit für Claude Code: Adversarial KI-Tool zur Ideenverfeinerung
Eine Claude Code-Fähigkeit namens /gan nutzt gegnerische KI-Rollen, um Ideen durch abwechselnde Diskriminator- und Generator-Phasen zu kritisieren und zu verbessern, mit Funktionen wie Intensitätsmodi, mehrsprachiger Ausgabe und erzwungener Rollenauswahl, die durch Selbstiteration entwickelt wurden.