KI-Agent auf Nokia: 18 Versuche bis Erfolg

Ein Entwickler versuchte, Picobot, einen ~12 MB großen KI-Agenten als einzelne Go-Binärdatei, auf einem alten Nokia-Android-Handy über Termux laufen zu lassen. Das Ziel war ein 24/7-Taschenassistent mit Telegram-Integration, Werkzeugunterstützung (Webabruf, Shell), Gedächtnisfunktion und minimalen laufenden Kosten.

Die 18 gescheiterten Versuche

Versuche 1–4 nutzten kostenlose OpenRouter-Modelle (Gemini flash-exp, Qwen 2.5 7B, Llama 3.3 70B, Llama 3.2 3B), die alle mit 404-Fehlern "Keine Endpunkte gefunden, die Werkzeugnutzung unterstützen" oder ungültigen Modell-ID-Fehlern scheiterten. Das kostenlose Routing aktivierte die Werkzeugnutzung bei den meisten kleinen Modellen nicht.

Versuche 5–8 nutzten Groq direkt (Llama 3.3 70B, Mixtral 8x7B, Llama 3.1 8B, Gemma 2 9B). Die Modelle waren entweder eingestellt (400-Fehler) oder erzeugten halluzinierte ungültige Werkzeugformate (XML <function>-Tags), was zu 400 tool_use_failed-Fehlern oder endlosen Antwortschleifen führte.

Versuch 9 nutzte GLM-4.5-Air :free, der zunächst mit Witzen und Wetterabfragen funktionierte, aber eine AAPL-Aktienabfrage sprengte den Kontext (~330k Tokens) und führte zu einem 400-Überlauffehler.

Versuche 10–11 testeten weitere kostenlose OpenRouter-Modelle (Llama 3.1 70B, Qwen 3 8B) mit demselben Problem fehlender Werkzeugendpunkte (404).

Versuch 12 nutzte Groq Llama 3.1 8B mit temperature=0.3, hatte aber weiterhin Tag-Halluzinationen und Schleifen.

Versuch 13 testete Claude 3.5 Sonnet über einen OpenRouter-Proxy, was zu 402 Payment Required führte, da das OpenRouter-Guthaben bei 0 $ lag.

Versuch 14 lud 5 $ auf OpenRouter auf, was den Proxy authentifizierte und grundlegende Antworten ermöglichte.

Versuch 15 nutzte dasselbe Claude 3.5-Modell, stieß aber bei längeren Abfragen auf Kontextüberlauf.

Versuch 16 wechselte zu Sonnet 4.6 (neueste Version), aber eine Modellnamen-Ungleichheit verursachte einen 404-Fehler.

Versuch 17 beinhaltete einen Konfigurations-Tippfehler/Neustart, der Telegram deaktivierte und den Token löschte.

Die endgültige funktionierende Lösung

Versuch 18 gelang mit gemini-2.5-flash über die direkte Google-API. Dieses Setup ist schnell, zuverlässig, mit sauberen Antworten, ohne Abschneideprobleme und ausreichender Werkzeugnutzung für die Bedürfnisse des Entwicklers.

Anbieter: Direkte Google Gemini API (mit persönlichem API-Schlüssel)
Modell: gemini-2.5-flash
Kosten: Derzeit kostenlos unter Googles kostenlosem Kontingent (500 Anfragen/Tag mit verknüpftem Abrechnungsprojekt)
Telegram: Bot-Token und Kanal aktiviert mit sauberer Nachrichtenverarbeitung

Warum OpenRouter ursprünglich die Standardwahl war

Picobots Ersteller wählte OpenRouter, weil es die Binärdatei winzig und den Code einfach hält: Ein OpenAI-kompatibler Endpunkt leitet zu Dutzenden von Modellen/Anbietern weiter, Benutzer wechseln Modelle durch Ändern einer Zeile in config.json, es unterstützt kostenlose Stufe + BYOK, normalisiert Werkzeugaufrufe über Anbieter hinweg und hat Community-Schwung als universeller Router für Open-Source-Agenten.

Allerdings stieß der Entwickler auf zu viele Einschränkungen bei OpenRouter: Lücken in der Werkzeugunterstützung, Einstellungen, Ratenbegrenzungen, Proxy-Gebühren und Validierungsprobleme.

Abwägungen

Die kostenlose Stufe hat Grenzen (500 Anfragen pro Tag) – Überschreitungen verursachen minimale Kosten (~0,01–0,05 $/Nachricht)
Nicht vollständig lokal/privat (Cloud-Modell), aber schnell und intelligent ohne Hardwaregrenzen des Handys
Für langfristig null Gebühren ist lokales Ollama auf dem Mac eine Option, aber langsamer und weniger leistungsfähig für Werkzeuge

📖 Read the full source: r/LocalLLaMA

Debugging eines winzigen KI-Agenten auf einem alten Nokia-Handy: 18 Versuche bis zum Erfolg

Die 18 gescheiterten Versuche

Die endgültige funktionierende Lösung

Warum OpenRouter ursprünglich die Standardwahl war

Abwägungen

👀 Siehe auch

Fallstudie: Entwicklung einer Full-Stack-Webanwendung mit Claude in sechs Wochen

Claude Partner-Programm: Zwei-Personen-Beratung löst Zehn-Personen-Anforderung mit zertifizierten Unabhängigen

Echtzeit-Konfliktmonitor, entwickelt mit der Claude-API, analysiert Nachrichtenauswirkungen

Verwendung von Claude als Lernmentor mit Dokumentationskontext