Debugging eines winzigen KI-Agenten auf einem alten Nokia-Handy: 18 Versuche bis zum Erfolg

Ein Entwickler versuchte, Picobot, einen ~12 MB großen KI-Agenten als einzelne Go-Binärdatei, auf einem alten Nokia-Android-Handy über Termux laufen zu lassen. Das Ziel war ein 24/7-Taschenassistent mit Telegram-Integration, Werkzeugunterstützung (Webabruf, Shell), Gedächtnisfunktion und minimalen laufenden Kosten.
Die 18 gescheiterten Versuche
Versuche 1–4 nutzten kostenlose OpenRouter-Modelle (Gemini flash-exp, Qwen 2.5 7B, Llama 3.3 70B, Llama 3.2 3B), die alle mit 404-Fehlern "Keine Endpunkte gefunden, die Werkzeugnutzung unterstützen" oder ungültigen Modell-ID-Fehlern scheiterten. Das kostenlose Routing aktivierte die Werkzeugnutzung bei den meisten kleinen Modellen nicht.
Versuche 5–8 nutzten Groq direkt (Llama 3.3 70B, Mixtral 8x7B, Llama 3.1 8B, Gemma 2 9B). Die Modelle waren entweder eingestellt (400-Fehler) oder erzeugten halluzinierte ungültige Werkzeugformate (XML <function>-Tags), was zu 400 tool_use_failed-Fehlern oder endlosen Antwortschleifen führte.
Versuch 9 nutzte GLM-4.5-Air :free, der zunächst mit Witzen und Wetterabfragen funktionierte, aber eine AAPL-Aktienabfrage sprengte den Kontext (~330k Tokens) und führte zu einem 400-Überlauffehler.
Versuche 10–11 testeten weitere kostenlose OpenRouter-Modelle (Llama 3.1 70B, Qwen 3 8B) mit demselben Problem fehlender Werkzeugendpunkte (404).
Versuch 12 nutzte Groq Llama 3.1 8B mit temperature=0.3, hatte aber weiterhin Tag-Halluzinationen und Schleifen.
Versuch 13 testete Claude 3.5 Sonnet über einen OpenRouter-Proxy, was zu 402 Payment Required führte, da das OpenRouter-Guthaben bei 0 $ lag.
Versuch 14 lud 5 $ auf OpenRouter auf, was den Proxy authentifizierte und grundlegende Antworten ermöglichte.
Versuch 15 nutzte dasselbe Claude 3.5-Modell, stieß aber bei längeren Abfragen auf Kontextüberlauf.
Versuch 16 wechselte zu Sonnet 4.6 (neueste Version), aber eine Modellnamen-Ungleichheit verursachte einen 404-Fehler.
Versuch 17 beinhaltete einen Konfigurations-Tippfehler/Neustart, der Telegram deaktivierte und den Token löschte.
Die endgültige funktionierende Lösung
Versuch 18 gelang mit gemini-2.5-flash über die direkte Google-API. Dieses Setup ist schnell, zuverlässig, mit sauberen Antworten, ohne Abschneideprobleme und ausreichender Werkzeugnutzung für die Bedürfnisse des Entwicklers.
Anbieter: Direkte Google Gemini API (mit persönlichem API-Schlüssel)
Modell: gemini-2.5-flash
Kosten: Derzeit kostenlos unter Googles kostenlosem Kontingent (500 Anfragen/Tag mit verknüpftem Abrechnungsprojekt)
Telegram: Bot-Token und Kanal aktiviert mit sauberer Nachrichtenverarbeitung
Warum OpenRouter ursprünglich die Standardwahl war
Picobots Ersteller wählte OpenRouter, weil es die Binärdatei winzig und den Code einfach hält: Ein OpenAI-kompatibler Endpunkt leitet zu Dutzenden von Modellen/Anbietern weiter, Benutzer wechseln Modelle durch Ändern einer Zeile in config.json, es unterstützt kostenlose Stufe + BYOK, normalisiert Werkzeugaufrufe über Anbieter hinweg und hat Community-Schwung als universeller Router für Open-Source-Agenten.
Allerdings stieß der Entwickler auf zu viele Einschränkungen bei OpenRouter: Lücken in der Werkzeugunterstützung, Einstellungen, Ratenbegrenzungen, Proxy-Gebühren und Validierungsprobleme.
Abwägungen
- Die kostenlose Stufe hat Grenzen (500 Anfragen pro Tag) – Überschreitungen verursachen minimale Kosten (~0,01–0,05 $/Nachricht)
- Nicht vollständig lokal/privat (Cloud-Modell), aber schnell und intelligent ohne Hardwaregrenzen des Handys
- Für langfristig null Gebühren ist lokales Ollama auf dem Mac eine Option, aber langsamer und weniger leistungsfähig für Werkzeuge
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Fallstudie: Entwicklung einer Full-Stack-Webanwendung mit Claude in sechs Wochen
Ein 19-jähriger Entwickler aus Nepal nutzte Claude, um in sechs Wochen Somnia zu entwickeln und zu veröffentlichen – eine Traumtagebuch-Web-App mit 100 Nutzern und 7 zahlenden Kunden. Der Workflow bestand darin, Claude wie einen Junior-Entwickler mit eng abgesteckten Aufgaben und klaren Akzeptanzkriterien zu behandeln.

Claude Partner-Programm: Zwei-Personen-Beratung löst Zehn-Personen-Anforderung mit zertifizierten Unabhängigen
Eine KI-Beratung mit nur zwei Personen nutzte Claude, um ins Anthropic-Partnerprogramm aufgenommen zu werden. Jetzt hilft Claude ihnen, eine Gruppe zertifizierter Freelancer aufzubauen, um die Anforderung von zehn Mitarbeitern zu erfüllen.

Echtzeit-Konfliktmonitor, entwickelt mit der Claude-API, analysiert Nachrichtenauswirkungen
Ein Entwickler nutzte die Claude-API, um eine automatisierte Pipeline zu erstellen, die Konfliktnachrichten aus über 100 Quellen liest, nach Thema/Land/Schweregrad klassifiziert, Auswirkungsbewertungen (1-100) generiert und dreizeilige intelligente Zusammenfassungen erstellt.

Verwendung von Claude als Lernmentor mit Dokumentationskontext
Ein Entwickler teilt eine Methode, um Claude als Lernwerkzeug zu nutzen, indem er Werkzeugdokumentation in dessen Kontext einfüttert und einen spezifischen Prompt verwendet, um einen aufgabenbasierten Mentor zu erstellen. Der Ansatz überspringt traditionelle Kurse und Tutorials zugunsten von praktischem Lernen mit sofortigem Feedback.