Ollamas technische Probleme und Kontroversen in der Community

Ollamas Kerntechnologie und Zuschreibungsprobleme
Ollamas gesamte Inferenzfähigkeit stammte ursprünglich von llama.cpp, der C++-Inferenz-Engine, die Georgi Gerganov im März 2023 erstellt hat. Über ein Jahr lang enthielt Ollamas README keine Erwähnung von llama.cpp, und ihre Binärdistributionen enthielten nicht die erforderliche MIT-Lizenznotiz für den llama.cpp-Code, den sie auslieferten.
Die Community eröffnete im Frühjahr 2024 das GitHub-Issue #3185 mit der Bitte um Lizenzkonformität, das über 400 Tage lang ohne Antwort der Maintainer blieb. Als im April 2024 das Issue #3697 speziell zur Anerkennung von llama.cpp eröffnet wurde, fügte Ollamas Mitgründer Michael Chiang schließlich eine einzige Zeile am Ende der README hinzu: "llama.cpp-Projekt gegründet von Georgi Gerganov."
Technische Probleme mit dem eigenen Backend
Mitte 2025 entfernte sich Ollama von der Verwendung von llama.cpp als Inferenz-Backend und baute eine eigene Implementierung direkt auf ggml auf. Dieses eigene Backend führte Fehler wieder ein, die llama.cpp bereits vor Jahren gelöst hatte, darunter:
- Defekte Unterstützung für strukturierte Ausgaben
- Fehler bei Vision-Modellen
- GGML-Assertion-Abstürze über mehrere Versionen hinweg
- Modelle, die im Upstream llama.cpp einwandfrei funktionierten, versagten in Ollama
- Fehlende Unterstützung für Tensor-Typen, die für neue Versionen wie GPT-OSS 20B erforderlich sind
Georgi Gerganov stellte fest, dass Ollama GGML geforkt und schlechte Änderungen vorgenommen hatte.
Leistungsbenchmarks
Mehrere Community-Tests zeigen, dass llama.cpp auf derselben Hardware mit demselben Modell 1,8-mal schneller läuft als Ollama:
- 161 Token pro Sekunde gegenüber 89 Token pro Sekunde
- Auf der CPU beträgt die Leistungslücke 30-50 %
- Ein kürzlicher Vergleich bei Qwen-3 Coder 32B zeigte ~70 % höheren Durchsatz mit llama.cpp
Der Leistungsaufwand kommt von Ollamas Daemon-Schicht, schlechten GPU-Offloading-Heuristiken und einem mitgelieferten Backend, das dem Upstream hinterherhinkt.
Probleme mit der Modellbenennung
Als DeepSeek im Januar 2025 seine R1-Modellfamilie veröffentlichte, listete Ollama die kleineren destillierten Versionen (Modelle wie DeepSeek-R1-Distill-Qwen-32B) auf, ohne klar anzugeben, dass es sich um destillierte und nicht um die Vollversionen handelte.
📖 Read the full source: HN LLM Tools
👀 Siehe auch

Squeez-Tool komprimiert Bash-Ausgaben um über 90 %, um das Claude Code-Kontextfenster zu erweitern
Squeez ist ein Hook, der rohe Bash-Ausgaben wie ps aux, docker logs und git log automatisch komprimiert, bevor sie Claude Code erreichen. Er reduziert den Token-Verbrauch durchschnittlich um 92,8 % bei 19 gängigen Befehlen und hilft so, Sitzungen länger aufrechtzuerhalten.

Claude Code-Plugin analysiert beliebige Plugins und erstellt interaktive Wiki-Berichte.
Ein neues Claude Code-Plugin namens vision-powers analysiert jeden Plugin-Pfad oder GitHub-URL und erstellt einen interaktiven HTML-Wiki-Bericht mit Architekturdiagrammen, Sicherheitsaudits und Fähigkeitsaufschlüsselungen. Die Installation erfolgt über claude plugin add vision-powers@claude-code-zero.

Lokales Tool visualisiert Claude-Code-Sitzungsdaten
Ein Python-Skript liest lokal gespeicherte Claude Code-Sitzungsdaten aus ~/.claude/ und erzeugt eine scrollgesteuerte Visualisierung mit D3.js-Diagrammen, die tägliche Aktivitäten, Projektaufschlüsselung, Tool-Nutzung und Heatmaps zum Codierrhythmus anzeigen.

Reddit-Nutzer teilt KI-Tool zum Abrufen von Kontoständen.
Ein Reddit-Beitrag auf r/openclaw stellt einen KI-Agenten vor, der darauf abzielt, die Sammlung von Kontoständen zu automatisieren, indem er Python nutzt. Die Nutzer diskutieren das Automatisierungspotenzial durch maßgeschneiderte Skripte, die APIs wie Plaid verwenden.