Ollama Probleme: Lizenzstreit & Backend-Fehler

Ollamas Kerntechnologie und Zuschreibungsprobleme

Ollamas gesamte Inferenzfähigkeit stammte ursprünglich von llama.cpp, der C++-Inferenz-Engine, die Georgi Gerganov im März 2023 erstellt hat. Über ein Jahr lang enthielt Ollamas README keine Erwähnung von llama.cpp, und ihre Binärdistributionen enthielten nicht die erforderliche MIT-Lizenznotiz für den llama.cpp-Code, den sie auslieferten.

Die Community eröffnete im Frühjahr 2024 das GitHub-Issue #3185 mit der Bitte um Lizenzkonformität, das über 400 Tage lang ohne Antwort der Maintainer blieb. Als im April 2024 das Issue #3697 speziell zur Anerkennung von llama.cpp eröffnet wurde, fügte Ollamas Mitgründer Michael Chiang schließlich eine einzige Zeile am Ende der README hinzu: "llama.cpp-Projekt gegründet von Georgi Gerganov."

Technische Probleme mit dem eigenen Backend

Mitte 2025 entfernte sich Ollama von der Verwendung von llama.cpp als Inferenz-Backend und baute eine eigene Implementierung direkt auf ggml auf. Dieses eigene Backend führte Fehler wieder ein, die llama.cpp bereits vor Jahren gelöst hatte, darunter:

Defekte Unterstützung für strukturierte Ausgaben
Fehler bei Vision-Modellen
GGML-Assertion-Abstürze über mehrere Versionen hinweg
Modelle, die im Upstream llama.cpp einwandfrei funktionierten, versagten in Ollama
Fehlende Unterstützung für Tensor-Typen, die für neue Versionen wie GPT-OSS 20B erforderlich sind

Georgi Gerganov stellte fest, dass Ollama GGML geforkt und schlechte Änderungen vorgenommen hatte.

Leistungsbenchmarks

Mehrere Community-Tests zeigen, dass llama.cpp auf derselben Hardware mit demselben Modell 1,8-mal schneller läuft als Ollama:

161 Token pro Sekunde gegenüber 89 Token pro Sekunde
Auf der CPU beträgt die Leistungslücke 30-50 %
Ein kürzlicher Vergleich bei Qwen-3 Coder 32B zeigte ~70 % höheren Durchsatz mit llama.cpp

Der Leistungsaufwand kommt von Ollamas Daemon-Schicht, schlechten GPU-Offloading-Heuristiken und einem mitgelieferten Backend, das dem Upstream hinterherhinkt.

Probleme mit der Modellbenennung

Als DeepSeek im Januar 2025 seine R1-Modellfamilie veröffentlichte, listete Ollama die kleineren destillierten Versionen (Modelle wie DeepSeek-R1-Distill-Qwen-32B) auf, ohne klar anzugeben, dass es sich um destillierte und nicht um die Vollversionen handelte.

📖 Read the full source: HN LLM Tools

Ollamas technische Probleme und Kontroversen in der Community

Ollamas Kerntechnologie und Zuschreibungsprobleme

Technische Probleme mit dem eigenen Backend

Leistungsbenchmarks

Probleme mit der Modellbenennung

👀 Siehe auch

Gemeinschaftlich gewähltes Modell-Ranking für OpenClaw veröffentlicht.

Open-Source-Wissensdatenbank-Server und Multi-Agent-Orchestrator für persistente KI-Speicherung

iai-mcp: Ein lokaler Daemon für persistenten OpenClaw-Speicher über Sitzungen hinweg

Gemma Gem: KI-Agent auf dem Gerät für Browser-Automatisierung über WebGPU