Ollama : Dépendance et régressions de performances

Technologie de base d'Ollama et problèmes d'attribution

La capacité d'inférence complète d'Ollama provenait à l'origine de llama.cpp, le moteur d'inférence en C++ créé par Georgi Gerganov en mars 2023. Pendant plus d'un an, le README d'Ollama ne mentionnait pas llama.cpp, et leurs distributions binaires n'incluaient pas l'avis de licence MIT requis pour le code llama.cpp qu'ils distribuaient.

La communauté a ouvert l'issue GitHub #3185 début 2024 demandant la conformité des licences, qui est restée plus de 400 jours sans réponse des mainteneurs. Lorsque l'issue #3697 a été ouverte en avril 2024 demandant spécifiquement la reconnaissance de llama.cpp, le co-fondateur d'Ollama Michael Chiang a finalement ajouté une seule ligne en bas du README : "projet llama.cpp fondé par Georgi Gerganov."

Problèmes techniques avec le backend personnalisé

Mi-2025, Ollama a cessé d'utiliser llama.cpp comme backend d'inférence et a construit une implémentation personnalisée directement sur ggml. Ce backend personnalisé a réintroduit des bugs que llama.cpp avait résolus des années auparavant, notamment :

Support de sortie structurée cassé
Défaillances des modèles de vision
Plantages d'assertion GGML sur plusieurs versions
Des modèles qui fonctionnaient parfaitement dans llama.cpp en amont échouaient dans Ollama
Manque de support pour les types de tenseurs requis par les nouvelles versions comme GPT-OSS 20B

Georgi Gerganov a identifié qu'Ollama avait forké et apporté de mauvaises modifications à GGML.

Benchmarks de performance

Plusieurs tests communautaires montrent que llama.cpp fonctionne 1,8 fois plus vite qu'Ollama sur le même matériel avec le même modèle :

161 tokens par seconde contre 89 tokens par seconde
Sur CPU, l'écart de performance est de 30 à 50 %
Une comparaison récente sur Qwen-3 Coder 32B a montré un débit environ 70 % plus élevé avec llama.cpp

La surcharge de performance provient de la couche démon d'Ollama, de mauvaises heuristiques de déchargement GPU et d'un backend vendu qui suit en retard les versions en amont.

Problèmes de nommage des modèles

Lorsque DeepSeek a publié sa famille de modèles R1 en janvier 2025, Ollama a listé les versions distillées plus petites (modèles comme DeepSeek-R1-Distill-Qwen-32B) sans indiquer clairement qu'il s'agissait de versions distillées plutôt que des modèles complets.

📖 Read the full source: HN LLM Tools