Problèmes techniques et controverses communautaires d'Ollama

Technologie de base d'Ollama et problèmes d'attribution
La capacité d'inférence complète d'Ollama provenait à l'origine de llama.cpp, le moteur d'inférence en C++ créé par Georgi Gerganov en mars 2023. Pendant plus d'un an, le README d'Ollama ne mentionnait pas llama.cpp, et leurs distributions binaires n'incluaient pas l'avis de licence MIT requis pour le code llama.cpp qu'ils distribuaient.
La communauté a ouvert l'issue GitHub #3185 début 2024 demandant la conformité des licences, qui est restée plus de 400 jours sans réponse des mainteneurs. Lorsque l'issue #3697 a été ouverte en avril 2024 demandant spécifiquement la reconnaissance de llama.cpp, le co-fondateur d'Ollama Michael Chiang a finalement ajouté une seule ligne en bas du README : "projet llama.cpp fondé par Georgi Gerganov."
Problèmes techniques avec le backend personnalisé
Mi-2025, Ollama a cessé d'utiliser llama.cpp comme backend d'inférence et a construit une implémentation personnalisée directement sur ggml. Ce backend personnalisé a réintroduit des bugs que llama.cpp avait résolus des années auparavant, notamment :
- Support de sortie structurée cassé
- Défaillances des modèles de vision
- Plantages d'assertion GGML sur plusieurs versions
- Des modèles qui fonctionnaient parfaitement dans llama.cpp en amont échouaient dans Ollama
- Manque de support pour les types de tenseurs requis par les nouvelles versions comme GPT-OSS 20B
Georgi Gerganov a identifié qu'Ollama avait forké et apporté de mauvaises modifications à GGML.
Benchmarks de performance
Plusieurs tests communautaires montrent que llama.cpp fonctionne 1,8 fois plus vite qu'Ollama sur le même matériel avec le même modèle :
- 161 tokens par seconde contre 89 tokens par seconde
- Sur CPU, l'écart de performance est de 30 à 50 %
- Une comparaison récente sur Qwen-3 Coder 32B a montré un débit environ 70 % plus élevé avec llama.cpp
La surcharge de performance provient de la couche démon d'Ollama, de mauvaises heuristiques de déchargement GPU et d'un backend vendu qui suit en retard les versions en amont.
Problèmes de nommage des modèles
Lorsque DeepSeek a publié sa famille de modèles R1 en janvier 2025, Ollama a listé les versions distillées plus petites (modèles comme DeepSeek-R1-Distill-Qwen-32B) sans indiquer clairement qu'il s'agissait de versions distillées plutôt que des modèles complets.
📖 Read the full source: HN LLM Tools
👀 See Also

Deux compétences gratuites de Claude Code : Générateur de tutoriels et Correcteur de prompts
Deux nouvelles compétences Claude Code gratuites : create-tutorial génère des tutoriels de lecture de code à partir de vos fichiers de projet réels, et prompter reformule les invites remplies de fautes de frappe en instructions actionnables. Les deux sont sous licence MIT et s'installent via GitHub.

Porte Piast : Proxy API Open-Source pour l'Anonymisation des Données LLM
Piast Gate est un proxy API open source qui anonymise les données sensibles avant d'envoyer des requêtes aux LLM et restaure les données originales dans les réponses. La version MVP actuelle prend en charge l'API Google Gemini, la langue polonaise, l'exécution locale, et peut anonymiser du texte ou des documents Word sans traitement par LLM.

Extension Claude Pulse : Affichage des compteurs de jetons, minuteries de cache et limites de taux sur Claude.ai
Claude Pulse est une extension Chrome côté client qui ajoute un tableau de bord en temps réel à Claude.ai, affichant le nombre de tokens par message, l'utilisation totale du contexte, le minuteur d'expiration du cache de prompt et une barre de progression des limites de taux. Inclut également l'exportation de conversations en Markdown.

Superglue CLI : Laissez les agents IA exécuter des appels API sans outils pré-construits
Superglue CLI fournit une compétence qui apprend aux agents d'IA de codage comment utiliser ses commandes, gérer l'authentification, construire des outils et déboguer les échecs. Au lieu de créer des outils pré-construits pour chaque intégration d'API, les agents peuvent lire les spécifications d'API au moment de l'exécution et planifier des appels en plusieurs étapes.