Problèmes techniques et controverses communautaires d'Ollama

✍️ OpenClawRadar📅 Publié: April 18, 2026🔗 Source
Problèmes techniques et controverses communautaires d'Ollama
Ad

Technologie de base d'Ollama et problèmes d'attribution

La capacité d'inférence complète d'Ollama provenait à l'origine de llama.cpp, le moteur d'inférence en C++ créé par Georgi Gerganov en mars 2023. Pendant plus d'un an, le README d'Ollama ne mentionnait pas llama.cpp, et leurs distributions binaires n'incluaient pas l'avis de licence MIT requis pour le code llama.cpp qu'ils distribuaient.

La communauté a ouvert l'issue GitHub #3185 début 2024 demandant la conformité des licences, qui est restée plus de 400 jours sans réponse des mainteneurs. Lorsque l'issue #3697 a été ouverte en avril 2024 demandant spécifiquement la reconnaissance de llama.cpp, le co-fondateur d'Ollama Michael Chiang a finalement ajouté une seule ligne en bas du README : "projet llama.cpp fondé par Georgi Gerganov."

Problèmes techniques avec le backend personnalisé

Mi-2025, Ollama a cessé d'utiliser llama.cpp comme backend d'inférence et a construit une implémentation personnalisée directement sur ggml. Ce backend personnalisé a réintroduit des bugs que llama.cpp avait résolus des années auparavant, notamment :

  • Support de sortie structurée cassé
  • Défaillances des modèles de vision
  • Plantages d'assertion GGML sur plusieurs versions
  • Des modèles qui fonctionnaient parfaitement dans llama.cpp en amont échouaient dans Ollama
  • Manque de support pour les types de tenseurs requis par les nouvelles versions comme GPT-OSS 20B

Georgi Gerganov a identifié qu'Ollama avait forké et apporté de mauvaises modifications à GGML.

Ad

Benchmarks de performance

Plusieurs tests communautaires montrent que llama.cpp fonctionne 1,8 fois plus vite qu'Ollama sur le même matériel avec le même modèle :

  • 161 tokens par seconde contre 89 tokens par seconde
  • Sur CPU, l'écart de performance est de 30 à 50 %
  • Une comparaison récente sur Qwen-3 Coder 32B a montré un débit environ 70 % plus élevé avec llama.cpp

La surcharge de performance provient de la couche démon d'Ollama, de mauvaises heuristiques de déchargement GPU et d'un backend vendu qui suit en retard les versions en amont.

Problèmes de nommage des modèles

Lorsque DeepSeek a publié sa famille de modèles R1 en janvier 2025, Ollama a listé les versions distillées plus petites (modèles comme DeepSeek-R1-Distill-Qwen-32B) sans indiquer clairement qu'il s'agissait de versions distillées plutôt que des modèles complets.

📖 Read the full source: HN LLM Tools

Ad

👀 See Also

Deux compétences gratuites de Claude Code : Générateur de tutoriels et Correcteur de prompts
Tools

Deux compétences gratuites de Claude Code : Générateur de tutoriels et Correcteur de prompts

Deux nouvelles compétences Claude Code gratuites : create-tutorial génère des tutoriels de lecture de code à partir de vos fichiers de projet réels, et prompter reformule les invites remplies de fautes de frappe en instructions actionnables. Les deux sont sous licence MIT et s'installent via GitHub.

OpenClawRadar
Porte Piast : Proxy API Open-Source pour l'Anonymisation des Données LLM
Tools

Porte Piast : Proxy API Open-Source pour l'Anonymisation des Données LLM

Piast Gate est un proxy API open source qui anonymise les données sensibles avant d'envoyer des requêtes aux LLM et restaure les données originales dans les réponses. La version MVP actuelle prend en charge l'API Google Gemini, la langue polonaise, l'exécution locale, et peut anonymiser du texte ou des documents Word sans traitement par LLM.

OpenClawRadar
Extension Claude Pulse : Affichage des compteurs de jetons, minuteries de cache et limites de taux sur Claude.ai
Tools

Extension Claude Pulse : Affichage des compteurs de jetons, minuteries de cache et limites de taux sur Claude.ai

Claude Pulse est une extension Chrome côté client qui ajoute un tableau de bord en temps réel à Claude.ai, affichant le nombre de tokens par message, l'utilisation totale du contexte, le minuteur d'expiration du cache de prompt et une barre de progression des limites de taux. Inclut également l'exportation de conversations en Markdown.

OpenClawRadar
Superglue CLI : Laissez les agents IA exécuter des appels API sans outils pré-construits
Tools

Superglue CLI : Laissez les agents IA exécuter des appels API sans outils pré-construits

Superglue CLI fournit une compétence qui apprend aux agents d'IA de codage comment utiliser ses commandes, gérer l'authentification, construire des outils et déboguer les échecs. Au lieu de créer des outils pré-construits pour chaque intégration d'API, les agents peuvent lire les spécifications d'API au moment de l'exécution et planifier des appels en plusieurs étapes.

OpenClawRadar