Проблемы Ollama: критика и технические сбои

Основные технологии Ollama и проблемы с атрибуцией

Вся способность к выводу Ollama изначально была получена от llama.cpp, механизма вывода на C++, созданного Георгием Гергановым в марте 2023 года. Более года в README Ollama не упоминался llama.cpp, а их бинарные дистрибутивы не включали необходимое уведомление о лицензии MIT для кода llama.cpp, который они распространяли.

Сообщество открыло issue #3185 на GitHub в начале 2024 года с запросом о соблюдении лицензии, который оставался без ответа от сопровождающих более 400 дней. Когда в апреле 2024 года был открыт issue #3697 с конкретным запросом о признании llama.cpp, сооснователь Ollama Майкл Чианг в итоге добавил одну строку внизу README: "Проект llama.cpp основан Георгием Гергановым."

Технические проблемы с собственным бэкендом

В середине 2025 года Ollama отказалась от использования llama.cpp в качестве бэкенда для вывода и создала собственную реализацию напрямую на основе ggml. Этот собственный бэкенд вернул ошибки, которые llama.cpp решил годами ранее, включая:

Сломанную поддержку структурированного вывода
Сбои моделей зрения
Аварии утверждений GGML в нескольких версиях
Модели, которые отлично работали в исходном llama.cpp, не работали в Ollama
Отсутствие поддержки типов тензоров, необходимых для новых выпусков, таких как GPT-OSS 20B

Георгий Герганов выявил, что Ollama форкнула и внесла плохие изменения в GGML.

Бенчмарки производительности

Множественные тесты сообщества показывают, что llama.cpp работает в 1,8 раза быстрее, чем Ollama, на том же оборудовании с той же моделью:

161 токен в секунду против 89 токенов в секунду
На CPU разрыв в производительности составляет 30-50%
Недавнее сравнение на Qwen-3 Coder 32B показало примерно на 70% более высокую пропускную способность у llama.cpp

Накладные расходы на производительность возникают из-за демон-слоя Ollama, плохой эвристики разгрузки GPU и вендорного бэкенда, который отстаёт от основного.

Проблемы с наименованием моделей

Когда DeepSeek выпустила своё семейство моделей R1 в январе 2025 года, Ollama перечислила уменьшенные дистиллированные версии (модели, такие как DeepSeek-R1-Distill-Qwen-32B), не указывая чётко, что они были дистиллированными, а не полными моделями.

📖 Read the full source: HN LLM Tools

Технические проблемы Ollama и споры в сообществе

Основные технологии Ollama и проблемы с атрибуцией

Технические проблемы с собственным бэкендом

Бенчмарки производительности

Проблемы с наименованием моделей

👀 Смотрите также

Навык Claude Code с открытым исходным кодом /unzuck организует ленты социальных сетей в единую панель управления.

CC-Canary: Обнаружение регрессий в Claude Code с помощью локального анализа JSONL

git-courer: MCP-сервер, который заставляет AI-агентов писать правильные Git-коммит-сообщения

AI Chat Exporter: Расширение для Chrome для создания высококачественных PDF-файлов из диалогов с Claude