Problemas Técnicos e Controvérsia na Comunidade do Ollama

Tecnologia Central e Problemas de Atribuição do Ollama
Toda a capacidade de inferência do Ollama originalmente veio do llama.cpp, o mecanismo de inferência em C++ criado por Georgi Gerganov em março de 2023. Por mais de um ano, o README do Ollama não mencionava o llama.cpp, e suas distribuições binárias não incluíam o aviso de licença MIT obrigatório para o código do llama.cpp que estavam distribuindo.
A comunidade abriu a issue #3185 no GitHub no início de 2024 solicitando conformidade com a licença, que passou mais de 400 dias sem resposta dos mantenedores. Quando a issue #3697 foi aberta em abril de 2024 especificamente solicitando o reconhecimento do llama.cpp, o cofundador do Ollama, Michael Chiang, eventualmente adicionou uma única linha no final do README: "projeto llama.cpp fundado por Georgi Gerganov."
Problemas Técnicos com o Backend Personalizado
Em meados de 2025, o Ollama deixou de usar o llama.cpp como seu backend de inferência e construiu uma implementação personalizada diretamente sobre o ggml. Este backend personalizado reintroduziu bugs que o llama.cpp havia resolvido anos antes, incluindo:
- Suporte a saída estruturada quebrado
- Falhas em modelos de visão
- Falhas de asserção GGML em várias versões
- Modelos que funcionavam bem no llama.cpp original falhavam no Ollama
- Falta de suporte para tipos de tensor exigidos por novos lançamentos como o GPT-OSS 20B
Georgi Gerganov identificou que o Ollama havia feito um fork e implementado alterações problemáticas no GGML.
Benchmarks de Desempenho
Vários testes da comunidade mostram o llama.cpp executando 1,8x mais rápido que o Ollama no mesmo hardware com o mesmo modelo:
- 161 tokens por segundo versus 89 tokens por segundo
- Em CPU, a diferença de desempenho é de 30-50%
- Uma comparação recente com o Qwen-3 Coder 32B mostrou ~70% maior throughput com o llama.cpp
A sobrecarga de desempenho vem da camada de daemon do Ollama, heurísticas ruins de descarga para GPU e um backend personalizado que fica atrás do original.
Problemas com Nomenclatura de Modelos
Quando a DeepSeek lançou sua família de modelos R1 em janeiro de 2025, o Ollama listou as versões destiladas menores (modelos como DeepSeek-R1-Distill-Qwen-32B) sem indicar claramente que eram destilados em vez dos modelos completos.
📖 Leia a fonte completa: HN LLM Tools
👀 See Also

Ferramenta Local de Crítica de Imagens com IA Utiliza Modelos de Visão Ollama para Feedback
Um desenvolvedor criou um aplicativo gratuito para desktop que analisa imagens geradas por IA localmente usando modelos de visão do Ollama. A ferramenta fornece relatórios estruturados de feedback incluindo sugestões de melhorias e aprimoramentos de prompts.

Sonarly: Triagem e Resolução de Alertas de Produção com IA
O Sonarly se conecta com ferramentas de observabilidade para triar e resolver alertas de produção, reduzindo ruído e focando em problemas críticos.

NPCterm: Emulador de Terminal PTY Completo para Agentes de IA via MCP
O NPCterm fornece aos agentes de IA acesso completo ao terminal através de um emulador de terminal PTY headless em memória exposto via MCP. Inclui 15 ferramentas MCP para controle de terminal, detecção de estado de processos e suporte para aplicações TUI.

Repositório Gratuito de Playbook de Lançamento de Produtos de IA para Usuários do Claude
Um desenvolvedor lançou um repositório gratuito contendo um playbook estruturado para lançamento de produtos de IA, projetado para funcionar com o Claude. O repositório organiza a experiência de lançamento em etapas práticas, incluindo estratégia, preparação, execução, e inclui modelos e referências de ferramentas.