Ollama: Problemas Técnicos e Controvérsia na Comunidade

Tecnologia Central e Problemas de Atribuição do Ollama

Toda a capacidade de inferência do Ollama originalmente veio do llama.cpp, o mecanismo de inferência em C++ criado por Georgi Gerganov em março de 2023. Por mais de um ano, o README do Ollama não mencionava o llama.cpp, e suas distribuições binárias não incluíam o aviso de licença MIT obrigatório para o código do llama.cpp que estavam distribuindo.

A comunidade abriu a issue #3185 no GitHub no início de 2024 solicitando conformidade com a licença, que passou mais de 400 dias sem resposta dos mantenedores. Quando a issue #3697 foi aberta em abril de 2024 especificamente solicitando o reconhecimento do llama.cpp, o cofundador do Ollama, Michael Chiang, eventualmente adicionou uma única linha no final do README: "projeto llama.cpp fundado por Georgi Gerganov."

Problemas Técnicos com o Backend Personalizado

Em meados de 2025, o Ollama deixou de usar o llama.cpp como seu backend de inferência e construiu uma implementação personalizada diretamente sobre o ggml. Este backend personalizado reintroduziu bugs que o llama.cpp havia resolvido anos antes, incluindo:

Suporte a saída estruturada quebrado
Falhas em modelos de visão
Falhas de asserção GGML em várias versões
Modelos que funcionavam bem no llama.cpp original falhavam no Ollama
Falta de suporte para tipos de tensor exigidos por novos lançamentos como o GPT-OSS 20B

Georgi Gerganov identificou que o Ollama havia feito um fork e implementado alterações problemáticas no GGML.

Benchmarks de Desempenho

Vários testes da comunidade mostram o llama.cpp executando 1,8x mais rápido que o Ollama no mesmo hardware com o mesmo modelo:

161 tokens por segundo versus 89 tokens por segundo
Em CPU, a diferença de desempenho é de 30-50%
Uma comparação recente com o Qwen-3 Coder 32B mostrou ~70% maior throughput com o llama.cpp

A sobrecarga de desempenho vem da camada de daemon do Ollama, heurísticas ruins de descarga para GPU e um backend personalizado que fica atrás do original.

Problemas com Nomenclatura de Modelos

Quando a DeepSeek lançou sua família de modelos R1 em janeiro de 2025, o Ollama listou as versões destiladas menores (modelos como DeepSeek-R1-Distill-Qwen-32B) sem indicar claramente que eram destilados em vez dos modelos completos.

📖 Leia a fonte completa: HN LLM Tools

Problemas Técnicos e Controvérsia na Comunidade do Ollama

Tecnologia Central e Problemas de Atribuição do Ollama

Problemas Técnicos com o Backend Personalizado

Benchmarks de Desempenho

Problemas com Nomenclatura de Modelos

👀 See Also

Jogo de Quebra-Cabeça para Bots com Prêmios: Um Novo Desafio para Programadores de IA

ClearSpec: Um Gerador de Especificações para Reduzir Alucinações no Código Claude

LogClaw: SRE de IA de Código Aberto para Criação Automática de Chamados a partir de Logs

Claude Auto-Continue: Extensão do Chrome automatiza interrupções do limite de uso de ferramentas