Problemas Técnicos e Controvérsia na Comunidade do Ollama

✍️ OpenClawRadar📅 Publicado: April 18, 2026🔗 Source
Problemas Técnicos e Controvérsia na Comunidade do Ollama
Ad

Tecnologia Central e Problemas de Atribuição do Ollama

Toda a capacidade de inferência do Ollama originalmente veio do llama.cpp, o mecanismo de inferência em C++ criado por Georgi Gerganov em março de 2023. Por mais de um ano, o README do Ollama não mencionava o llama.cpp, e suas distribuições binárias não incluíam o aviso de licença MIT obrigatório para o código do llama.cpp que estavam distribuindo.

A comunidade abriu a issue #3185 no GitHub no início de 2024 solicitando conformidade com a licença, que passou mais de 400 dias sem resposta dos mantenedores. Quando a issue #3697 foi aberta em abril de 2024 especificamente solicitando o reconhecimento do llama.cpp, o cofundador do Ollama, Michael Chiang, eventualmente adicionou uma única linha no final do README: "projeto llama.cpp fundado por Georgi Gerganov."

Problemas Técnicos com o Backend Personalizado

Em meados de 2025, o Ollama deixou de usar o llama.cpp como seu backend de inferência e construiu uma implementação personalizada diretamente sobre o ggml. Este backend personalizado reintroduziu bugs que o llama.cpp havia resolvido anos antes, incluindo:

  • Suporte a saída estruturada quebrado
  • Falhas em modelos de visão
  • Falhas de asserção GGML em várias versões
  • Modelos que funcionavam bem no llama.cpp original falhavam no Ollama
  • Falta de suporte para tipos de tensor exigidos por novos lançamentos como o GPT-OSS 20B

Georgi Gerganov identificou que o Ollama havia feito um fork e implementado alterações problemáticas no GGML.

Ad

Benchmarks de Desempenho

Vários testes da comunidade mostram o llama.cpp executando 1,8x mais rápido que o Ollama no mesmo hardware com o mesmo modelo:

  • 161 tokens por segundo versus 89 tokens por segundo
  • Em CPU, a diferença de desempenho é de 30-50%
  • Uma comparação recente com o Qwen-3 Coder 32B mostrou ~70% maior throughput com o llama.cpp

A sobrecarga de desempenho vem da camada de daemon do Ollama, heurísticas ruins de descarga para GPU e um backend personalizado que fica atrás do original.

Problemas com Nomenclatura de Modelos

Quando a DeepSeek lançou sua família de modelos R1 em janeiro de 2025, o Ollama listou as versões destiladas menores (modelos como DeepSeek-R1-Distill-Qwen-32B) sem indicar claramente que eram destilados em vez dos modelos completos.

📖 Leia a fonte completa: HN LLM Tools

Ad

👀 See Also