Ollama問題：ライセンス違反・性能低下とコミュニティ論争

Ollamaのコア技術と帰属表示の問題

Ollamaの推論能力全体は、元々2023年3月にGeorgi Gerganovによって作成されたC++推論エンジンであるllama.cppに由来していました。1年以上にわたり、OllamaのREADMEにはllama.cppへの言及が一切なく、彼らが配布していたバイナリには、同梱していたllama.cppコードに必要なMITライセンスの通知が含まれていませんでした。

コミュニティは2024年初頭にライセンス遵守を求めるGitHub issue #3185を開設しましたが、メンテナからの応答がないまま400日以上が経過しました。2024年4月にllama.cppの承認を具体的に求めるissue #3697が開設された際、Ollamaの共同創設者であるMichael Chiangは最終的にREADMEの末尾に「llama.cppプロジェクトはGeorgi Gerganovによって設立されました」という1行を追加しました。

カスタムバックエンドの技術的問題

2025年半ば、Ollamaは推論バックエンドとしてのllama.cppの使用をやめ、ggml上に直接構築されたカスタム実装に移行しました。このカスタムバックエンドは、llama.cppが数年前に解決していたバグを再導入してしまいました。それには以下のものが含まれます：

構造化出力サポートの不具合
ビジョンモデルの失敗
複数バージョンにわたるGGMLアサーションクラッシュ
上流のllama.cppでは正常に動作したモデルがOllamaでは失敗する
GPT-OSS 20Bなどの新リリースに必要なテンソルタイプのサポート不足

Georgi Gerganovは、OllamaがGGMLをフォークして不適切な変更を加えたことを指摘しました。

性能ベンチマーク

複数のコミュニティテストによると、同じハードウェアとモデルでllama.cppはOllamaよりも1.8倍高速に動作しています：

1秒あたり161トークン対89トークン
CPUでは性能差は30〜50%
最近のQwen-3 Coder 32Bでの比較では、llama.cppで約70%高いスループットを示した

この性能オーバーヘッドは、Ollamaのデーモン層、不十分なGPUオフローディングのヒューリスティック、および上流に遅れをとるベンダーバックエンドに起因しています。

モデル命名の問題

2025年1月にDeepSeekがR1モデルファミリーをリリースした際、Ollamaはより小さな蒸留版モデル（DeepSeek-R1-Distill-Qwen-32Bなどのモデル）を、それらが完全版モデルではなく蒸留版であることを明確に示さずにリストアップしました。

📖 Read the full source: HN LLM Tools

オラマの技術的問題とコミュニティの論争

Ollamaのコア技術と帰属表示の問題

カスタムバックエンドの技術的問題

性能ベンチマーク

モデル命名の問題

👀 See Also

オープンソース記事12 EU AI法対応ロギングライブラリ

自然言語オートエンコーダ：クロードの内部表現をテキストに変換する

Claude Codeによるプログラミング言語構築：カツレツ実験

LLMsは明示的な指示にもかかわらず、構造化された出力に推論を漏洩させる

Ollamaのコア技術と帰属表示の問題

カスタムバックエンドの技術的問題

性能ベンチマーク

モデル命名の問題

👀 See Also

オープンソース 記事12 EU AI法対応ロギングライブラリ

自然言語オートエンコーダ：クロードの内部表現をテキストに変換する

Claude Codeによるプログラミング言語構築：カツレツ実験

LLMsは明示的な指示にもかかわらず、構造化された出力に推論を漏洩させる

オープンソース記事12 EU AI法対応ロギングライブラリ