AI炭水化物カウントの再現性問題：Gemini 2.5 Proで429gのばらつき

新たに公開されたプレプリントでは、4つのAIモデル（OpenAI GPT-5.4、Anthropic Claude Sonnet 4.6、Google Gemini 2.5 Pro、Google Gemini 3.1 Pro）に対し、食品写真から炭水化物を推定する単純なタスクを課した。同じ13枚の写真、同じプロンプト、同じ設定で、モデルごとに500回以上のクエリ（合計26,904クエリ）を繰り返した。その結果、最も低いランダム性設定でも、再現性はモデル間で大きく異なることが明らかになった。

主な発見

最悪のばらつき: Gemini 2.5 Proによるパエリア写真の推定値は55gから484gの範囲で、429gもの差があった。1:10のインスリン対炭水化物比では、42.9単位のインスリンに相当する。致命的な事態になりかねない。
中央値の変動（CV）: Claude 2.4%、GPT-5.4 8.4%、Gemini 3.1 Pro 10.3%、Gemini 2.5 Pro 11.0%。
中央値のインスリン変動: Claude 0.9U、GPT-5.4 2.3U、Gemini 3.1 Pro 2.9U、Gemini 2.5 Pro 4.7U。
最悪のインスリン変動: Claude 13.6U、GPT-5.4 16.6U、Gemini 3.1 Pro 16.2U、Gemini 2.5 Pro 42.9U。

「正確に間違う」問題

3つのモデル（Claude、Gemini 2.5 Pro、Gemini 3.1 Pro）は、チーズサンドイッチについて独立して約28gと推定したが、参照値は40g（パッケージ表示：パン1枚あたり20g）だった。Claudeは510クエリでCV0.3%と極めて安定していたが、すべてのクエリで12g低く、一貫して約1.2U不足していた。GPT-5.4は逆方向に振れ、平均約74gで高い変動性を示した。

食品識別の誤り

ベイクウェルタルト: Claudeは100%「リンツァートルテ」と判定。GPT-5.4は「ジャムタルト」または「ケーキバー」と判定。正しく識別できたのはGemini 3.1 Proのみ（99.8%）。
クレマカタラーナ: 4モデル中3モデルが100%「クレームブリュレ」と判定。Gemini 3.1 Proが正解したのはわずか3.4%だった。
チーズサンドイッチ: Gemini 3.1 Proは17.4%のクエリで「デリミート」という幻覚を起こし、炭水化物推定値を過大評価する可能性がある。