AIによる炭水化物カウントは再現性に欠ける:1枚の写真で27,000件のクエリに429gのばらつき

新たに公開されたプレプリントでは、4つのAIモデル(OpenAI GPT-5.4、Anthropic Claude Sonnet 4.6、Google Gemini 2.5 Pro、Google Gemini 3.1 Pro)に対し、食品写真から炭水化物を推定する単純なタスクを課した。同じ13枚の写真、同じプロンプト、同じ設定で、モデルごとに500回以上のクエリ(合計26,904クエリ)を繰り返した。その結果、最も低いランダム性設定でも、再現性はモデル間で大きく異なることが明らかになった。
主な発見
- 最悪のばらつき: Gemini 2.5 Proによるパエリア写真の推定値は55gから484gの範囲で、429gもの差があった。1:10のインスリン対炭水化物比では、42.9単位のインスリンに相当する。致命的な事態になりかねない。
- 中央値の変動(CV): Claude 2.4%、GPT-5.4 8.4%、Gemini 3.1 Pro 10.3%、Gemini 2.5 Pro 11.0%。
- 中央値のインスリン変動: Claude 0.9U、GPT-5.4 2.3U、Gemini 3.1 Pro 2.9U、Gemini 2.5 Pro 4.7U。
- 最悪のインスリン変動: Claude 13.6U、GPT-5.4 16.6U、Gemini 3.1 Pro 16.2U、Gemini 2.5 Pro 42.9U。
「正確に間違う」問題
3つのモデル(Claude、Gemini 2.5 Pro、Gemini 3.1 Pro)は、チーズサンドイッチについて独立して約28gと推定したが、参照値は40g(パッケージ表示:パン1枚あたり20g)だった。Claudeは510クエリでCV0.3%と極めて安定していたが、すべてのクエリで12g低く、一貫して約1.2U不足していた。GPT-5.4は逆方向に振れ、平均約74gで高い変動性を示した。
食品識別の誤り
- ベイクウェルタルト: Claudeは100%「リンツァートルテ」と判定。GPT-5.4は「ジャムタルト」または「ケーキバー」と判定。正しく識別できたのはGemini 3.1 Proのみ(99.8%)。
- クレマカタラーナ: 4モデル中3モデルが100%「クレームブリュレ」と判定。Gemini 3.1 Proが正解したのはわずか3.4%だった。
- チーズサンドイッチ: Gemini 3.1 Proは17.4%のクエリで「デリミート」という幻覚を起こし、炭水化物推定値を過大評価する可能性がある。
インスリン投与リスク
強い参照値がある5枚の画像では、Claudeのみが「臨床的に有意」(2-5U誤差)または「重度低血糖リスク」(5U超誤差)のゾーンに該当するクエリがゼロだった。Claudeのクエリはすべて安全または中等度のゾーンに収まった。他のモデルはすべての画像で危険な外れ値を生み出した。
結論:AIによる炭水化物カウントアプリから得られる単一の数値では、推定値の背後にある分布をユーザーが把握できない。高い一貫性(Claude)は正確性を保証しない。低い一貫性(Gemini)は任意の結果を生む可能性がある。実運用システムはこのばらつきを考慮する必要がある。
📖 全文ソースを読む: HN AI Agents
👀 See Also

OpenClawはAIエージェントで開発者を支援し、一方GethCityは思考ネットワークで革新を進めています。
OpenClawがAIエージェントサービスを開始し、コーディングをより迅速かつ効率的にします。一方、GethCityは人間の思考プロセスを模倣するネットワークを導入しました。自動化を推進する革新を発見しましょう。

CEOによる最近の調査では、AIが生産性と雇用に与える影響は最小限であると報告されています。
6,000人の経営幹部を対象とした調査によると、90%が過去3年間でAIが雇用や生産性に影響を与えていないと報告し、AIの平均使用時間は週1.5時間でした。経済学者はこれを、1980年代のIT時代におけるソローの生産性パラドックスと比較しています。

Qwen3.6 Plusと欧米のSOTAモデルとのベンチマーク比較
Qwen3.6 Plusは、SWE-bench Verifiedで78.8、GPQA/GPQA Diamondで90.4、HLE(ツールなし)で28.8、MMMU-Proで78.8のスコアを獲得し、GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro Previewなどのモデルと競合する位置にあります。

Anthropicは、AI制限をめぐる国防総省のブラックリスト指定を防ぐため訴訟を起こす
ロイター通信がHacker Newsで共有した報道によると、AnthropicはAI利用制限をめぐり国防総省によるブラックリスト指定を阻止するため訴訟を起こした。