ИИ-подсчет углеводов провалил воспроизводимость: 27 тысяч запросов показали разброс в 429 г на одном фото

Недавно опубликованный препринт протестировал четыре AI-модели — OpenAI GPT-5.4, Anthropic Claude Sonnet 4.6, Google Gemini 2.5 Pro и Google Gemini 3.1 Pro — на простой задаче: оценить количество углеводов по фотографиям еды. Одни и те же 13 фото, один и тот же промпт, одни и те же настройки, повторённые более 500 раз для каждой модели (всего 26 904 запроса). Результаты показывают, что даже при минимальном уровне случайности воспроизводимость сильно различается между моделями.
Ключевые выводы
- Максимальный разброс: оценки Gemini 2.5 Pro для одного фото паэльи варьировались от 55 г до 484 г — разница в 429 г. При соотношении инсулина к углеводам 1:10 это 42,9 единицы инсулина. Потенциально смертельно.
- Медианное отклонение (CV): Claude 2,4%, GPT-5.4 8,4%, Gemini 3.1 Pro 10,3%, Gemini 2.5 Pro 11,0%.
- Медианное колебание инсулина: Claude 0,9 ЕД, GPT-5.4 2,3 ЕД, Gemini 3.1 Pro 2,9 ЕД, Gemini 2.5 Pro 4,7 ЕД.
- Максимальное колебание инсулина: Claude 13,6 ЕД, GPT-5.4 16,6 ЕД, Gemini 3.1 Pro 16,2 ЕД, Gemini 2.5 Pro 42,9 ЕД.
Проблема «точно неправильно»
Три модели (Claude, Gemini 2.5 Pro, Gemini 3.1 Pro) независимо сошлись на ~28 г для бутерброда с сыром при эталонном значении 40 г (на упаковке указано 20 г на ломтик хлеба). Claude показал всего 0,3% CV в 510 запросах, но каждый запрос занижал результат на 12 г — постоянная недодозировка ~1,2 ЕД. GPT-5.4 ушёл в другую сторону, показывая в среднем ~74 г с высокой вариативностью.
Ошибки идентификации еды
- Тарт с ягодами: Claude в 100% случаев назвал его «Линцер торте». GPT-5.4 называл «джемовым тартом» или «кексом». Только Gemini 3.1 Pro правильно идентифицировал его (99,8%).
- Крема каталана: Три из четырёх моделей в 100% случаев назвали её «крем-брюле». Gemini 3.1 Pro дал правильный ответ только в 3,4% запросов.
- Бутерброд с сыром: Gemini 3.1 Pro в 17,4% запросов «галлюцинировал» наличие мясной нарезки — потенциально завышая оценку углеводов.
Риск дозирования инсулина
Для пяти изображений с надёжными эталонными значениями Claude был единственной моделью, у которой ни один запрос не попал в зоны «клинически значимой» (ошибка 2–5 ЕД) или «высокого риска гипогликемии» (ошибка >5 ЕД). 100% запросов Claude оказались в безопасной или умеренной зонах. Другие модели выдавали опасные выбросы для каждого изображения.
Главный вывод: единственное число от любого AI-приложения для подсчёта углеводов не даёт пользователю представления о лежащем в основе распределении оценок. Высокая согласованность (Claude) не гарантирует точность. Низкая согласованность (Gemini) может дать любой результат. Производственные системы должны учитывать эту вариативность.
📖 Читать полный источник: HN AI Agents
👀 Смотрите также

Локальный Qwen 3.6 против передовых моделей на задаче программирования: одиночный HTML-файл для анимации на Canvas
Пользователь Reddit сравнил локальные квантифицированные версии Qwen 3.6 с ведущими моделями (Claude, Gemini, GPT, Kimi) в задаче создания плотного однофайлового HTML-документа с анимацией вождения на canvas. Локальная модель Qwen 3.6-27B Q4_K_M показала более естественное движение и наслоение, чем некоторые ведущие модели.

Изучение нового чат-слоя, созданного для ИИ-агентов: требуется обратная связь от сообщества!
В мире ИИ и автоматизации появилось захватывающее новшество с введением нового слоя чата для ИИ-агентов. Создатели приглашают пользователей сообщества OpenClaw поделиться своими отзывами. Узнайте о потенциале этого инновационного инструмента.

Статья NYT Magazine о реальном использовании OpenClaw в малом бизнесе — подарок от Reddit
Статья в New York Times Magazine рассказывает о пользователях OpenClaw, которые делятся опытом использования AI-агентов в бизнесе. Материал начинался с поста на Reddit. Включена бесплатная ссылка на статью.

Утечка информации о Mythos от Anthropic раскрывает скрытую высокопроизводительную систему.
Утекшие документы описывают Claude Mythos как «скачок» в производительности с «беспрецедентными киберрисками» и продвинутыми кибервозможностями, в то время как оценка Anthropic в $380 млрд создаёт структурные стимулы поддерживать публичный нарратив «Безопасности».