AI 탄수화물 계산 실패: 27K 쿼리 편차 최대 429g

새로 발표된 프리프린트 논문은 OpenAI GPT-5.4, Anthropic Claude Sonnet 4.6, Google Gemini 2.5 Pro, Google Gemini 3.1 Pro 등 네 가지 AI 모델을 간단한 작업으로 테스트했다: 음식 사진에서 탄수화물을 추정하는 것이다. 동일한 13장의 사진, 동일한 프롬프트, 동일한 설정으로 모델당 500회 이상(총 26,904회 쿼리) 반복했다. 결과는 가장 낮은 무작위성 설정에서도 재현성이 모델마다 극심하게 다름을 보여준다.

주요 발견 사항

최악의 편차: Gemini 2.5 Pro가 단일 빠에야 사진에 대해 추정한 범위는 55g에서 484g — 429g 차이였다. 인슐린 대 탄수화물 비율 1:10으로 계산하면 인슐린 42.9단위에 해당한다. 치명적일 수 있는 수치다.
중간 변동 계수: Claude 2.4%, GPT-5.4 8.4%, Gemini 3.1 Pro 10.3%, Gemini 2.5 Pro 11.0%.
중간 인슐린 변동: Claude 0.9U, GPT-5.4 2.3U, Gemini 3.1 Pro 2.9U, Gemini 2.5 Pro 4.7U.
최악의 인슐린 변동: Claude 13.6U, GPT-5.4 16.6U, Gemini 3.1 Pro 16.2U, Gemini 2.5 Pro 42.9U.

“정확히 틀린” 문제

세 모델(Claude, Gemini 2.5 Pro, Gemini 3.1 Pro)은 기준값이 40g(빵 한 조각당 20g으로 포장 라벨에 표시)인 치즈 샌드위치에 대해 독립적으로 약 28g으로 수렴했다. Claude는 510회 쿼리에서 변동 계수 0.3%에 불과했지만, 모든 쿼리가 12g 낮게 추정했다 — 약 1.2U의 일관된 부족 투여였다. GPT-5.4는 반대 방향으로 치우쳐 평균 약 74g으로 높은 변동성을 보였다.

음식 식별 오류

베이크웰 타르트: Claude는 100% “린저 토르테”라고 불렀다. GPT-5.4는 “잼 타르트” 또는 “케이크 바”라고 불렀다. Gemini 3.1 Pro만 99.8% 정확히 식별했다.
크레마 카탈라나: 네 모델 중 세 모델이 100% “크렘 브륄레”라고 불렀다. Gemini 3.1 Pro는 쿼리의 3.4%만 정확히 맞췄다.
치즈 샌드위치: Gemini 3.1 Pro는 쿼리의 17.4%에서 “델리 고기”를 환각했다 — 탄수화물 추정치를 부풀릴 가능성이 있다.

인슐린 투약 위험

강력한 기준값이 있는 5개 이미지에서 Claude는 “임상적으로 유의미한”(2-5U 오류) 또는 “심각한 저혈당 위험”(5U 초과 오류) 영역에 속하는 쿼리가 전혀 없는 유일한 모델이었다. Claude의 쿼리 100%가 안전 또는 중간 영역에 속했다. 다른 모델들은 모든 이미지에서 위험한 이상값을 생성했다.

결론: AI 탄수화물 계산 앱에서 나오는 단일 숫자는 사용자에게 추정치의 근본적인 분포에 대한 가시성을 제공하지 않는다. 높은 일관성(Claude)이 정확성을 보장하지 않는다. 낮은 일관성(Gemini)은 어떤 결과든 생성할 수 있다. 프로덕션 시스템은 이러한 변동성을 고려해야 한다.

📖 전체 출처 읽기: HN AI Agents