AI 탄수화물 계산 재현성 실패: 1장 사진에 27K 쿼리에서 429g 편차 발생

새로 발표된 프리프린트 논문은 OpenAI GPT-5.4, Anthropic Claude Sonnet 4.6, Google Gemini 2.5 Pro, Google Gemini 3.1 Pro 등 네 가지 AI 모델을 간단한 작업으로 테스트했다: 음식 사진에서 탄수화물을 추정하는 것이다. 동일한 13장의 사진, 동일한 프롬프트, 동일한 설정으로 모델당 500회 이상(총 26,904회 쿼리) 반복했다. 결과는 가장 낮은 무작위성 설정에서도 재현성이 모델마다 극심하게 다름을 보여준다.
주요 발견 사항
- 최악의 편차: Gemini 2.5 Pro가 단일 빠에야 사진에 대해 추정한 범위는 55g에서 484g — 429g 차이였다. 인슐린 대 탄수화물 비율 1:10으로 계산하면 인슐린 42.9단위에 해당한다. 치명적일 수 있는 수치다.
- 중간 변동 계수: Claude 2.4%, GPT-5.4 8.4%, Gemini 3.1 Pro 10.3%, Gemini 2.5 Pro 11.0%.
- 중간 인슐린 변동: Claude 0.9U, GPT-5.4 2.3U, Gemini 3.1 Pro 2.9U, Gemini 2.5 Pro 4.7U.
- 최악의 인슐린 변동: Claude 13.6U, GPT-5.4 16.6U, Gemini 3.1 Pro 16.2U, Gemini 2.5 Pro 42.9U.
“정확히 틀린” 문제
세 모델(Claude, Gemini 2.5 Pro, Gemini 3.1 Pro)은 기준값이 40g(빵 한 조각당 20g으로 포장 라벨에 표시)인 치즈 샌드위치에 대해 독립적으로 약 28g으로 수렴했다. Claude는 510회 쿼리에서 변동 계수 0.3%에 불과했지만, 모든 쿼리가 12g 낮게 추정했다 — 약 1.2U의 일관된 부족 투여였다. GPT-5.4는 반대 방향으로 치우쳐 평균 약 74g으로 높은 변동성을 보였다.
음식 식별 오류
- 베이크웰 타르트: Claude는 100% “린저 토르테”라고 불렀다. GPT-5.4는 “잼 타르트” 또는 “케이크 바”라고 불렀다. Gemini 3.1 Pro만 99.8% 정확히 식별했다.
- 크레마 카탈라나: 네 모델 중 세 모델이 100% “크렘 브륄레”라고 불렀다. Gemini 3.1 Pro는 쿼리의 3.4%만 정확히 맞췄다.
- 치즈 샌드위치: Gemini 3.1 Pro는 쿼리의 17.4%에서 “델리 고기”를 환각했다 — 탄수화물 추정치를 부풀릴 가능성이 있다.
인슐린 투약 위험
강력한 기준값이 있는 5개 이미지에서 Claude는 “임상적으로 유의미한”(2-5U 오류) 또는 “심각한 저혈당 위험”(5U 초과 오류) 영역에 속하는 쿼리가 전혀 없는 유일한 모델이었다. Claude의 쿼리 100%가 안전 또는 중간 영역에 속했다. 다른 모델들은 모든 이미지에서 위험한 이상값을 생성했다.
결론: AI 탄수화물 계산 앱에서 나오는 단일 숫자는 사용자에게 추정치의 근본적인 분포에 대한 가시성을 제공하지 않는다. 높은 일관성(Claude)이 정확성을 보장하지 않는다. 낮은 일관성(Gemini)은 어떤 결과든 생성할 수 있다. 프로덕션 시스템은 이러한 변동성을 고려해야 한다.
📖 전체 출처 읽기: HN AI Agents
👀 See Also

Anthropic, COBOL 코드베이스 분석 AI 도구 출시, IBM 주가 13% 하락
Anthropic이 COBOL 코드베이스를 분석하여 위험을 식별하고 현대화 비용을 절감하는 AI 도구를 출시했습니다. 이 발표는 시장이 이를 IBM의 레거시 시스템 관리 사업에 대한 위협으로 인식하면서 IBM 주가가 13% 하락하는 결과를 초래했습니다.

Claude-Code v2.1.108은 프롬프트 캐싱 제어, 요약 기능, 슬래시 명령어 탐색 기능을 추가했습니다.
Claude-Code v2.1.108는 캐시 TTL 제어를 위한 ENABLE_PROMPT_CACHING_1H 및 FORCE_PROMPT_CACHING_5M 환경 변수를 도입하고, /config 또는 /recap를 통해 구성 가능한 세션 요약 기능을 추가하며, 모델이 Skill 도구를 통해 내장 슬래시 명령어를 발견할 수 있도록 합니다.

VS Code, Copilot 공동 작성자 트레일러를 기본 활성화
마이크로소프트의 VS Code PR #310226은 git.addAICoAuthor 설정 기본값을 'off'에서 'all'로 변경하여, AI 생성 기여에 대해 Co-authored-by 트레일러를 자동으로 추가합니다. 해당 PR은 또한 repository.ts의 런타임 폴백 불일치를 드러냅니다.

AI가 당신의 데이터베이스를 삭제한 것이 아닙니다 — 당신이 그랬습니다: AI 코딩 에이전트 시대의 책임
바이러스처럼 퍼진 이야기에서 AI 에이전트가 프로덕션 데이터베이스를 삭제했다고 비난했지만, 실제 문제는 파괴적인 API 엔드포인트를 노출하고 절차가 부족한 것이지 도구 자체의 문제가 아닙니다.