Bullshit 벤치마크: LLM 무의미 프롬프트 저항력 테스트 결과

Bullshit 벤치마크가 측정하는 것

Bullshit 벤치마크는 대규모 언어 모델(LLM)이 허튼소리 프롬프트를 자신만만하게 답변하기보다 식별하고 반박하는지 테스트하는 도구입니다. 이 벤치마크는 모델이 명백한 허튼소리에 얼마나 따르려는지를 측정하여, 모델이 문제 있는 프롬프트를 지적하기보다 도움이 되려고 시도함으로써 스스로 환각을 유발할 수 있다는 우려를 다룹니다.

주요 벤치마크 결과

원본 자료에 따르면, Claude 모델이 허튼소리 감지에서 Gemini 모델보다 훨씬 더 나은 성능을 보입니다. 결과는 Claude 모델이 이 특정 능력에서 더 우수하다는 직관을 뒷받침합니다.

벤치마크의 한 예시는 Claude가 허튼소리 질문을 성공적으로 식별한 반면 Gemini는 실패한 것을 보여줍니다. 구체적으로, Gemini 3.1 Pro는 높은 사고 노력이 활성화된 상태에서도 명백한 허튼소리 질문을 감지하지 못하고 대신 허튼소리 답변을 생성했습니다.

원본은 Anthropic의 사후 훈련 접근 방식이 Claude의 더 나은 성능에 기여한다고 제안하며, LLM이 개념 간 허위 관계를 생성하는 표면적 연상 사고에 자연스럽게 치우치는 경향이 있음을 지적합니다. Anthropic은 사후 훈련 파이프라인에서 이 문제를 해결한 것으로 보입니다.

AI 코딩 에이전트에 이것이 중요한 이유

AI 코딩 보조 도구를 사용하는 개발자에게 모델이 허튼소리 프롬프트를 인식하는 능력은 중요합니다. 모델이 허튼소리 질문에 자신만만하게 답변하고 반박하지 않으면 사용자를 오도하고 잘못된 코드나 설명을 생성할 수 있습니다. 이 벤치마크는 다양한 모델 간 이 특정 안전 행동을 평가하는 구체적인 방법을 제공합니다.

전체 벤치마크 결과는 https://petergpt.github.io/bullshit-benchmark/viewer/index.html에서 확인할 수 있습니다.

📖 전체 원본 읽기: r/ClaudeAI