소규모 모델 평가 프롬프트 오해 해결 방법: 3가지 모드 이해

r/LocalLLaMA에 게시된 상세한 분석은 7B 또는 12B 파라미터 모델과 같은 소규모 모델에 대한 평가 프롬프트가 종종 실제 출력 품질과 맞지 않는 오해의 소지가 있고 지나치게 낙관적인 점수를 생성하는 이유를 설명합니다. 핵심 문제는 모델의 능력이 아니라 프롬프트가 트랜스포머 아키텍처에서 서로 다른 인지 경로를 어떻게 활성화시키는지에 있습니다.

트랜스포머의 세 가지 인지 모드

게시물은 프롬프트 언어에 기반하여 모델이 사용하는 세 가지 기능적 경로를 식별합니다:

차원 1 (D1) — 사실 회상: "...이 무엇인가요?", "...을 정의하세요", "...은 언제인가요?"와 같은 질문에 의해 활성화됩니다. 모델은 훈련 중 저장된 지식을 검색합니다. 평가 작업에서는 대부분 관련이 없습니다.
차원 2 (D2) — 응용 및 지시 따르기: "...을 분석하세요", "...을 분류하세요", "이 기준들을 적용하세요"와 같은 언어에 의해 활성화됩니다. 모델은 명시적 규칙을 적용하고, 구조화된 지시를 따르며, 제공된 기준에 대해 입력을 분류합니다. 이는 소규모 모델이 진정으로 유능한 신뢰할 수 있는 경로입니다.
차원 3 (D3) — 감정 및 공감 추론: "이것은 어떻게 느껴져야 할까요?", "어떤 감정적 반응이 적절할까요?", "공감적인 어시스턴트로서..."와 같은 언어에 의해 활성화됩니다. 모델은 명시되지 않은 감정적 맥락을 추론하고, 프롬프트의 증거보다는 RLHF 조건화를 통해 라우팅되어, 상황이 어떻게 "느껴져야 하는지"에 대한 규범적 판단을 내립니다. 소규모 모델은 여기서 신뢰할 수 없으며, 실제 내용과 관계없이 편향이 지속적으로 긍정적이고 지지적인 방향으로 흐릅니다.

라우팅 통찰

핵심 통찰: "감정적 내용을 분석하세요"는 D2를 활성화하고(모델은 텍스트를 보고 분류합니다), 반면 "사용자는 무엇을 느끼고 있어야 할까요?"는 D3를 활성화합니다(모델은 도움이 되는 AI가 무엇을 말할지 추측합니다). 이들은 동등한 질문처럼 느껴지지만 체계적으로 다른 출력을 생성합니다.

구체적인 실패 사례

저자는 대화형 AI 시스템을 위한 Mistral 7B 감정 분석기로 이를 경험적으로 테스트했습니다. 원본 프롬프트(단순화됨):

당신은 감정적 내용을 분석하는 공감적인 AI 동반자입니다. 이 메시지를 분석하고 다음을 반환하세요: { "tone": "따뜻함, 애정, 감사함", "intensity": 0.0에서 1.0, "descriptors": ["예시1", "예시2"] }

무슨 일이 일어났나: 중립적인 메시지는 약간 긍정적인 어조를 반환했습니다. 약간 부정적인 메시지는 중립이거나 약간 긍정적으로 점수 매겨졌습니다. 부정적 내용에 대한 강도 값은 동등한 긍정적 내용에 대한 강도 값보다 지속적으로 낮았습니다. 이 체계적이고 재현 가능한 편향은 긍정적 유령 편향이라고 불립니다 — 모델의 RLHF 조건화가 실제 입력 내용과 관계없이 출력을 지지적이고 긍정적인 반응으로 끌어당기는 현상입니다.

이 실패를 초래한 세 가지 요인:

"공감적인 AI 동반자"가 D3를 활성화하여 모델을 사회적 기대 경로로 전환시켰습니다.
JSON 템플릿의 예시 값("따뜻함, 애정, 감사함")이 모델을 긍정적 출력으로 유도했습니다.
모델은 증거를 분석하기보다는 도움이 되는 AI가 무엇을 말할지 생성하고 있었습니다.

게시물은 소규모 모델이 프롬프트가 의도적으로 D3(감정 추론)보다는 D2(응용/지시 따르기)를 활성화할 때 평가 작업에서 잘 수행할 수 있음을 강조합니다. "감정적 내용을 분석하세요"와 "사용자는 무엇을 느끼고 있어야 할까요?"의 차이는 신뢰할 수 있는 분류를 얻을지, 편향된 사회적 기대 반응을 얻을지를 결정합니다.

📖 전체 출처 읽기: r/LocalLLaMA

작은 모델 평가 프롬프트가 어떻게 오해를 불러일으키는지와 그 해결 방법

트랜스포머의 세 가지 인지 모드

라우팅 통찰

구체적인 실패 사례

👀 See Also

OpenClaw 메모리 플러그인 테스트 결과 및 권장 스택

AWS에서 Claude Code로 월 0.01달러에 서버리스 AI 에이전트 플랫폼 구축하기

실용적인 OpenClaw 조언: 작게 시작하고 흔한 함정 피하기

오픈클로: 당신의 궁극적인 빠른 참조 치트시트