작은 모델 평가 프롬프트가 어떻게 오해를 불러일으키는지와 그 해결 방법

r/LocalLLaMA에 게시된 상세한 분석은 7B 또는 12B 파라미터 모델과 같은 소규모 모델에 대한 평가 프롬프트가 종종 실제 출력 품질과 맞지 않는 오해의 소지가 있고 지나치게 낙관적인 점수를 생성하는 이유를 설명합니다. 핵심 문제는 모델의 능력이 아니라 프롬프트가 트랜스포머 아키텍처에서 서로 다른 인지 경로를 어떻게 활성화시키는지에 있습니다.
트랜스포머의 세 가지 인지 모드
게시물은 프롬프트 언어에 기반하여 모델이 사용하는 세 가지 기능적 경로를 식별합니다:
- 차원 1 (D1) — 사실 회상: "...이 무엇인가요?", "...을 정의하세요", "...은 언제인가요?"와 같은 질문에 의해 활성화됩니다. 모델은 훈련 중 저장된 지식을 검색합니다. 평가 작업에서는 대부분 관련이 없습니다.
- 차원 2 (D2) — 응용 및 지시 따르기: "...을 분석하세요", "...을 분류하세요", "이 기준들을 적용하세요"와 같은 언어에 의해 활성화됩니다. 모델은 명시적 규칙을 적용하고, 구조화된 지시를 따르며, 제공된 기준에 대해 입력을 분류합니다. 이는 소규모 모델이 진정으로 유능한 신뢰할 수 있는 경로입니다.
- 차원 3 (D3) — 감정 및 공감 추론: "이것은 어떻게 느껴져야 할까요?", "어떤 감정적 반응이 적절할까요?", "공감적인 어시스턴트로서..."와 같은 언어에 의해 활성화됩니다. 모델은 명시되지 않은 감정적 맥락을 추론하고, 프롬프트의 증거보다는 RLHF 조건화를 통해 라우팅되어, 상황이 어떻게 "느껴져야 하는지"에 대한 규범적 판단을 내립니다. 소규모 모델은 여기서 신뢰할 수 없으며, 실제 내용과 관계없이 편향이 지속적으로 긍정적이고 지지적인 방향으로 흐릅니다.
라우팅 통찰
핵심 통찰: "감정적 내용을 분석하세요"는 D2를 활성화하고(모델은 텍스트를 보고 분류합니다), 반면 "사용자는 무엇을 느끼고 있어야 할까요?"는 D3를 활성화합니다(모델은 도움이 되는 AI가 무엇을 말할지 추측합니다). 이들은 동등한 질문처럼 느껴지지만 체계적으로 다른 출력을 생성합니다.
구체적인 실패 사례
저자는 대화형 AI 시스템을 위한 Mistral 7B 감정 분석기로 이를 경험적으로 테스트했습니다. 원본 프롬프트(단순화됨):
당신은 감정적 내용을 분석하는 공감적인 AI 동반자입니다. 이 메시지를 분석하고 다음을 반환하세요: { "tone": "따뜻함, 애정, 감사함", "intensity": 0.0에서 1.0, "descriptors": ["예시1", "예시2"] }
무슨 일이 일어났나: 중립적인 메시지는 약간 긍정적인 어조를 반환했습니다. 약간 부정적인 메시지는 중립이거나 약간 긍정적으로 점수 매겨졌습니다. 부정적 내용에 대한 강도 값은 동등한 긍정적 내용에 대한 강도 값보다 지속적으로 낮았습니다. 이 체계적이고 재현 가능한 편향은 긍정적 유령 편향이라고 불립니다 — 모델의 RLHF 조건화가 실제 입력 내용과 관계없이 출력을 지지적이고 긍정적인 반응으로 끌어당기는 현상입니다.
이 실패를 초래한 세 가지 요인:
- "공감적인 AI 동반자"가 D3를 활성화하여 모델을 사회적 기대 경로로 전환시켰습니다.
- JSON 템플릿의 예시 값("따뜻함, 애정, 감사함")이 모델을 긍정적 출력으로 유도했습니다.
- 모델은 증거를 분석하기보다는 도움이 되는 AI가 무엇을 말할지 생성하고 있었습니다.
게시물은 소규모 모델이 프롬프트가 의도적으로 D3(감정 추론)보다는 D2(응용/지시 따르기)를 활성화할 때 평가 작업에서 잘 수행할 수 있음을 강조합니다. "감정적 내용을 분석하세요"와 "사용자는 무엇을 느끼고 있어야 할까요?"의 차이는 신뢰할 수 있는 분류를 얻을지, 편향된 사회적 기대 반응을 얻을지를 결정합니다.
📖 전체 출처 읽기: r/LocalLLaMA
👀 See Also

레딧 사용자가 일관된 AI 코딩 지원을 위한 실용적인 클로드 설정 공유
한 개발자가 단일 프롬프트에서 분리된 컨텍스트 파일(about-me.md, my-voice.md, my-rules.md)로 전환하고, 클로드가 컨텍스트를 읽고 질문을 하며 계획을 세운 후 작업을 실행하는 구조화된 워크플로우를 구현한 경험을 설명합니다.

오픈클로에서 AI 에이전트 역량 극대화하기
OpenClaw의 AI는 적절한 모델을 선택하고 구체적인 시스템 컨텍스트를 제공함으로써 최적화될 수 있습니다. Qwen 모델은 자율적인 워크플로우에 중요한 도구 사용에 탁월합니다.

Claude AI를 활용한 대규모 프로젝트를 위한 단독 개발자의 2단계 프롬프팅 방법
한 명의 개발자가 Claude Chat을 설계자로, Claude Code를 빌더로 사용하는 워크플로우를 공유하며, 실패 모드 분석과 검증 게이트를 포함한 두 단계 프롬프트 방법을 소개합니다.

OpenClaw에서 Gemini CLI write_file을 찾을 수 없음 문제 해결: 두 가지 수정 필요
OpenClaw 에이전트가 google-gemini-cli를 사용할 때 잘못된 tools.profile과 서브프로세스의 --approval-mode auto_edit 플래그 누락으로 인해 파일을 쓸 수 없습니다(write_file / default_api_write_file 없음). 해결 방법: 프로필을 full로 설정하고 cliBackends 설정을 통해 플래그를 주입합니다.