프롬프트 품질 vs 모델 선택: 50회 테스트 결과

한 Reddit 사용자가 한 AI 모델이 다른 모델보다 더 똑똑하다는 일반적인 주장을 테스트하기 위해 실험을 진행했습니다. 열 가지 일반적인 프롬프트를 가져와 각각 ChatGPT 4, Claude Sonnet, Gemini 1.5 Pro에 다섯 번씩 실행하여 총 150개의 출력을 얻었습니다.

발견한 결과: 출력 품질이 이상할 정도로 비슷했습니다. 완전히 동일하지는 않았지만, 같은 수준에 속했습니다. 세 모델 모두 뭔가 쓸 만한 것을 제공하거나, 모두 "평범한 형편없는 결과"를 제공했습니다. 프롬프트가 답변 가능한지에 대해 거의 의견이 갈리지 않았습니다. 변수는 모델이 아니라 프롬프트였습니다.

두 가지 프롬프트, 다른 결과

동일한 모호한 프롬프트는 모든 모델에서 똑같이 밋밋한 출력을 생성했습니다. 예를 들어:

"마케팅 직무를 위한 자기소개서를 작성해줘"

세 모델 모두 동일한 종류의 일반적이고 누구에게나 적용 가능한 자기소개서를 반환했습니다. 사람들은 그것을 "ChatGPT 자기소개서"라고 부르다가 Claude를 시도하면 "Claude 자기소개서"라고 부르겠지만, 같은 편지에 이름만 다른 것입니다.

하지만 구체적인 프롬프트는 모든 것을 바꿨습니다:

"B2B SaaS 회사의 시니어 마케팅 직무를 위한 자기소개서를 작성해줘. 나는 7년의 성장 경험이 있으며, 주로 시리즈 A/B 스타트업에서 근무했어. 채용 담당자는 기술 전문가 출신의 엔지니어야. '열정적인', '결과 중심' 같은 일반적인 표현은 피해줘. 내 배경에서 구체적인 숫자를 사용하되, 그럴듯한 숫자를 만들어도 돼. 분량은 280단어를 목표로 해줘."

세 모델 모두 실제로 좋은 결과를 반환했습니다. 스타일은 달랐지만, 모두 유용했습니다.

불만의 일반적인 패턴

사용자는 Twitter와 Reddit에서 수십 개의 "AI 정말 형편없다"는 불만을 검토했고, 동일한 패턴을 발견했습니다: 다음과 같은 프롬프트:

"내 이력서를 도와줘"
"마케팅 계획을 작성해줘"
"양자 물리학을 설명해줘"
"이 코드를 더 좋게 만들어줘"

이러한 프롬프트는 당신이 누구인지, 누구를 위한 것인지, 좋은 결과가 무엇인지, 무엇을 피해야 하는지를 명시하지 않기 때문에 실패합니다. 모델은 해당 요청의 가장 일반적인 버전(즉, 평범한 템플릿)을 추측해야 합니다.

멘탈 모델: 프롬프트를 브리핑으로

핵심 통찰: "AI에게 질문을 던진다"고 생각하지 마세요. "인턴에게 브리핑을 작성한다"고 생각하세요. 좋은 브리핑은 인턴에게 대상 독자, 성공의 기준, 피해야 할 점, 형식, 제약 조건, 그리고 원하는 출력의 예시를 최소 하나 이상 알려줍니다.

사용자가 프롬프트를 브리핑처럼 작성하기 시작하자 모델 전환은 줄었습니다. ChatGPT, Claude, Gemini 모두 극적으로 좋아졌습니다. 모델이 바뀌어서가 아니라 프롬프트가 바뀌었기 때문입니다.

만약 한 모델이 나쁜 결과를 준다고 해서 모델을 바꾸고 싶다면, 먼저 프롬프트를 다듬어 보세요. 모델 간 차이는 실제로 존재하지만 프롬프트 차이보다 훨씬 작습니다.

📖 전체 출처 읽기: r/ClaudeAI

애매한 프롬프트가 모델보다 진짜 문제다 — 50회 테스트 결과 프롬프트 품질이 모델 선택보다 중요함

두 가지 프롬프트, 다른 결과

불만의 일반적인 패턴

멘탈 모델: 프롬프트를 브리핑으로

👀 See Also

6GB VRAM 노트북에서 완전 로컬 AI 에이전트 실행하기: 학생들을 위한 단계별 가이드

클로드 CLI v2.1.154, 로컬 vLLM 중단 — 한 줄 패치로 해결

비용 효율적인 OpenClaw 자동화: 필요할 때만 LLM 활용

AI 에이전트의 멍청함 해결하기: 저장소당 공유 컨텍스트 트리