애매한 프롬프트가 모델보다 진짜 문제다 — 50회 테스트 결과 프롬프트 품질이 모델 선택보다 중요함

한 Reddit 사용자가 한 AI 모델이 다른 모델보다 더 똑똑하다는 일반적인 주장을 테스트하기 위해 실험을 진행했습니다. 열 가지 일반적인 프롬프트를 가져와 각각 ChatGPT 4, Claude Sonnet, Gemini 1.5 Pro에 다섯 번씩 실행하여 총 150개의 출력을 얻었습니다.
발견한 결과: 출력 품질이 이상할 정도로 비슷했습니다. 완전히 동일하지는 않았지만, 같은 수준에 속했습니다. 세 모델 모두 뭔가 쓸 만한 것을 제공하거나, 모두 "평범한 형편없는 결과"를 제공했습니다. 프롬프트가 답변 가능한지에 대해 거의 의견이 갈리지 않았습니다. 변수는 모델이 아니라 프롬프트였습니다.
두 가지 프롬프트, 다른 결과
동일한 모호한 프롬프트는 모든 모델에서 똑같이 밋밋한 출력을 생성했습니다. 예를 들어:
"마케팅 직무를 위한 자기소개서를 작성해줘"
세 모델 모두 동일한 종류의 일반적이고 누구에게나 적용 가능한 자기소개서를 반환했습니다. 사람들은 그것을 "ChatGPT 자기소개서"라고 부르다가 Claude를 시도하면 "Claude 자기소개서"라고 부르겠지만, 같은 편지에 이름만 다른 것입니다.
하지만 구체적인 프롬프트는 모든 것을 바꿨습니다:
"B2B SaaS 회사의 시니어 마케팅 직무를 위한 자기소개서를 작성해줘. 나는 7년의 성장 경험이 있으며, 주로 시리즈 A/B 스타트업에서 근무했어. 채용 담당자는 기술 전문가 출신의 엔지니어야. '열정적인', '결과 중심' 같은 일반적인 표현은 피해줘. 내 배경에서 구체적인 숫자를 사용하되, 그럴듯한 숫자를 만들어도 돼. 분량은 280단어를 목표로 해줘."
세 모델 모두 실제로 좋은 결과를 반환했습니다. 스타일은 달랐지만, 모두 유용했습니다.
불만의 일반적인 패턴
사용자는 Twitter와 Reddit에서 수십 개의 "AI 정말 형편없다"는 불만을 검토했고, 동일한 패턴을 발견했습니다: 다음과 같은 프롬프트:
"내 이력서를 도와줘""마케팅 계획을 작성해줘""양자 물리학을 설명해줘""이 코드를 더 좋게 만들어줘"
이러한 프롬프트는 당신이 누구인지, 누구를 위한 것인지, 좋은 결과가 무엇인지, 무엇을 피해야 하는지를 명시하지 않기 때문에 실패합니다. 모델은 해당 요청의 가장 일반적인 버전(즉, 평범한 템플릿)을 추측해야 합니다.
멘탈 모델: 프롬프트를 브리핑으로
핵심 통찰: "AI에게 질문을 던진다"고 생각하지 마세요. "인턴에게 브리핑을 작성한다"고 생각하세요. 좋은 브리핑은 인턴에게 대상 독자, 성공의 기준, 피해야 할 점, 형식, 제약 조건, 그리고 원하는 출력의 예시를 최소 하나 이상 알려줍니다.
사용자가 프롬프트를 브리핑처럼 작성하기 시작하자 모델 전환은 줄었습니다. ChatGPT, Claude, Gemini 모두 극적으로 좋아졌습니다. 모델이 바뀌어서가 아니라 프롬프트가 바뀌었기 때문입니다.
만약 한 모델이 나쁜 결과를 준다고 해서 모델을 바꾸고 싶다면, 먼저 프롬프트를 다듬어 보세요. 모델 간 차이는 실제로 존재하지만 프롬프트 차이보다 훨씬 작습니다.
📖 전체 출처 읽기: r/ClaudeAI
👀 See Also

1일차 설정: 일반적인 OpenClaw 문제의 90%를 예방하는 방법
지출 한도를 설정하고, SOUL.md를 작성하며, 하트비트 간격을 조정하여 예상치 못한 청구, 문제 행동, 비용 충격을 방지하세요.

효율적인 AI 코딩 에이전트를 위한 SOUL.md 파일 작성법
r/openclaw의 레딧 게시물은 모호한 지시와 구체적인 SOUL.md 지시문의 차이를 보여주며, 구체적인 프롬프트가 더 유용한 AI 에이전트 행동을 이끌어낸다는 점을 보여줍니다.

클로드 코드 헤드리스 모드와 --print 플래그
Claude Code는 --print 플래그를 사용하여 헤드리스 모드로 실행할 수 있으며, 이를 통해 프롬프트를 파이프로 입력하여 대화형 세션 없이 자동화된 출력을 얻을 수 있습니다. 이는 CI/CD 파이프라인, git 훅, bash 스크립트에 통합할 수 있게 해줍니다.

Claude Code와 AI 에이전트를 위한 HTML의 비합리적인 효율성
바이럴 게시물은 AI 코딩 에이전트(Claude Code 등)가 HTML을 생성하도록 지시할 때 더 나은 결과를 제공한다는 사실을 보여줍니다. 실제 작동하는 예제와 함께 패턴을 논의하는 블로그 게시물이 포함되어 있습니다.