プロンプトの質がモデル選択に勝る：50回のテスト結果

あるRedditユーザーが、あるAIモデルが別のモデルより賢いというよくある主張を検証する実験を行った。10個の一般的なプロンプトを取り上げ、それぞれをChatGPT 4、Claude Sonnet、Gemini 1.5 Proで5回ずつ実行した。合計150アウトプットだ。

その結果：アウトプットの品質は奇妙なほど似ていた。同一ではないが、同じレベルだった。3モデルすべてが使えるものを返すか、3モデルすべてが「凡庸な内容」を返した。プロンプトが回答可能かどうかについて、モデル間で意見が食い違うことはほぼなかった。変数はモデルではなく、プロンプトだった。

2つのプロンプト、異なる結果

同じ曖昧なプロンプトは、モデルに関わらず同一の凡庸なアウトプットを生んだ。例えば：

「マーケティング職のカバーレターを書いて」

3モデルすべてが、同じ種類の、誰にでも当てはまる凡庸なカバーレターを返した。人々はそれを「ChatGPTのカバーレター」と呼び、次にClaudeを試して「Claudeのカバーレター」と呼ぶ。同じレターで名前が違うだけだ。

しかし、具体的なプロンプトはすべてを変えた：

「B2B SaaS企業のシニアマーケティング職向けのカバーレターを書いて。私は7年間のグロース経験があり、主にシリーズA/Bのスタートアップで働いてきました。採用担当者は技術畑で、元エンジニアです。「情熱を持って」や「結果重視」といった一般的なフレーズは避けてください。私の経歴から具体的な数字を、もっともらしいものを創作して使ってください。280語を目指してください。」

3モデルすべてが実際に良いものを返した。スタイルは異なるが、すべて有用だった。

不満に共通するパターン

ユーザーはTwitterやRedditで「AIはひどい」という苦情を何十件も調べ、同じパターンに気づいた。次のようなプロンプトだ：

「履歴書を手伝って」
「マーケティング計画を書いて」
「量子物理学を説明して」
「このコードを良くして」

これらのプロンプトが失敗するのは、自分が誰か、誰のためか、良い結果とは何か、何を避けるべきかを指定していないからだ。モデルはそのリクエストの最も一般的なバージョンを推測するしかなく、それが凡庸なテンプレートになる。

メンタルモデル：プロンプトを指示書として

重要な洞察：「AIに質問すること」として考えるのをやめよう。「インターンに指示書を書くこと」として考えよう。良い指示書は、インターンに、対象者、成功の定義、避けるべきこと、形式、制約、そして少なくとも1つの出力例を伝える。

ユーザーがプロンプトを指示書のように書き始めると、モデルを切り替えることはなくなった。ChatGPT、Claude、Geminiはすべて劇的に良くなった。モデルが変わったからではなく、プロンプトが変わったからだ。

もしモデルを切り替えたくなったら、まずプロンプトを磨いてみよう。モデルの違いは確かにあるが、プロンプトの違いに比べればはるかに小さい。

📖 全文ソース： r/ClaudeAI

曖昧なプロンプトこそが問題であり、モデルではない——50回のテストが示すプロンプトの質がモデル選択に勝る事実

2つのプロンプト、異なる結果

不満に共通するパターン

メンタルモデル：プロンプトを指示書として

👀 See Also

Claude Code自動更新でほぼPCが文鎮化—ドライバー更新後のDNS悪夢

OpenClawコミュニティからの役立つヒント：AIエージェント最適化の深掘り

Claudeのコードにおける時間の幻覚をフックで修正する

OpenClawトークン使用調査により設定上の問題が明らかになりました