曖昧なプロンプトこそが問題であり、モデルではない——50回のテストが示すプロンプトの質がモデル選択に勝る事実

あるRedditユーザーが、あるAIモデルが別のモデルより賢いというよくある主張を検証する実験を行った。10個の一般的なプロンプトを取り上げ、それぞれをChatGPT 4、Claude Sonnet、Gemini 1.5 Proで5回ずつ実行した。合計150アウトプットだ。
その結果:アウトプットの品質は奇妙なほど似ていた。同一ではないが、同じレベルだった。3モデルすべてが使えるものを返すか、3モデルすべてが「凡庸な内容」を返した。プロンプトが回答可能かどうかについて、モデル間で意見が食い違うことはほぼなかった。変数はモデルではなく、プロンプトだった。
2つのプロンプト、異なる結果
同じ曖昧なプロンプトは、モデルに関わらず同一の凡庸なアウトプットを生んだ。例えば:
「マーケティング職のカバーレターを書いて」
3モデルすべてが、同じ種類の、誰にでも当てはまる凡庸なカバーレターを返した。人々はそれを「ChatGPTのカバーレター」と呼び、次にClaudeを試して「Claudeのカバーレター」と呼ぶ。同じレターで名前が違うだけだ。
しかし、具体的なプロンプトはすべてを変えた:
「B2B SaaS企業のシニアマーケティング職向けのカバーレターを書いて。私は7年間のグロース経験があり、主にシリーズA/Bのスタートアップで働いてきました。採用担当者は技術畑で、元エンジニアです。「情熱を持って」や「結果重視」といった一般的なフレーズは避けてください。私の経歴から具体的な数字を、もっともらしいものを創作して使ってください。280語を目指してください。」
3モデルすべてが実際に良いものを返した。スタイルは異なるが、すべて有用だった。
不満に共通するパターン
ユーザーはTwitterやRedditで「AIはひどい」という苦情を何十件も調べ、同じパターンに気づいた。次のようなプロンプトだ:
「履歴書を手伝って」「マーケティング計画を書いて」「量子物理学を説明して」「このコードを良くして」
これらのプロンプトが失敗するのは、自分が誰か、誰のためか、良い結果とは何か、何を避けるべきかを指定していないからだ。モデルはそのリクエストの最も一般的なバージョンを推測するしかなく、それが凡庸なテンプレートになる。
メンタルモデル:プロンプトを指示書として
重要な洞察:「AIに質問すること」として考えるのをやめよう。「インターンに指示書を書くこと」として考えよう。良い指示書は、インターンに、対象者、成功の定義、避けるべきこと、形式、制約、そして少なくとも1つの出力例を伝える。
ユーザーがプロンプトを指示書のように書き始めると、モデルを切り替えることはなくなった。ChatGPT、Claude、Geminiはすべて劇的に良くなった。モデルが変わったからではなく、プロンプトが変わったからだ。
もしモデルを切り替えたくなったら、まずプロンプトを磨いてみよう。モデルの違いは確かにあるが、プロンプトの違いに比べればはるかに小さい。
📖 全文ソース: r/ClaudeAI
👀 See Also

Claudeコンパクションの回避策:Handoff.MDファイルの使用
RedditユーザーがClaudeの会話圧縮メッセージに対する実用的な回避策を共有しています:会話を要約した詳細なhandoff.mdファイルを作成し、そのファイルを使って新しいセッションを開始する方法です。投稿には、ChatGPTを使ってプロンプトを生成する具体的な手順や、指示書を使ったプロジェクト管理の方法が含まれています。

OpenClawコミュニティからの役立つヒント:AIエージェント最適化の深掘り
OpenClawコミュニティから、AIコーディングエージェントのパフォーマンスと効率を最適化するための貴重なヒントをご紹介します。これらの洞察は、あなたのAIプロジェクトに革命をもたらす可能性があります。

長期プロジェクトにおけるOpenClawコンテキストの維持のためのプロジェクトナラティブの活用
開発者が、マイルストーン達成後に別のOpenClawワーカーがコードベースを分析してシステム理解を文書化し、問題を特定し、コンテキストを維持する「プロジェクトナラティブ」を作成する手法を共有しています。

3ヶ月にわたる160件のClaudeプロンプトコードのA/Bテストを経て:地味な結論
Samarth氏は制御されたテスト用リグを構築し、160のプロンプトコードを実行した結果、大半はプラセボで、7つが一貫して推論を変え、3つ以上のコードの重ねがけはモデルを混乱させることが判明した。Claude Codeでは、プロンプトコードよりもスキルファイルの方が優れている。