Test sur 50 essais : la qualité du prompt prime sur le modèle

Un utilisateur de Reddit a mené une expérience pour tester l'affirmation courante selon laquelle un modèle d'IA serait plus intelligent qu'un autre. Il a pris dix prompts courants et les a exécutés cinq fois chacun sur ChatGPT 4, Claude Sonnet et Gemini 1.5 Pro — soit 150 réponses au total.

Ce qu'il a découvert : les réponses étaient étrangement similaires en qualité. Pas identiques, mais dans la même catégorie. Les trois donnaient soit quelque chose d'utilisable, soit une « bouillie générique ». Ils n'étaient presque jamais en désaccord sur la possibilité de répondre à un prompt. La variable n'était pas le modèle — c'était le prompt.

Deux prompts, des résultats différents

Le même prompt vague a produit des réponses insipides identiques sur tous les modèles. Par exemple :

"Rédige une lettre de motivation pour un poste en marketing"

Tous les trois ont renvoyé le même type de lettre générique, applicable à n'importe qui. Les gens l'auraient qualifiée de « lettre de motivation ChatGPT », puis auraient essayé Claude et l'auraient appelée « lettre de motivation Claude » — même lettre, nom différent.

Mais un prompt spécifique a tout changé :

"Rédige une lettre de motivation pour un poste de marketing senior dans une entreprise SaaS B2B. J'ai 7 ans d'expérience en croissance, principalement dans des startups en série A/B. Le recruteur est technique, ancien ingénieur. Évite les phrases génériques comme 'passionné par' ou 'orienté résultats'. Utilise des chiffres précis de mon parcours en inventant des chiffres plausibles si nécessaire. Vise 280 mots."

Tous les trois ont renvoyé quelque chose de vraiment bon. Différent dans le style, mais tous utiles.

Un schéma commun dans les plaintes

L'utilisateur a passé en revue des dizaines de plaintes « L'IA est nulle » sur Twitter et Reddit et a remarqué le même schéma : des prompts comme :

"Aide-moi avec mon CV"
"Rédige un plan marketing"
"Explique la physique quantique"
"Améliore ce code"

Ces prompts échouent parce qu'ils ne précisent pas qui vous êtes, à qui cela s'adresse, à quoi ressemble un bon résultat, ou ce qu'il faut éviter. Le modèle doit deviner la version la plus courante de la demande — ce qui donne un modèle générique.

Modèle mental : le prompt comme brief

Le point clé : arrêtez de penser en termes de « poser une question à l'IA ». Pensez-y comme « rédiger un brief pour un stagiaire ». Un bon brief indique au stagiaire le public, à quoi ressemble le succès, ce qu'il faut éviter, le format, les contraintes, et au moins un exemple du type de résultat attendu.

Une fois que l'utilisateur a commencé à rédiger des prompts comme des briefs, le changement de modèle a cessé. ChatGPT, Claude et Gemini se sont tous considérablement améliorés — non pas parce que les modèles ont changé, mais parce que les prompts ont changé.

Si vous êtes tenté de changer de modèle parce que l'un donne de mauvais résultats, essayez d'abord d'affiner votre prompt. Les différences entre modèles sont réelles, mais bien plus petites que les différences entre prompts.

📖 Lire la source complète : r/ClaudeAI

Les consignes vagues sont le vrai problème, pas le modèle — un test sur 50 essais montre que la qualité des consignes prime sur le choix du modèle

Deux prompts, des résultats différents

Un schéma commun dans les plaintes

Modèle mental : le prompt comme brief

👀 See Also

Ne vous contentez pas de copier l'IA — écrivez votre propre version

Des invites système courtes améliorent l'adhérence de Claude et réduisent le gaspillage de jetons

Comment les instructions du projet Claude sont injectées — et pourquoi les modifier en cours de conversation brise l'historique

Les agents navigateurs ont dévoré mon budget API : le coût caché des boucles d'observation