Le problème du choix subjectif
Quand un humain pick le meilleur hero parmi plusieurs options, il introduit deux biais systématiques. Le biais esthétique personnel : il préfère ce qui lui ressemble, pas forcément ce qui sert le projet. Le biais d'ancrage : il a en tête une référence (Stripe, Linear) et il choisit la variante qui s'en rapproche, même si une autre serait plus pertinente pour son secteur.
Ces biais ne sont pas une faiblesse personnelle, ils sont structurels. Tout humain qui choisit subjectivement les introduit. Et le résultat : on choisit ce qui est familier, donc ce qui converge vers la moyenne, donc ce qui ressemble aux dix autres sites du secteur.
Le scoring algorithmique élimine ces biais. Il évalue les variantes contre une rubrique explicite, pondérée par le secteur, et il sort le meilleur score. Le résultat peut surprendre l'utilisateur (« je n'aurais pas choisi celle-là »), et c'est précisément ce qu'on veut : la variante qui sert le projet, pas celle qui rassure le décideur.
Pourquoi 4 variantes et pas 2 ou 10
Le chiffre 4 est calibré, pas arbitraire. Avec 2 variantes, on est en mode A/B, et l'algorithme peut produire deux versions très proches qui ne représentent pas l'espace des possibles. Avec 10 variantes, on a trop d'options à comparer, le scoring devient coûteux en compute, et l'utilisateur perd en lisibilité.
Quatre variantes permettent d'explorer quatre registres distincts : éditorial typographique, asymétrique avec capture, split layout manifeste, et mosaïque bento. Ce sont des familles de composition radicalement différentes, ce qui garantit que les options ne sont pas redondantes. Si trois variantes étaient très proches, on aurait juste « la même chose en trois variantes ».
Le nombre 4 est aussi cognitivement gérable. Un humain peut comparer 4 options en mémoire de travail sans se perdre. Au-delà, on doit prendre des notes, ce qui ralentit la décision. Le pipeline reste rapide et lisible.
La rubrique de scoring : 5 axes pondérés
Chaque variante de hero est scorée sur cinq axes : lisibilité (la promesse passe-t-elle en moins de 2 secondes ?), concrétude (titre sans buzzwords, sous-titre qui ajoute de l'info), asymétrie (composition pensée vs centrée par défaut), preuve (capture produit réelle ou équivalent concret), différenciation (combien la variante se distingue des autres et des références du secteur).
Chaque axe est noté de 0 à 10 selon des critères explicites. Par exemple, la lisibilité est notée par un test automatique : un visiteur synthétique (un autre LLM jouant le rôle du visiteur de 30 secondes) peut-il extraire la catégorie et la promesse en moins de 2 secondes de scan ?
Les poids des axes varient selon le secteur. Pour un produit cybersécurité B2B, la lisibilité et la preuve pèsent 30 % chacune (les acheteurs scannent vite, ils cherchent les signaux de sérieux). Pour une marque de luxe, l'asymétrie et la différenciation pèsent davantage (la signature compte plus que la transmission immédiate de l'info). Cette pondération sectorielle est ce qui rend le scoring contextuel.
Le test du visiteur synthétique
Une des innovations du Hero Lab est le test du visiteur synthétique. Avant de scorer, on simule un visiteur du secteur cible (par exemple : « head of marketing dans une scale-up B2B SaaS, sous pression, scanner en 30 secondes »). On lui montre chaque variante et on lui pose trois questions : « Quel est le produit ? », « Pour qui est-ce ? », « Pourquoi l'utiliser plutôt qu'un autre ? ».
Un LLM joue le rôle de ce visiteur. Ses réponses sont scorées en clarté et en correctness contre les attentes du brief. Si le visiteur synthétique ne comprend pas la catégorie en 30 secondes, la variante perd des points en lisibilité.
Ce test n'est pas parfait — un LLM n'est pas un vrai head of marketing — mais il est cohérent et reproductible, ce qui le rend utile comme signal complémentaire au scoring rubrique-based. Combiné aux autres axes, il discrimine bien les variantes qui passent du visuellement joli au commercialement clair.
Pourquoi le pondéré par secteur change tout
Le secret du scoring efficace est dans la pondération sectorielle. Si on score toutes les variantes avec les mêmes poids, on retombe sur la moyenne universelle, c'est-à-dire le pattern Stripe-Linear qui est devenu le template par défaut.
La cartographie des poids par secteur a demandé plusieurs mois de travail. Quelques exemples : pour les SaaS B2B techniques, la concrétude pèse 25 %, la preuve 25 %, la lisibilité 25 %, l'asymétrie 15 %, la différenciation 10 %. Pour les marques DTC lifestyle, la différenciation pèse 30 %, l'asymétrie 25 %, la lisibilité 20 %, la preuve 15 %, la concrétude 10 %. Pour les services pros (légal, médical), la lisibilité et la preuve montent à 35 % chacune, l'asymétrie chute à 10 %.
Cette pondération produit des heros adaptés au registre attendu par l'audience du secteur, plutôt que d'imposer un template universel. C'est ce qui distingue le Hero Lab d'un simple « générateur de hero ».
Que se passe-t-il quand le scoring se trompe
Le scoring n'est pas parfait. Il y a des cas où l'utilisateur, avec sa connaissance du contexte, sait que la variante 2 est meilleure que la variante 4 même si elle a un score inférieur. Par exemple : la variante 4 utilise une formulation qui a déjà été testée et qui ne convertit pas chez ce client précis, ou la palette de la variante 4 entre en conflit avec une autre campagne en cours.
Le pipeline laisse à l'utilisateur la liberté de choisir une autre variante que le top-scorée. Les quatre variantes sont conservées et présentées. La variante top est marquée « recommandée » avec son score détaillé sur les cinq axes, ce qui permet à l'utilisateur de comprendre pourquoi elle gagne et d'évaluer s'il est d'accord.
Dans la pratique, 75 % des utilisateurs choisissent la variante recommandée. 20 % choisissent la deuxième. 5 % choisissent une autre ou demandent une regénération. Cette répartition confirme que le scoring est utile sans être tyrannique.
Pourquoi cette méthode bat l'agence traditionnelle
Une agence traditionnelle livre généralement 1 à 3 variantes de hero, élaborées sur 2-5 jours. L'utilisateur choisit subjectivement. Le délai et le coût limitent le nombre d'itérations possibles.
Le Hero Lab livre 4 variantes en quelques minutes, avec un scoring explicite qui réduit la subjectivité du choix, et permet de regénérer en quelques minutes si aucune ne convient. Cela ne remplace pas le jugement d'un designer expérimenté sur les décisions de fond (positionnement, signature de marque), mais ça remplace efficacement l'exploration des options de composition au niveau hero.
La séparation conceptuelle : l'humain pose les contraintes stratégiques (audience, positionnement, ton), l'algorithme explore les compositions et score, l'humain valide ou ajuste. Cette répartition produit de meilleurs résultats que l'un ou l'autre seul, parce qu'elle joue sur les forces respectives : créativité contraignée côté humain, exploration systématique côté algo.