Si demain une IA vous fait produire vos hypothèses cent fois plus vite, aurez-vous cent fois plus d’impact sur la croissance de votre entreprise ?
La réponse est non. Et c’est tout le sujet de cet article.
J’animais récemment un atelier chez WeLyft sur l’usage de l’intelligence artificielle dans l’expérimentation. Le réflexe que je vois partout, c’est de regarder l’IA comme un accélérateur de production. Je développe mes variations plus vite. Je trouve une hypothèse plus rapidement. J’analyse un questionnaire ou un retour client en quelques secondes. Tout va plus vite, et on en conclut un peu vite, justement, qu’on va créer plus de valeur.
Sauf qu’accélérer un morceau de processus n’a jamais garanti d’avoir plus d’impact.
C’est même là que se cache le piège le plus courant du moment.
La vraie question : qu’est-ce qui fait qu’un test a un impact ?
Pendant l’atelier, j’ai posé une question simple à la salle. À votre avis, qu’est-ce qui fait qu’un test A/B a un véritable impact sur la croissance d’une entreprise ?
Ce qui crée l’impact, c’est l’hypothèse. Sa structure, son argumentaire, la solidité de ce qui la soutient. C’est ça qui détermine si on va réellement faire bouger un comportement utilisateur, ou si on va simplement occuper la roadmap. Plus on accumule de sources de données qui mettent en évidence un même problème ou une même opportunité, plus on a de chances que le changement qu’on teste produise un effet réel et mesurable.
Une hypothèse, ce n’est donc pas une phrase qu’on génère. C’est une conviction qu’on construit, à partir de signaux croisés, et qu’on relie à une métrique qu’on saura lire. Le reste, c’est de la mise en forme et l’IA est excellente pour ça. Elle est beaucoup moins fiable pour la conviction.
Ce qu’on ne devrait pas confier à l’IA
Il y a des tâches que l’intelligence artificielle ne devrait pas remplacer, et je pense en particulier à 2 d’entre elles.
La première, c’est d’imaginer le ressenti utilisateur comme un test utilisateurs. Demander à une IA de simuler des utilisateurs ou de jouer leurs réactions, c’est se contenter d’une moyenne. Vous obtenez une réponse plausible, lissée, calibrée sur l’immense masse de ce que le modèle a déjà vu. Ce n’est pas vos utilisateurs, peu importe si le personae a été bien calibré. C’est une approximation statistique de ce personae.
La seconde, c’est la génération d’insights ou d’hypothèses directement auprès de l’IA. Et le problème est le même, en plus grave. Quand vous demandez à une IA sur quoi travailler, elle vous répond avec ce qui marche en moyenne : une structure type, une analyse de surface, quelques régles d’ergonomie ou de biais cognitifs, des quickwins. Des classiques, mais jamais elle ne vous dira de concentrer vos efforts sur un sujet précis parce que votre marque mise sur la fidélisation cette année, parce que c’est là que se joue votre rétention, ou parce qu’un arbitrage interne vient de rebattre les priorités.
Pourquoi ? Parce que l’IA n’a pas votre contexte. Elle ne connaît pas votre stratégie à moyen et long terme. Elle ignore vos contraintes, vos moyens, les tensions entre vos équipes, les paris de votre direction. Elle produit donc une réponse moyenne, qui sera souvent erronée par rapport à vos besoins réels. Pas fausse dans l’absolu, simplement décalée par rapport à vous.
C’est une nuance qui change tout. L’IA n’est pas mauvaise. Elle est moyenne, par construction. Et la moyenne, en expérimentation, c’est exactement ce qu’on cherche à dépasser.
Ce qu’on peut, et qu’on devrait, accélérer
À l’inverse, il y a tout un pan du métier où l’IA apporte une vraie valeur, et où je l’utilise sans réserve.
Le premier, c’est l’analyse de gros volumes de données. Des questionnaires utilisateurs par centaines, des données analytiques, des verbatims à synthétiser, des tickets de support à regrouper par thème. Ce travail de défrichage était long, fastidieux, et il décourageait souvent les équipes d’aller au bout. L’IA le fait en une fraction du temps, et elle le fait bien.
Le second, plus intéressant encore, c’est l’accélération des raisonnements des équipes qui expérimentent. C’est là que l’IA devient un vrai partenaire. Elle peut détecter un angle mort dans une hypothèse, signaler que la nature de l’hypothèse n’est pas cohérente au problème, ou qu’un autre problème se cache dans ces données. Elle peut challenger les raisonnements d’un PM, de l’UX ou du DA, jouer le contradicteur, repousser l’argumentaire.
Avant, ce type de raisonnement prenait beaucoup de temps et était possible quand le lead CRO était disponible pour jouer se rôle. Aujourd’hui, l’IA nous aide à penser plus vite parce qu’elle traite plus d’informations que nous. Elle ne pense pas à notre place. Elle élargit le champ de ce qu’on est capables d’examiner avant de trancher.
La finalité, pour moi, est limpide. On devrait produire à peu près autant qu’avant. Mais des choses bien plus argumentées, bien plus solides, bien mieux ancrées dans la donnée. On ne cherche pas à faire plus. On cherche à faire mieux, avec le temps que l’IA nous libère.
L’accélération ne se fera pas en nombre d’hypothèses, mais en rapidité à atteindre l’objectif fixé grâce à un meilleur argumentaire.
Le point qu’on oublie tous : votre bande passante de test A/B
Il y a une contrainte qu’on évacue presque toujours de ces discussions, alors qu’elle est la plus structurante de toutes.
Votre bande passante de test A/B n’est pas élastique et dépend de votre trafic qui plafonne tout le reste. Concrètement, cela veut dire que vous avez la capacité de lancer un nombre limité de tests qui tiennent la route statistiquement. Selon votre volume, ce sera peut-être 20, 50 ou 100 tests par an avec une vraie puissance statistique.
Votre enjeu n’est donc pas de produire 300 tests A/B. Il est de produire le plus de tests en s’assurant qu’ils aient le plus d’impact possible. Chaque test que vous lancez est un test qui prend la place d’une autre hypothèse et c’est un choix d’allocation, sur une ressource limitée.
C’est exactement pour ça que générer plus d’hypothèses ne sert à rien si on ne sait pas trier. On ne fait que remplir un entonnoir dont la sortie reste, elle, parfaitement bouchée.
Filtrer plutôt que produire : la leçon de Spotify
C’est dans cette logique que Spotify a développé une approche que je trouve remarquable, et que j’ai partagée pendant l’atelier.
Plutôt que de chercher à produire toujours plus d’expérimentations, Spotify a construit un processus qui évalue et filtre les hypothèses à faible potentiel avant qu’elles ne consomment de la bande passante. Le système analyse la qualité de chaque hypothèse et repère les manquements : analyse insuffisante, argumentaire fragile, données qui ne soutiennent pas l’intuition, manque de puissance statistique, cohérence KPI, …a

Ce filtre permet de trier vite, et donc d’économiser la ressource rare. On fait tout pour ne jamais mettre en production un sujet sans intérêt, sans potentiel réel, ou mal structuré. On protège le trafic comme on protège un budget.
Pour moi, c’est ça l’accélération de demain. L’IA ne sert pas à gonfler le volume. Elle sert à élever la qualité des sujets et à accélérer le raisonnement des équipes, pour que chaque investissement sur un test A/B compte.
Le jury RWO : appliquer ce principe au quotidien
C’est précisément cette logique que j’ai intégrée à ma propre façon de travailler. Le filtre de Spotify n’est pas l’apanage des géants de la tech : c’est un principe qu’on peut adapter à n’importe quelle équipe, à condition de bien définir ce qu’on attend de l’IA.
Dans le framework de discovery RWO que j’utilise avec les équipes, l’évaluation d’une hypothèse ne repose pas sur une seule tête, ni sur une IA qui inventerait les idées à notre place. Elle passe par ce que j’appelle un jury : un ensemble d’IA dont le rôle n’est pas de produire, mais de challenger. Chacune endosse un angle différent et vient interroger l’hypothèse là où on a tendance à la ménager.

Concrètement, ce jury fait quatre choses. Il éprouve l’argumentaire, pour vérifier que le raisonnement tient et qu’on ne s’est pas raconté une histoire. Il repère les angles morts, ces évidences qu’on ne questionne plus à force de les côtoyer. Il pointe les sources de données qui manquent, parce qu’une hypothèse soutenue par un seul signal reste une intuition déguisée. Et il s’assure qu’on saura mesurer ce qu’on avance, faute de quoi le test ne tranchera jamais rien.
Ce qui compte ici, c’est l’inversion du rôle. On ne demande pas à l’IA de remplir la roadmap. On lui demande de la vider de ce qui n’a pas sa place. L’IA ne génère pas la conviction, elle la met à l’épreuve. Et c’est exactement comme ça qu’on protège la ressource rare : en ne laissant monter en ligne que ce qui tient debout.
Comment savoir si on va dans la bonne direction ?
Reste une question pratique : comment s’assurer que cette accélération est saine, et qu’elle produit réellement de la valeur plutôt que du mouvement ? La réponse tient en un mot : des indicateurs. Si vous accélérez sans mesurer la qualité de ce que vous produisez, vous avancez à l’aveugle, et plus vite vous irez, plus vite vous vous tromperez.
Deux indicateurs me semblent particulièrement parlants :
Le taux de tests neutres, d’abord : si la part de vos expérimentations qui ne produisent aucun effet mesurable augmente, c’est le signe que vos hypothèses sont mal cadrées, ou qu’elles partent en ligne trop tôt.
Le taux de rollback, ensuite, c’est-à-dire la part de tests retirés de la production à cause d’un problème technique. S’il grimpe, votre accélération se paie en dette et en instabilité, pas en croissance. Ces deux chiffres vous disent vite si vous gagnez en impact ou si vous fabriquez surtout du bruit.
Et cela renvoie à une mécanique qu’on sous-estime presque toujours. En accélérant le processus à un endroit, vous ne supprimez pas votre goulot d’étranglement, vous le déplacez. Construire cinquante hypothèses ne vous donne pas pour autant la capacité de développer cinquante variations, ni de produire cinquante maquettes de qualité, ni de les déployer proprement. Vous avez juste engorgé l’étape suivante. C’est précisément pour cette raison que j’insiste sur un usage de l’IA qui augmente l’impact, en traitant plus de données et en développant la réflexion, plutôt qu’un usage qui se contente de produire davantage.
Une nuance selon votre contexte
Je terminerai par une note importante, parce que rien de tout cela ne s’applique de façon uniforme.
La manière de mobiliser l’IA dépend beaucoup de votre contexte et des moyens de votre équipe. Une petite équipe, courte en ressources, qui n’a pas les moyens de mener facilement des tests utilisateurs ou des analyses approfondies, aura intérêt à s’appuyer davantage sur l’IA pour accélérer certaines pratiques qu’elle ne pourrait pas mener autrement. L’IA vient alors combler ce manque, même si la qualité n’est pas optimale, ça doit élever le niveau d’impact du programme.
Une équipe plus structurée et avec plus de ressources n’a pas les mêmes besoins. Elle utilisera l’IA pour pousser encore plus loin la qualité de ses raisonnements, là où la première s’en sert pour exister.
L’orientation change donc selon qui vous êtes. Mais la conclusion, elle, ne bouge pas d’un pouce.
La vraie question n’a jamais été de savoir comment aller plus vite. Elle est de savoir ce qui crée réellement de l’impact. Et tant qu’on confondra la vitesse de production avec la croissance de l’entreprise, on continuera à brûler une ressource rare sur des sujets qui n’en valaient pas la peine.
Bonne optimisation à tous !
PS : merci à Welyft d’avoir créé ce moment d’échange et de m’y avoir invité !