Retour au blog

Mesurer la performance GEO : les KPIs et le framework de suivi indispensables aux marketeurs B2B

Geovise

La Generative Engine Optimization (GEO) désigne la pratique qui consiste à améliorer la visibilité d'une marque dans les réponses générées par des intelligences artificielles comme ChatGPT, Claude ou Gemini. Mais à mesure que la GEO s'impose comme une discipline marketing à part entière, une question revient systématiquement : comment savoir si vos efforts portent leurs fruits ?

Contrairement au référencement naturel classique, où les outils de suivi de positionnement se mettent à jour quotidiennement et où les taux de clics sont mesurables en temps quasi réel, la GEO évolue dans un environnement bien moins transparent. Il n'existe pas d'index unique à interroger, pas de page de classement universelle à surveiller, et aucune métrique standardisée que les LLM renverraient automatiquement. Cette opacité conduit de nombreuses équipes marketing B2B à investir dans des optimisations GEO sans disposer d'un moyen clair d'en évaluer l'impact ou de justifier la poursuite des efforts.

Cet article propose un framework structuré et opérationnel pour mesurer la performance GEO : les bons KPIs, la méthode de collecte, et l'interprétation des évolutions dans le temps.

Pourquoi les métriques marketing classiques ne suffisent pas pour la GEO

La plupart des tableaux de bord marketing sont construits autour du trafic et de la conversion : sessions organiques, taux de rebond, coût par lead, attribution pipeline. Ces indicateurs ont leur valeur, mais ce sont des indicateurs en aval. Ils mesurent ce qui s'est passé après qu'un prospect a atterri sur votre site, pas si votre marque a été recommandée par un modèle d'IA avant même que la visite n'ait eu lieu.

Le défi fondamental de la mesure GEO, c'est que le canal lui-même est invisible par défaut. Quand un prospect demande à ChatGPT quel est le meilleur outil de gestion de projet pour les équipes distribuées et que votre produit apparaît dans la réponse, cette interaction ne laisse aucun paramètre UTM, aucune source de référence, aucune trace dans votre outil d'analytics. L'influence a bien eu lieu, mais elle est intraçable sans une couche de mesure dédiée.

C'est pourquoi la GEO nécessite son propre framework de KPIs, construit spécifiquement autour du comportement des LLM plutôt que des patterns de trafic web.

Les quatre KPIs fondamentaux de la GEO

1. Le score de visibilité LLM

La métrique la plus fondamentale en GEO est votre score de visibilité : la fréquence et la proéminence avec lesquelles votre marque apparaît dans les réponses générées par les LLM à des requêtes pertinentes. Ce score est généralement calculé en soumettant un ensemble défini de prompts sectoriels à un ou plusieurs modèles d'IA, et en enregistrant si votre marque est mentionnée et à quelle position.

Un score de visibilité condense ces données en un seul chiffre comparable, ce qui permet de suivre les progrès sur des semaines et des mois. Il est crucial de suivre ce score par modèle, car ChatGPT, Claude et Gemini ne classent pas les marques de manière identique. Une marque peut être très visible chez l'un et quasiment absente chez un autre, ce qui crée à la fois un risque et une opportunité d'optimisation.

2. La position dans les listes générées par l'IA

De nombreuses réponses de LLM incluent des listes explicitement classées, du type « les 5 meilleurs CRM pour les équipes commerciales enterprise ». Votre position moyenne dans ces listes est un signal plus précis que la simple fréquence de mention. Une marque citée en dixième position dans chaque réponse n'a pas la même valeur qu'une marque qui apparaît systématiquement dans les trois premières.

Lors du suivi des positions, prêtez attention aux prompts qui déclenchent des réponses sous forme de liste par opposition aux recommandations libres. La notion de position n'est pertinente que dans le cadre de sorties au format liste.

3. Le taux de couverture des prompts

Votre marque n'apparaîtra pas dans toutes les requêtes pertinentes pour votre secteur. Le taux de couverture des prompts mesure la proportion de requêtes suivies pour lesquelles votre marque apparaît. Si vous surveillez 20 prompts sectoriels et que votre marque apparaît dans 12 d'entre eux, votre taux de couverture est de 60%.

Cette métrique est particulièrement actionnable, car un faible taux de couverture correspond souvent à des manques de contenu identifiables. Les prompts où votre marque n'apparaît pas indiquent que votre site manque de profondeur thématique, de clarté d'entité ou de signaux de crédibilité qui amèneraient le modèle à vous mentionner dans ce contexte précis.

4. La cohérence inter-modèles

Une quatrième métrique à suivre est la cohérence inter-modèles : le degré de stabilité de la visibilité de votre marque selon les différents LLM. Une forte variance entre les modèles suggère que la représentation de votre marque est fragile, peut-être trop dépendante des données d'entraînement ou de la couverture de crawl d'un seul modèle. Une faible variance indique que vous avez construit une autorité réelle et étendue, reconnue par plusieurs modèles.

Cette métrique se calcule comme l'écart-type de vos scores de visibilité entre les modèles. Un faible écart-type signifie que vous êtes visible de manière constante, quel que soit le modèle d'IA utilisé par votre prospect.

Construire un processus de mesure reproductible

Définir votre ensemble de prompts en premier

Avant de pouvoir suivre quoi que ce soit, vous avez besoin d'un ensemble stable de prompts. Ce sont les requêtes que vos acheteurs cibles sont susceptibles de poser à un modèle d'IA lorsqu'ils évaluent des solutions comme la vôtre. Un ensemble de prompts bien construit présente trois caractéristiques :

  • • Il est spécifique au secteur : formulé autour de votre industrie et de votre cas d'usage, pas uniquement autour du nom de votre marque
  • • Il est orienté intention d'achat : formulé comme un acheteur le ferait (« meilleur [outil] pour [cas d'usage] »), pas comme un mot-clé SEO
  • • Il est stable dans le temps : vous ne modifiez pas les prompts entre deux cycles de mesure, car la cohérence est ce qui rend les données de tendance significatives

Un ensemble de prompts opérationnel pour une entreprise SaaS B2B comprend généralement entre 10 et 30 prompts couvrant des requêtes en phase de découverte, de comparaison et de décision.

Définir une cadence de mesure

La GEO n'est pas une métrique à consulter quotidiennement. Le comportement des LLM évolue à l'échelle des mises à jour de modèles et des cycles d'indexation des contenus, pas des crawls horaires. Une cadence hebdomadaire ou bimensuelle est suffisante pour la plupart des entreprises B2B qui débutent. Une fois une ligne de base établie et des optimisations GEO en cours, un suivi hebdomadaire permet de détecter des changements significatifs sans sur-interpréter le bruit à court terme.

L'essentiel est la régularité : lancez les mêmes prompts, sur les mêmes modèles, au même intervalle, et enregistrez les résultats en format série temporelle pour que les tendances deviennent visibles.

Segmenter votre baseline par modèle et catégorie de prompts

Un score agrégé unique masque trop d'informations pour être utile à l'optimisation. Lorsque vous enregistrez votre baseline initiale, décomposez-la selon :

  • Le modèle : scores séparés pour ChatGPT, Claude, Gemini
  • La catégorie de prompts : requêtes en phase de découverte, de comparaison ou de décision
  • La position des concurrents : où apparaissent vos principaux concurrents pour les mêmes prompts

Cette segmentation transforme un seul chiffre en diagnostic. Si votre visibilité est forte sur ChatGPT mais faible sur Gemini, cela pointe vers un ensemble précis de corrections structurelles ou de contenu. Si vous apparaissez dans les prompts de découverte mais pas dans ceux de décision, c'est un problème différent.

Relier les métriques GEO aux résultats business

Une préoccupation légitime des directeurs marketing B2B est de savoir si la visibilité GEO se traduit réellement en opportunités commerciales. Honnêtement, l'attribution directe reste difficile, mais il existe des signaux proxy utiles à suivre en parallèle de vos KPIs GEO.

Le volume de recherche brandée est l'un des plus fiables. Quand un modèle d'IA recommande votre marque en réponse à la question d'un acheteur, ce dernier effectue souvent une recherche directe sur Google dans la foulée. Une hausse du volume de recherche brandée sur la même période qu'une amélioration de la visibilité GEO est un signal corrélant pertinent, même si ce n'est pas une preuve directe de causalité.

Le trafic direct et les patterns de « dark social » jouent un rôle similaire. Le trafic arrivant sans source de référence, notamment sur des pages produit ou tarifaires, est souvent l'effet aval d'un moment de découverte assisté par l'IA, survenu hors de tout canal traçable.

Ce sont des proxies imparfaits, mais ils valent bien mieux que rien et permettent de construire le dossier interne pour un investissement GEO soutenu.

Combler le manque d'outillage pour la mesure GEO

L'un des obstacles pratiques à la mesure GEO est que la plupart des outils d'analytics marketing existants n'ont pas été conçus pour ce cas d'usage. Ils suivent ce qui se passe sur votre site ou dans vos plateformes publicitaires, pas ce que les modèles d'IA disent de vous.

Pour les équipes souhaitant opérationnaliser ce framework sans construire des feuilles de calcul manuelles, Geovise propose une fonctionnalité de Tracking dédiée qui trace l'évolution des scores de visibilité LLM dans le temps sur ChatGPT, Claude et Gemini. Plutôt que d'exécuter des tests de prompts manuels et d'enregistrer les résultats à la main, la plateforme automatise le cycle de mesure et présente les tendances dans un tableau de bord visuel, ce qui permet de voir facilement si les optimisations GEO font bouger les choses, sur quels modèles et sur quelle durée.

Les erreurs de mesure courantes à éviter

Suivre les mentions de marque plutôt que les requêtes à intention d'achat

Un raccourci courant consiste à demander simplement à un modèle d'IA « que sais-tu de [Marque X] ? » et à traiter la réponse comme une métrique GEO. Cela mesure la notoriété de marque, pas la visibilité en intention d'achat, et les deux sont très différents. La vraie question est de savoir si votre marque apparaît quand un acheteur demande une recommandation, pas si le modèle peut vous décrire.

Modifier l'ensemble de prompts entre deux cycles

Chaque fois que vous modifiez un prompt suivi, vous brisez la continuité de la série temporelle. Si vous souhaitez ajouter de nouveaux prompts, créez un ensemble de suivi séparé et exécutez les deux en parallèle pendant au moins deux cycles avant d'abandonner l'ancien.

Traiter un seul LLM comme représentatif

Étant donné que les différents modèles font remonter des marques différentes, mesurer la visibilité sur un seul modèle donne une image dangereusement incomplète. Les marques qui dominent les recommandations de ChatGPT ne sont pas toujours les mêmes que celles qui dominent Claude ou Gemini. Un framework de mesure GEO robuste couvre les trois.

Transformer la mesure en action

Suivre la performance GEO ne crée de valeur que si les données alimentent des décisions d'optimisation. La boucle doit fonctionner ainsi : mesurer la visibilité sur votre ensemble de prompts et vos modèles, identifier les lacunes précises (prompts peu couverts, scores faibles sur un modèle spécifique, tendances de positionnement en déclin), relier ces lacunes à leur cause probable en termes de contenu ou de structure, apporter des améliorations ciblées, puis mesurer à nouveau.

Cette boucle n'est pas fondamentalement différente du cycle d'amélioration SEO que la plupart des marketeurs B2B pratiquent déjà. La différence tient aux indicateurs et aux signaux diagnostics, qui sont spécifiques à la façon dont les LLM traitent et citent les contenus, plutôt qu'à la façon dont les crawlers d'index les classent.

Sur le long terme, une pratique de mesure rigoureuse ne se contente pas de justifier l'investissement GEO. Elle révèle quels types de contenus et de modifications structurelles font réellement progresser la visibilité LLM, ce qui est le type de connaissance organisationnelle compoundée qui donne aux premiers entrants un avantage durable à mesure que la découverte assistée par l'IA devient le point de départ par défaut des décisions d'achat B2B.