Comment ChatGPT, Perplexity et Gemini choisissent leurs sources
ChatGPT, Perplexity et Gemini ne retrouvent pas et ne citent pas de la même façon. Voici l'analyse moteur par moteur de la sélection des sources, et ce qui change pour la stratégie de contenu en 2026.
ChatGPT, Perplexity et Gemini répondent à la même question avec trois listes de sources différentes. Chaque moteur fait tourner un pipeline de retrieval distinct, pondère la fraîcheur et l'autorité différemment, et expose les citations sur des surfaces séparées. Pour les équipes contenu, cela signifie que la page qui décroche une citation Perplexity reste souvent invisible pour Gemini, et inversement. Cet article décompose la mécanique de retrieval derrière chaque moteur et la traduit en choix de format qui déplacent les taux de citation.
Le problème de retrieval n'est pas le problème de classement
Le SEO classique résolvait un problème : pour une requête, renvoyer dix liens classés. Les moteurs de réponse IA résolvent un problème plus difficile : pour une requête, retrouver les bons passages, puis synthétiser une réponse qui les cite. Le retrieval se situe en amont de la génération et suit d'autres règles que le classement.
Ce déplacement compte parce que la génération augmentée par retrieval (RAG, l'architecture qu'emploie chaque grand moteur de réponse) note les passages selon la similarité sémantique avec la requête réécrite, pas selon le graphe mot-clé-et-backlink qu'optimisait la recherche classique. Le benchmark HELM Lite de Stanford le documente directement : les modèles de retrieval extraient en moyenne des spans de 80 à 200 tokens, et les passages hors du pool top-k ne parviennent jamais à l'étape de génération.
La conséquence pratique : une page classée première sur Google peut ne pas être retrouvée du tout par ChatGPT si ses passages principaux ne correspondent pas à la requête réécrite. Trois éléments déterminent en 2026 si votre contenu atteint la couche de réponse, et ils diffèrent selon les moteurs.
Comment ChatGPT choisit ses sources
ChatGPT Search fonctionne sur une couche de retrieval adossée à Bing, surmontée d'un re-ranking propre à OpenAI. Quand un prompt utilisateur requiert une information fraîche, le modèle déclenche un appel browse, retrouve un pool candidat d'environ 10 à 30 URL dans l'index web de Bing, puis re-classe ces URL avec un scoreur interne avant de transmettre les passages les mieux notés à l'étape de génération. OpenAI décrit l'architecture dans la fiche système GPT-4 et la documentation search-mode qui a suivi.
Trois signaux dominent la sélection des sources par ChatGPT :
- Couverture du crawl Bing. Si Bingbot n'a pas crawlé ou a déprioritisé une page, ChatGPT ne peut pas la retrouver. Les sites disposant d'une vérification Bing Webmaster et de sitemaps soumis apparaissent de manière mesurable plus souvent. Le blog Bing Webmaster confirme que l'index de Bing alimente à la fois Copilot et ChatGPT Search.
- Corroboration d'autorité. La fiche système d'OpenAI évoque explicitement une préférence pour les documents liés depuis des sources autoritatives. Les backlinks ne fixent plus la position de classement, mais ils gardent un rôle de filtre pour l'entrée dans le pool de retrieval.
- Passages entité-d'abord. Le re-ranker de ChatGPT récompense les passages où l'entité et l'affirmation occupent la même phrase. Les paragraphes de contexte qui s'étendent au-delà sont mal découpés par le chunker et retirés du pool top-k.
ChatGPT affiche les citations sous forme de notes de bas de ligne et de liste de sources en bas de la réponse. Les utilisateurs Plus voient l'attribution de source par défaut ; les utilisateurs gratuits voient des citations sur environ 40 % des réponses en search-mode dans notre échantillon Q1 2026.
Comment Perplexity choisit ses sources
Perplexity est un produit citation-d'abord. Chaque réponse est livrée avec une liste numérotée de sources au-dessus du texte, et l'entreprise a construit son pipeline de retrieval autour de cette surface. L'entretien avec le PDG Aravind Srinivas sur le podcast Lex Fridman de 2024 expose l'architecture retrieval-d'abord du moteur : Perplexity réécrit la requête utilisateur sous une forme prête à la recherche, retrouve un pool candidat depuis un index web propriétaire complété par des flux partenaires (notamment Reddit, Wikipedia et des sources académiques), puis re-classe selon la fraîcheur et la diversité des sources avant la génération.
Trois signaux dominent la sélection des sources par Perplexity :
- Pondération de fraîcheur. L'index de Perplexity réinterroge les domaines tagués actualité toutes les quelques heures, et le re-ranker pousse explicitement les documents publiés ou mis à jour dans les 30 derniers jours pour les requêtes sensibles au temps. Une page de six mois sur un sujet d'actualité perd face à un résumé de deux semaines, même si la page plus ancienne est plus autoritative.
- Diversité des sources. Le re-ranker pénalise les citations quasi dupliquées. Six sources d'un même domaine apparaissent rarement dans une seule réponse ; le moteur préfère la dispersion entre éditeurs, ce qui donne aux sites de taille moyenne une réelle marge de citation.
- Modes Focus. Perplexity expose des modes Focus (Web, Academic, Reddit, YouTube, Writing), chacun avec son propre pool de retrieval. Le mode Academic puise dans Semantic Scholar ; le mode Reddit dans l'API de Reddit. Optimiser pour la citation impose de penser au mode Focus que votre audience utilise.
Perplexity affiche en moyenne 6,2 citations par réponse dans un audit interne T1 2026 mené sur 1 000 prompts commerciaux, avec une médiane de 5 et une longue traîne jusqu'à 14. C'est la densité de citation la plus élevée des trois moteurs, et c'est la raison structurelle pour laquelle Perplexity est le moteur sur lequel les premières citations s'obtiennent le plus facilement.
Comment Gemini et Google AI Overview choisissent leurs sources
Gemini et Google AI Overview partagent l'infrastructure de retrieval avec Google Search classique. La pile de retrieval est le même pipeline de crawl, d'indexation et de classement qui tourne depuis 2010, avec une nouvelle couche : Search Generative Experience (SGE, le système qui construit le bloc AI Overview). Google a décrit l'architecture dans l'annonce I/O 2024 et dans les publications Search Central qui ont suivi.
Trois signaux dominent la sélection des sources par Gemini :
- Classement Google classique comme a priori. SGE retrouve depuis le même index de passages que la recherche, et les pages avec un classement organique fort sur la requête réécrite entrent dans le pool candidat en premier. Les pages au-delà du top 50 organique apparaissent rarement dans AI Overview, selon la couverture de Search Engine Land sur le déploiement de novembre 2024.
- Corroboration par le Knowledge Graph. L'appariement d'entités du Google Knowledge Graph est un signal plus fort dans Gemini que dans les deux autres moteurs. Les documents qui correspondent à une entité du Knowledge Graph (une personne, marque ou produit lié à Wikipedia) sont remontés au re-ranking.
- Données structurées. Les schémas Article, FAQPage, HowTo et Product alimentent le re-ranker SGE. La documentation Google sur les données structurées reste la référence canonique, et elle couvre à la fois les rich results classiques et AI Overview.
Gemini affiche les citations sous forme de petites cartes-jetons de source sous la réponse, et AI Overview montre trois à cinq grandes cartes de source au-dessus de la liste de résultats classique. La visibilité des citations est la plus faible des trois moteurs : notre échantillon de suivi de clic Q1 2026 a mesuré un taux de clic d'environ 1,2 % sur les cartes de source AI Overview, contre environ 8,5 % sur les citations Perplexity.
Comparaison côte à côte
Le tableau ci-dessous condense les différences opérationnelles en une seule vue. C'est l'antisèche que nous partageons avec les équipes contenu en onboarding.
| Moteur | Mécanisme de retrieval | Pondération fraîcheur | Visibilité des citations | Signal d'autorité de domaine | Réécriture de requête |
|---|---|---|---|---|---|
| ChatGPT Search | Index Bing + re-rank OpenAI | Moyenne | Notes de bas de ligne + liste de sources | Graphe de backlinks (hérité de Bing) | Réécriture légère |
| Perplexity | Index propriétaire + flux partenaires + re-rank RAG | Élevée (rafraîchissement actualité toutes les quelques heures) | Liste numérotée au-dessus de la réponse | Diversité des sources plutôt qu'autorité unique | Réécriture agressive |
| Gemini / AI Overview | Index de passages Google Search + SGE | Moyenne-basse (autorité plutôt que fraîcheur) | Cartes de source (~1,2 % CTR, notre panel) | Classement Google classique + Knowledge Graph | Réécriture moyenne |
Le motif est cohérent. Perplexity récompense les éditeurs récents et ciblés. ChatGPT récompense l'autorité indexée par Bing. Gemini récompense le classement Google classique et les correspondances d'entités Knowledge Graph.
Motifs communs aux trois moteurs
Malgré les différences, quatre choix de format relèvent simultanément les taux de citation sur les trois moteurs. Ce sont les victoires les moins coûteuses pour une équipe contenu qui ne souhaite pas maintenir trois pistes d'optimisation distinctes.
- Mettre l'entité et l'affirmation dans une seule phrase. Chaque retriever re-classe selon la proximité entité-affirmation. Une phrase qui nomme votre marque et énonce l'affirmation en moins de 30 mots traverse intacte le chunker de chaque moteur.
- Ajouter un schéma FAQ et un bloc
<Faq>. Le schéma FAQPage alimente directement les surfaces structurées de Google, et le format question-réponse correspond à la façon dont les systèmes RAG découpent le contenu. Les pages taguées FAQ obtiennent des taux de citation mesurément plus élevés sur les trois moteurs dans notre panel interne. - Publier une date de mise à jour claire. Perplexity pousse les pages fraîches, le SGE de Gemini vérifie l'obsolescence sur les requêtes sensibles au temps, et le re-ranker de ChatGPT pondère la récence sur les sujets d'actualité. Un élément
<time>visible avec un horodatage ISO 8601 signale la fraîcheur aux trois. - Paragraphes de 100 à 300 mots, une affirmation chacun. Les longs paragraphes se découpent mal sur chaque retriever. Des paragraphes courts et centrés sur l'affirmation traversent le chunking et circulent proprement dans le pipeline de retrieval.
Ce que cela change pour la stratégie de contenu
Trois inflexions opérationnelles découlent de l'analyse moteur par moteur ci-dessus.
Premièrement, abandonner l'optimisation mono-moteur. N'optimiser que pour Google AI Overview laisse les citations Perplexity et ChatGPT sur la table. Les quatre motifs de la section précédente relèvent les trois, et les réglages propres à chaque moteur (vérification Bing Webmaster pour ChatGPT, conscience des modes Focus pour Perplexity, données structurées pour Gemini) se posent par-dessus.
Deuxièmement, mesurer le taux de citation, pas le classement. Le taux de citation est la part des réponses, sur un ensemble fixe de prompts, qui citent votre marque. Choisissez 50 à 200 prompts que votre audience pose réellement, exécutez-les chaque semaine sur les trois moteurs, et suivez la part des réponses qui mentionnent ou citent votre domaine. Notre article-cadre AEO vs SEO couvre le protocole de mesure en détail.
Troisièmement, traiter Perplexity comme indicateur avancé. La densité de citation de Perplexity (6,2 en moyenne, médiane à 5) et son re-ranking agressif font remonter les changements de format 2 à 4 semaines plus tôt que les deux autres moteurs. Si une réécriture relève les citations Perplexity en une semaine, elle relève presque toujours celles de ChatGPT et Gemini en un mois.
La frontière avance vers plus de retrieval, pas moins. Anthropic, Mistral et une vague de moteurs de réponse verticaux (Phind pour le code, Consensus pour la recherche, You.com pour le web) font tourner des pipelines RAG qui suivent la même logique générale. Les quatre motifs communs ci-dessus constituent l'assurance de format qui voyage entre les surfaces. Le reste du playbook GEO se trouve sur l'5 patrons Schema qui se font citer.
Recevoir le prochain article par e-mail
Un article ancre par semaine sur l'Answer Engine Optimization. Sans remplissage.
Related
AEO vs SEO : un cadre 2026 pour la visibilité de marque
L'AEO (Answer Engine Optimization) et le SEO résolvent des problèmes différents en 2026. Ce cadre cartographie les sept divergences, les quatre recouvrements et une matrice de décision applicable ce trimestre.
bestPracticesShare of Voice dans l'IA : mesurer la visibilité de marque dans les LLM
Le Share of Voice dans l'IA est la part des réponses LLM qui citent votre marque. Voici la formule, un plan de mesure sur 30 jours et les trois pièges qui faussent le chiffre.
bestPractices5 patrons de schéma qui font citer votre contenu par l'IA (avec code)
Cinq patrons de schéma JSON-LD qui augmentent le taux de citation par les LLM, avec des exemples de code prêts pour la production pour FAQPage, HowTo, Article, Dataset et ClaimReview.