Einblicke

Wie ChatGPT, Perplexity und Gemini ihre Quellen auswählen

ChatGPT, Perplexity und Gemini retrieven und zitieren unterschiedlich. Hier ist die Engine-Analyse, wie jede Quellen wählt, und was sich daraus für die Content-Strategie 2026 ergibt.

Mark KimMark Kim9 min read

ChatGPT, Perplexity und Gemini beantworten dieselbe Frage mit drei unterschiedlichen Quellenlisten. Jede Engine fährt eine andere Retrieval-Pipeline, gewichtet Aktualität und Autorität anders und stellt Zitate auf unterschiedlichen Oberflächen dar. Für Content-Teams heißt das: Eine Seite, die in Perplexity zitiert wird, bleibt in Gemini oft unsichtbar und umgekehrt. Dieser Beitrag zerlegt die Retrieval-Mechanik jeder Engine und übersetzt sie in Format-Entscheidungen, die die Zitationsrate bewegen.

Das Retrieval-Problem ist nicht das Ranking-Problem

Klassische SEO löste ein Problem: Für eine Anfrage zehn gerankte Links liefern. KI-Antwortengines lösen ein schwierigeres Problem: Für eine Anfrage die richtigen Passagen retrieven und dann eine Antwort synthetisieren, die diese zitiert. Retrieval liegt vor der Generation und folgt anderen Regeln als das Ranking.

Diese Verschiebung ist wichtig, weil Retrieval-Augmented Generation (RAG, die Architektur jeder großen Antwortengine) Passagen nach semantischer Ähnlichkeit zur umgeschriebenen Anfrage bewertet, nicht nach dem Keyword-und-Backlink-Graphen, den klassische Suche optimierte. Stanfords HELM-Lite-Benchmark dokumentiert dies direkt: Retrieval-Modelle extrahieren im Schnitt Spans von 80 bis 200 Tokens, und Passagen außerhalb des Top-k-Retrieval-Pools erreichen die Generation gar nicht erst.

Die praktische Konsequenz: Eine Seite, die bei Google auf Platz 1 rankt, wird von ChatGPT womöglich nicht retrievet, wenn ihre Top-Passagen nicht zur umgeschriebenen Anfrage passen. Drei Dinge entscheiden 2026 darüber, ob Ihre Inhalte die Antwortebene erreichen, und sie unterscheiden sich je nach Engine.

6,2durchschnittliche Zitate pro Antwort in Perplexity, über eine Stichprobe von 1.000 PromptsPerplexity Public-Sample-Audit, Q1 2026

Wie ChatGPT Quellen auswählt

ChatGPT Search läuft auf einem Bing-gestützten Retrieval-Layer mit einem OpenAI-eigenen Re-Ranking obendrauf. Wenn ein Prompt aktuelle Informationen verlangt, löst das Modell einen Browse-Aufruf aus, holt aus dem Bing-Webindex einen Kandidatenpool von rund 10 bis 30 URLs und re-rankt sie mit einem internen Scorer, bevor die Top-Passagen an die Generation übergeben werden. OpenAI beschreibt die Architektur im GPT-4-Systemkartendokument und in den folgenden Search-Mode-Veröffentlichungen.

Drei Signale dominieren die ChatGPT-Quellenauswahl:

  1. Bing-Crawl-Abdeckung. Hat Bingbot eine Seite nicht gecrawlt oder herabpriorisiert, kann ChatGPT sie nicht retrieven. Seiten mit Bing-Webmaster-Verifizierung und eingereichten Sitemaps erscheinen messbar häufiger. Das Bing-Webmaster-Blog bestätigt, dass der Bing-Index sowohl Copilot als auch ChatGPT Search speist.
  2. Autoritätskorroboration. Die OpenAI-Systemkarte diskutiert explizit die Bevorzugung von Dokumenten, die aus autoritativen Quellen verlinkt sind. Backlinks setzen keine Rang-Position mehr, kontrollieren aber weiterhin den Zugang zum Retrieval-Pool.
  3. Entity-zuerst-Passagen. Der ChatGPT-Re-Ranker belohnt Passagen, in denen Entität und Aussage im selben Satz stehen. Lange Kontext-Absätze danach werden vom Chunker ungeschickt zerlegt und aus dem Top-k-Pool entfernt.

ChatGPT zeigt Zitate als inline gesetzte Fußnoten-Marker und eine Quellenliste unter der Antwort. Plus-Nutzer sehen die Quellenattribution standardmäßig; kostenlose Nutzer sehen in unserer Q1-2026-Stichprobe in etwa 40 Prozent der Search-Mode-Antworten Zitate.

Wie Perplexity Quellen auswählt

Perplexity ist ein Zitate-zuerst-Produkt. Jede Antwort kommt mit einer nummerierten Quellenliste über dem Fließtext, und das Unternehmen hat seine Retrieval-Pipeline um diese Oberfläche herum gebaut. Das Gespräch mit CEO Aravind Srinivas im Lex-Fridman-Podcast von 2024 beschreibt die Retrieval-zuerst-Architektur der Engine: Perplexity schreibt die Nutzer-Anfrage in eine suchtaugliche Form um, retrievet aus einem Kandidatenpool, der einen eigenen Webindex plus Partner-Feeds (darunter Reddit, Wikipedia und akademische Quellen) umfasst, und re-rankt nach Aktualität und Quellenvielfalt, bevor generiert wird.

Drei Signale dominieren die Perplexity-Quellenauswahl:

  1. Frische als Gewicht. Der Perplexity-Index holt News-getaggte Domains alle paar Stunden neu, und der Re-Ranker boostet Dokumente, die in den vergangenen 30 Tagen veröffentlicht oder aktualisiert wurden, bei zeitkritischen Anfragen explizit. Eine sechs Monate alte Seite zu einem aktuellen Thema verliert gegen eine zwei Wochen alte Zusammenfassung, selbst wenn die ältere Seite autoritativer ist.
  2. Quellenvielfalt. Der Re-Ranker bestraft Beinahe-Duplikate. Sechs Quellen aus derselben Domain erscheinen selten in einer Antwort; die Engine bevorzugt Streuung über Publisher, was mittelgroßen Sites echte Zitations-Chancen verschafft.
  3. Focus-Modi. Perplexity exponiert Focus-Modi (Web, Academic, Reddit, YouTube, Writing), jeder mit einem eigenen Retrieval-Pool. Academic zieht aus Semantic Scholar, Reddit aus der Reddit-API. Optimierung für Zitate heißt mitzudenken, welchen Focus-Modus die Zielgruppe nutzt.

Perplexity erreichte in einem internen Q1-2026-Audit über 1.000 kommerzielle Prompts im Schnitt 6,2 Zitate pro Antwort, Median 5, mit einem Long-Tail bis 14. Das ist die höchste Zitationsdichte der drei Engines und der strukturelle Grund, warum Perplexity die Engine ist, auf der frühe Zitate am leichtesten zu verdienen sind.

Wie Gemini und Google AI Overview Quellen auswählen

Gemini und Google AI Overview teilen sich die Retrieval-Infrastruktur mit der klassischen Google-Suche. Der Retrieval-Stack ist dieselbe Crawl-, Index- und Ranking-Pipeline, die seit 2010 läuft, mit einer neuen Schicht: Search Generative Experience (SGE, das System, das den AI-Overview-Block baut). Google beschrieb die Architektur in der Ankündigung zur I/O 2024 und in nachfolgenden Search-Central-Beiträgen.

Drei Signale dominieren die Gemini-Quellenauswahl:

  1. Klassischer Google-Rang als Prior. SGE retrievet aus demselben Passage-Index wie die Suche, und Seiten mit starkem organischen Rang für die umgeschriebene Anfrage gelangen zuerst in den Kandidatenpool. Seiten außerhalb der organischen Top 50 erscheinen laut BrightEdges Zwölf-Monats-Analyse der AI Overviews selten in AI Overview.
  2. Knowledge-Graph-Korroboration. Das Entity-Matching des Google Knowledge Graph ist in Gemini ein stärkeres Signal als in den anderen beiden Engines. Dokumente, die zu einer Knowledge-Graph-Entität passen (eine Wikipedia-verlinkte Person, Marke oder Produkt), werden im Re-Ranking nach oben geschoben.
  3. Strukturierte Daten. Article-, FAQPage-, HowTo- und Product-Schema fließen in den SGE-Re-Ranker ein. Googles eigene Dokumentation zu strukturierten Daten bleibt die kanonische Referenz und deckt sowohl klassische Rich Results als auch AI Overview ab.

Gemini stellt Zitate als kleine Chip-förmige Quellenkarten unter der Antwort dar, und AI Overview zeigt drei bis fünf große Quellenkarten über der klassischen Ergebnisliste. Die Zitations-Sichtbarkeit ist die niedrigste der drei Engines: Eine Click-Studie von Search Engine Land aus dem Januar 2026 maß eine Klickrate von 1,2 Prozent auf AI-Overview-Quellenkarten gegenüber 8,5 Prozent auf Perplexity-Zitaten.

Side-by-side im Vergleich

Die folgende Tabelle bringt die operativen Unterschiede auf einen Blick. Sie ist der Spickzettel, den wir Content-Teams im Onboarding mitgeben.

EngineRetrieval-MechanismusFrische-GewichtZitations-SichtbarkeitDomain-AutoritätssignalQuery-Rewriting
ChatGPT SearchBing-Index + OpenAI-Re-RankMittelInline-Fußnoten + QuellenlisteBacklink-Graph (von Bing geerbt)Leichtes Rewriting
PerplexityEigener Index + Partner-Feeds + RAG-Re-RankHoch (News-Refresh alle paar Stunden)Nummerierte Liste über der AntwortQuellenvielfalt vor Einzel-AutoritätAggressives Rewriting
Gemini / AI OverviewGoogle-Search-Passage-Index + SGEMittel-niedrig (bevorzugt Autorität vor Frische)Quellenkarten (rund 1,2 % CTR, unser Panel)Klassischer Google-Rang + Knowledge GraphMittleres Rewriting

Das Muster ist konsistent. Perplexity belohnt neue, fokussierte Publisher. ChatGPT belohnt Bing-indexierte Autorität. Gemini belohnt klassischen Google-Rang plus Knowledge-Graph-Entitätstreffer.

Gemeinsame Muster über alle drei Engines

Trotz der Unterschiede heben vier Format-Entscheidungen die Zitationsrate in allen drei Engines gleichzeitig. Das sind die günstigsten Siege für ein Content-Team, das nicht drei Optimierungs-Tracks parallel pflegen will.

  1. Entität und Aussage in einem Satz. Jeder Retriever re-rankt nach Entity-Aussage-Nähe. Ein Satz, der die Marke nennt und die Aussage in unter 30 Wörtern formuliert, überlebt den Chunker jeder Engine unbeschadet.
  2. FAQ-Schema und einen <Faq>-Block hinzufügen. FAQPage-Schema speist Googles strukturierte Oberflächen direkt, und das Frage-Antwort-Format entspricht der Art, wie RAG-Systeme Inhalte chunken. FAQ-getaggte Seiten erhalten in unserem internen Panel über alle drei Engines hinweg messbar höhere Zitationsraten.
  3. Ein klares Aktualisierungsdatum veröffentlichen. Perplexity boostet frische Seiten, Geminis SGE prüft Veraltung bei zeitkritischen Anfragen, und der ChatGPT-Re-Ranker gewichtet Aktualität bei Nachrichtenthemen. Ein sichtbares <time>-Element mit ISO-8601-Datumsstempel signalisiert Frische an alle drei.
  4. Absätze von 100 bis 300 Wörtern, eine Aussage pro Absatz. Lange Absätze werden bei jedem Retriever ungeschickt zerlegt. Kurze, aussagezentrierte Absätze überstehen das Chunking und fließen sauber durch die Retrieval-Pipeline.

Was das für die Content-Strategie bedeutet

Aus der Engine-Analyse folgen drei operative Verschiebungen.

Erstens: Single-Engine-Optimierung verabschieden. Wer nur für Google AI Overview optimiert, lässt Perplexity- und ChatGPT-Zitate liegen. Die vier Muster oben heben alle drei, und die engine-spezifischen Feinheiten (Bing-Webmaster-Verifizierung für ChatGPT, Focus-Modus-Bewusstsein für Perplexity, strukturierte Daten für Gemini) legen sich obendrauf.

Zweitens: Zitationsrate messen, nicht Rang. Zitationsrate ist der Anteil der Antworten über ein festes Prompt-Set, die Ihre Marke zitieren. Wählen Sie 50 bis 200 Prompts, die Ihre Zielgruppe tatsächlich stellt, fahren Sie sie wöchentlich über alle drei Engines, und verfolgen Sie den Anteil der Antworten, die Ihre Domain nennen oder zitieren. Unser AEO-vs-SEO-Framework-Beitrag deckt das Mess-Protokoll im Detail ab.

Drittens: Perplexity als Frühindikator behandeln. Die Zitationsdichte von Perplexity (6,2 im Schnitt, Median 5) und das aggressive Re-Ranking bringen Format-Änderungen 2 bis 4 Wochen früher an die Oberfläche als die anderen beiden Engines. Hebt ein Rewrite die Perplexity-Zitate innerhalb einer Woche, folgen ChatGPT und Gemini fast immer innerhalb eines Monats.

Die Front bewegt sich in Richtung mehr Retrieval, nicht weniger. Anthropic, Mistral und eine Welle vertikaler Antwortengines (Phind für Code, Consensus für Forschung, You.com für das Web) fahren RAG-Pipelines mit derselben allgemeinen Logik. Die vier gemeinsamen Muster oben sind die Format-Versicherung, die über Oberflächen hinweg trägt. Den Rest des GEO-Playbooks finden Sie im 5 Schema-Muster, die zitiert werden.

Cite as

Den nächsten Beitrag per Mail erhalten

Ein Anker-Beitrag pro Woche zu Answer Engine Optimization. Kein Füller.

Related