Share of Voice in der KI: Markensichtbarkeit in LLMs messen

Share of Voice in der KI ist der Anteil der LLM-Antworten, die Ihre Marke zitieren. Hier sind die Formel, ein 30-Tage-Messplan und die drei Fallen, die die Zahl verzerren.

Mark Kim12. Mai 202610 min read

Share of Voice (SoV) in der KI ist der Prozentsatz der LLM-Antworten über ein festes Prompt-Set, in denen Ihre Marke zitiert oder erwähnt wird. Operativ entspricht das dem Impression Share im Paid Search, nur dass die Einheit ein Satz innerhalb einer generierten Antwort ist und kein Slot auf einer Ergebnisseite. Dieser Beitrag definiert die Metrik, liefert die Formel, die wir mit Marken einsetzen, und legt einen 30-Tage-Messplan vor, den Sie mit oder ohne Tooling fahren können.

Die klassische SoV-Metrik stammt aus dem Mediageschäft. Sie war der Werbespend oder die Impressions-Zahl Ihrer Marke geteilt durch das Kategoriegesamt — ein sauberer Nenner, weil Impressions abgerechnet und gezählt wurden. SEO erbte eine weichere Variante: Ihr Anteil an organischen Klicks für einen definierten Keyword-Korb, mit Rank-Trackern wie Ahrefs und Semrush als Messinstrument.

SoV im KI-Zeitalter ist in drei Dimensionen anders. Die Einheit verschiebt sich von Impression oder Klick zu Zitation oder Erwähnung. Die Oberfläche verschiebt sich von einer gerankten Liste zu vielen Engine-spezifischen Antwortformaten. Und der Nenner ist kein endlicher, bietbarer Keyword-Pool mehr — er wird zu einer von Ihnen entworfenen Prompt-Stichprobe, weil die Grundgesamtheit möglicher KI-Anfragen praktisch unendlich ist.

+28,6 %Jahres-Wachstum bei KI-Plattform-Besuchen, die Traffic an Drittseiten leiten (US, Januar 2025 → Januar 2026)Similarweb GenAI-Tracking, Update Januar 2026

Der strategische Punkt: KI-SoV ist ein Sampling-Problem, bevor es ein Zählproblem ist. Stimmt das Sample nicht, ist die Zahl bedeutungslos.

Die Rechnung: wie misst man es tatsächlich

Die Kernformel hat dieselbe Form wie das klassische SoV, ergänzt um zwei neue Variablen.

SoV_KI = ( Antworten_mit_Marke / Antworten_gesamt ) über Prompt-Sample P, Engine-Set E, Fenster W

Die vier Eingaben, die feststehen müssen, bevor die Metrik aussagekräftig wird:

Variable	Definition	Häufiger Fehler
Prompt-Sample `P`	Das feste Prompt-Set, das pro Messfenster erneut läuft	Sample Woche für Woche zu verschieben macht Trends bedeutungslos
Engine-Set `E`	Die Antwortengines, die Sie abfragen (ChatGPT, Perplexity, Gemini, Copilot, ...)	Eine einzelne Engine-übergreifende Zahl statt pro Engine berichten
Messfenster `W`	Der Zeitraum, den das Sample abdeckt (Woche, vierzehn Tage, Monat)	Fenster mit unterschiedlicher Promptzahl vergleichen
Zitationsregel	Was als „Zitat" zählt: URL-Fußnote, Markenerwähnung im Text oder beides	Zitat und Erwähnung mischen, ohne sie zu kennzeichnen

Eine zweite Metrik gehört zu SoV dazu: die Zitationsrate (Citation Rate), der Anteil der Antworten, in denen Ihre Domain als nummerierte oder mit Fußnote versehene Quelle auftaucht (nicht nur als Markennennung). Stanfords HELM-Lite-Benchmark dokumentiert die Retrieval-Pipelines, die Zitat und Erwähnung zu messbar unterschiedlichen Outputs machen — ein Modell kann Ihre Marke aus den Trainingsdaten zitieren, ohne Ihre URL zu retrieven, und eine retrievte URL kann eine Antwort liefern, die Ihre Marke nie nennt. Verfolgen Sie beides und berichten Sie es getrennt.

Sampling: Prompts als die neuen SERP-Anfragen

Das Prompt-Sample ist die wichtigste Designentscheidung. Drei Eigenschaften entscheiden, ob die resultierende SoV-Zahl die Realität abbildet.

Käufer-relevant. Das Sample sollte Fragen enthalten, die Ihr echtes Publikum tatsächlich einer KI-Assistenz stellt, nicht das Keyword-Universum, das ein Rank-Tracker konstruieren würde. Beginnen Sie mit Vertriebsgespräch-Transkripten, Supporttickets und Chat-Logs. Search Engine Lands Berichterstattung zu AI-Overview-Rollouts zeigt, dass Frageformat-Anfragen die KI-Antwortflächen messbar häufiger auslösen als Headterm-Keyword-Anfragen — Ihr Sample sollte das widerspiegeln.
Intent-Mix. Schließen Sie kategoriedefinierende Fragen ein („was ist X"), Vergleichsfragen („X vs Y") und Empfehlungsfragen („bestes X für Y"). Marken unterzählen konsequent Empfehlungs-Prompts, dabei sind es genau die, bei denen Zitation in Umsatz übersetzt.
Stabile Größe. Ein nützliches Sample liegt bei 50 bis 200 Prompts pro Engine. Unter 50 ist die Varianz zu hoch, um Bewegungen zu erkennen; über 200 überfordert der Labeling-Aufwand die meisten internen Teams.

Für die meisten B2B-Marken, mit denen wir arbeiten, ist 75 Prompts das richtige Startset: 25 Kategoriefragen, 25 Vergleichsfragen, 25 Empfehlungsfragen. Halten Sie das Set für mindestens acht Wochen konstant, bevor Sie ergänzen oder rotieren.

Drei häufige Fallen

In fast jedem internen SoV-Dashboard, das wir auditieren, wiederholen sich drei Messfehler. Jeder einzelne verwandelt eine nützliche Trendlinie in Rauschen.

Falle 1: zu enges Prompt-Set. Ein Team verfolgt 10 hochwertige Prompts und berichtet SoV wöchentlich. Die Zahl springt von Woche zu Woche um 30 Punkte, weil zwei Prompts die Zitation gewechselt haben, und das Team trifft Content-Entscheidungen auf Basis eines Signals, das überwiegend Varianz ist. Lösung: 50 Prompts Minimum pro Engine, mindestens ein Quartal lang fixiert.

Falle 2: Marke mit Entität verwechseln. „Stripe" kann als verbale Erwähnung des Unternehmens auftauchen, als Zitat von stripe.com oder als retrieve Passage aus einem Drittartikel, der Stripe nebenbei erwähnt. Das sind drei verschiedene Dinge. Lösung: Jedes Vorkommen mit mention (Markenname im Text), citation (URL in der Quellenliste) oder passthrough (Drittseite, die die Marke nennt) labeln. Berichten Sie die Zitationsrate als Hauptmetrik, die Erwähnungsrate als sekundäre.

Falle 3: Zitat und Erwähnung vermengen. Eine einzelne Antwort kann Ihre Domain im Footer zitieren und im Fließtext über einen Wettbewerber sprechen. Das als „Gewinn" zu zählen, bläht SoV in unseren Audits markenseitiger Dashboards um 15 bis 25 Prozent auf. Lösung: Für die „vollständig zitiert"-Stufe verlangen, dass URL-Zitation und Markenerwähnung im Text innerhalb derselben Antwort zusammenfallen; Teilfälle separat führen. Unser Beitrag dazu, wie LLMs Quellen wählen erklärt, warum diese beiden Pfade auf der Retrieval-Ebene auseinanderlaufen.

Ein praktischer 30-Tage-Messplan

Ein Team ohne KI-SoV-Instrumentierung kann in vier Wochen eine belegbare Wochenzahl haben. Der folgende Plan ist der, den wir mit neuen Marken durchgehen.

Woche 1 — Sample und Engines definieren. Ziehen Sie 30 repräsentative Prompts aus Vertriebstranskripten und Support-Logs. Ergänzen Sie 20 Vergleichs-Prompts („X vs Ihr Kategorieführer") und 25 Empfehlungs-Prompts. Fixieren Sie das Engine-Set im ersten Quartal auf ChatGPT, Perplexity und Gemini; Copilot und vertikale Engines kommen später dazu. Dokumentieren Sie die Zitationsregel (URL-Fußnote plus Erwähnung im Text).

Woche 2 — Erster Baseline-Run. Lassen Sie alle 75 Prompts manuell oder per Tool durch jede Engine laufen. Erfassen Sie pro Prompt drei Artefakte: den vollständigen Antworttext, die Quellenliste und einen Zeitstempel. Labeln Sie jedes Vorkommen als mention, citation oder passthrough. Der erste Run kostet 6 bis 10 Stunden Analyst-Zeit für 75 Prompts auf drei Engines.

Woche 3 — Kadenz festlegen. Wöchentlich oder zweiwöchentlich. Wöchentlich erfasst Perplexity-getriebene Bewegungen (sein Re-Ranker aktualisiert am schnellsten, laut BrightEdges KI-Suchbericht 2026). Zweiwöchentlich ist für eine Einzelperson nachhaltiger. Legen Sie einen festen Wochentag, eine feste Prompt-Reihenfolge und eine feste Engine-Reihenfolge fest, um Wochentag-Rauschen zu kontrollieren.

Woche 4 — Erster Trendpunkt und Fallen-Audit. Lassen Sie das Sample erneut laufen. Berechnen Sie SoV pro Engine, Zitationsrate pro Engine und eine kombinierte (größengewichtete) Zahl für die Geschäftsleitungssicht. Auditieren Sie die Labels gegen die drei oben genannten Fallen. Überspringt eine Wochenveränderung 10 Punkte, labeln Sie von Hand nach, um zu bestätigen, dass sie real ist.

Ab Woche 4 läuft die Kadenz von selbst, und die Analyst-Zeit pendelt sich pro Messfenster bei 3 bis 5 Stunden für 75 Prompts ein.

Tools und was ohne sie geht

KI-SoV-Messung lässt sich ohne Spezialtool fahren. Eine Tabelle, die Web-Oberflächen der drei Engines und ein disziplinierter Labeling-Prozess tragen ein Team durch das erste Quartal. Die Kosten liegen, sobald der Workflow steht, bei etwa einem Analyst-Tag pro Messfenster.

Ab 100 Prompts und drei Engines wird der manuelle Aufwand untragbar. Tooling verdient sich, indem es Prompt-Ausführung, Zitations-Parsing und Deduplizierung nahezu identischer Antworten über Runs hinweg automatisiert. Wir haben Prompt Architect genau für diesen Workflow gebaut, aber wichtiger als das Tool ist das Metrik-Design: Eine richtige SoV-Definition ist über jedes Tool portierbar, eine falsche bleibt in jedem Tool falsch.

Einige nicht-PA-Referenzen, die KI-SoV-Daten öffentlich veröffentlichen:

Similarwebs GenAI-Tracking verfolgt den aggregierten KI-Engine-Referral-Anteil nach Kategorie — einschließlich des oben erwähnten +28,6%-Wachstums YoY.
BrightEdges Zwölf-Monats-Analyse der AI Overviews publiziert Sichtbarkeitsverschiebungen auf Kategorieebene und Daten zur Überlappung von Zitation und organischer Position.
Der HTTP Archive Web Almanac ist die kanonische Referenz für die Adoptions-Baseline strukturierter Daten, die schema-getriebenen Zitations-Lift untermauert.

Für das Framework, das KI-SoV in die breitere Sichtbarkeitsdisziplin einordnet, siehe unser AEO-vs-SEO-Framework 2026, das SoV im Set der Erfolgsmetriken der Antwortökonomie positioniert.

Wie gut aussieht

Eine reife KI-SoV-Praxis hat drei Eigenschaften. Das Prompt-Sample ist stabil und dokumentiert. Die Metrik wird pro Engine berichtet, mit einer kombinierten Sicht obendrauf, nicht als einzelne vermengte Zahl. Und das Team behandelt Perplexity als Frühindikator, ChatGPT als Bestätigungssignal und Gemini als den Spätindikator, der die Schleife schließt.

Marken, die eine der drei verfehlen, landen mit einem Chart, das viel zappelt, wenig aussagt und beim nächsten Quartalsreview ignoriert wird. Marken, die alle drei treffen, sehen dieselbe Kompound-Kurve, die frühe SEO-Teams 2010 bis 2013 sahen: kleine, wiederholbare Format-Wins, die sich zur Kategorieführerschaft innerhalb der Antwortebene aufsummieren.

Share of Voice in der KI: Markensichtbarkeit in LLMs messen

Die Rechnung: wie misst man es tatsächlich

Sampling: Prompts als die neuen SERP-Anfragen

Drei häufige Fallen

Ein praktischer 30-Tage-Messplan

Tools und was ohne sie geht

Wie gut aussieht

Den nächsten Beitrag per Mail erhalten

Related

AEO vs. SEO: Ein Framework für Markensichtbarkeit 2026

Wie ChatGPT, Perplexity und Gemini ihre Quellen auswählen

5 Schema-Muster, mit denen KI Ihre Inhalte zitiert (mit Code)

Was „Share of Voice" im KI-Zeitalter bedeutet

Die Rechnung: wie misst man es tatsächlich

Sampling: Prompts als die neuen SERP-Anfragen

Drei häufige Fallen

Ein praktischer 30-Tage-Messplan

Tools und was ohne sie geht

Wie gut aussieht

Den nächsten Beitrag per Mail erhalten

Related

AEO vs. SEO: Ein Framework für Markensichtbarkeit 2026

Wie ChatGPT, Perplexity und Gemini ihre Quellen auswählen

5 Schema-Muster, mit denen KI Ihre Inhalte zitiert (mit Code)