Share-of-Voice in AI-Suche messen: Methodik und Tools

Dieser Artikel kann Affiliate-Links enthalten. Wenn du über diese Links einkaufst, erhalten wir möglicherweise eine kleine Provision — ohne Mehrkosten für dich. Das hilft uns, weiterhin kostenlose Inhalte zu erstellen.

Stand: Mai 2026. AI-Engines, Schema-Spezifikationen und Tracking-Tools entwickeln sich schnell. Prüfe vor produktiver Implementierung die aktuelle Dokumentation (OpenAI Platform Docs, Google AI Overviews Help, Anthropic API Reference) und teste das Verhalten der Engines selbst — was heute zitiert wird, kann morgen anders gewichtet sein.

Share-of-Voice (SoV) ist die wichtigste AEO-Metrik der nächsten 24 Monate, aber 90 Prozent der Definitionen, die im Markt kursieren, sind falsch oder zu vage. Saubere SoV-Messung in AI-Suche braucht drei Entscheidungen: Was zählt als Mention? Wie gewichtest du Engines? Wie normalisierst du über Prompts? Wer diese drei Punkte klärt, hat eine belastbare Zahl. Wer sie überspringt, produziert Folklore.

SoV in ChatGPT, Gemini, Perplexity und Claude unterscheidet sich fundamental von SoV in klassischen SEO-Tools. Es gibt keine Impressions, keine Klick-Raten, keine SERP-Positionen. Stattdessen zählst du Erwähnungen in generierten Antworten — und das verlangt eine völlig neue Methodik.

Definition: Was zählt als Mention

Eine Mention ist jede Nennung deines Markennamens, Produktnamens oder einer offiziellen Alias-Variante im generierten Antworttext einer AI-Engine. Citations (URLs) zählen separat, sind aber Teil derselben Familie. Saubere SoV-Messung trennt drei Mention-Typen: Plain-Mention (Brand-Name im Fließtext), Citation-Mention (deine Domain in der Quellenliste) und Combined-Mention (beides).

Share of voice in ai suche messen methodik und tools: practical guide overview — Share of voice in ai suche messen methodik und tools

Misspellings deiner Brand musst du aktiv mitzählen — AI-Engines halluzinieren Schreibweisen häufiger, als man erwartet. Pflege eine Liste mit drei bis fünf Varianten pro Brand (z. B. „HubSpot", „Hubspot", „Hub Spot"). Ohne diese Liste verlierst du 5–12 Prozent der echten Mentions.

Negative Mentions (Brand wird genannt, aber im Kontext „nicht empfohlen") zählen für die Roh-SoV, aber separat als „Sentiment-flagged". Wer Sentiment ignoriert, bekommt eine optisch gute SoV-Zahl, die in der Realität ein Reputations-Problem maskiert.

💡 AEO-Insight: Definiere im ersten Quartal nur Plain- und Citation-Mention. Sentiment kommt ab Quartal zwei dazu, wenn die Grundzahlen stabil sind. Sonst diskutiert dein Team über Methodik statt über Maßnahmen.

Die Formel: Wie SoV mathematisch sauber berechnet wird

Für eine einzelne Engine und ein einzelnes Prompt-Set gilt: SoV = (Mentions deiner Brand) / (Mentions aller getrackten Brands inkl. deiner). Wenn du also 30 Prompts an ChatGPT schickst, in 12 davon deine Brand und in 18 die Konkurrenz genannt wird, ist deine SoV 12 / (12 + 18) = 40 Prozent.

Multi-Engine-SoV ist gewichteter Durchschnitt über alle Engines, gewichtet nach geschätztem Traffic-Anteil. Aktuell (Mai 2026) liegen die DACH-B2B-Schätzungen ungefähr bei ChatGPT 45 Prozent, Gemini 25 Prozent, Perplexity 15 Prozent, Claude 10 Prozent, Copilot 5 Prozent. Diese Gewichtung aktualisierst du quartalsweise.

Pro Prompt kannst du zusätzlich nach Intent gewichten. Transaktionale Prompts (kommerziell, kaufnah) zählen oft doppelt gegenüber informationalen. Diese Intent-Gewichtung macht den Unterschied zwischen einer „pretty number" und einer Zahl, die Marketing-Budget rechtfertigt.

// SoV-Berechnung (TypeScript-Pseudocode)
function calculateSoV(results) {
  const totals = {};
  results.forEach(r => {
    Object.entries(r.mentions).forEach(([brand, count]) => {
      totals[brand] = (totals[brand] || 0) + count * r.intentWeight;
    });
  });
  const grandTotal = Object.values(totals).reduce((a,b) => a+b, 0);
  return totals[OWN_BRAND] / grandTotal;
}

// Multi-Engine-gewichtet
const ENGINE_WEIGHTS = { chatgpt: 0.45, gemini: 0.25, perplexity: 0.15, claude: 0.10, copilot: 0.05 };
const sovWeighted = Object.entries(sovByEngine)
  .reduce((acc, [eng, sov]) => acc + sov * ENGINE_WEIGHTS[eng], 0);

Citation-SoV vs Mention-SoV: Beide brauchen ihren Platz

Plain-Mention-SoV misst, wie oft deine Brand im Text genannt wird. Citation-SoV misst, wie oft deine Domain als Quelle verlinkt wird. Beide Metriken korrelieren nicht perfekt — eine Brand kann im Text dominieren, ohne als Quelle zitiert zu werden, und umgekehrt.

Für Pre-Sales-Phasen (Awareness, Vergleich) ist Plain-Mention-SoV wichtiger. Für Trust- und Authority-Aufbau zählt Citation-SoV mehr. Reife AEO-Reports zeigen beide Werte nebeneinander, mit getrenntem Delta. Tools wie Profound und AEORadar splitten das ab Werk, in DIY-Setups musst du die Trennung selbst implementieren.

Share of voice in ai suche messen methodik und tools: step-by-step visual example — Share of voice in ai suche messen methodik und tools

Ein typisches Muster: Plain-Mention-SoV ist in ChatGPT am höchsten (kommt aus Trainingsdaten plus Browse), Citation-SoV in Perplexity (lebt von Live-Quellen). Daraus folgt direkt: Wer Perplexity gewinnen will, optimiert auf Citations. Wer ChatGPT gewinnen will, optimiert auf Topical-Authority und Schema.

Sampling: Wie viele Prompts pro Messung

30 Prompts pro Engine sind der untere Boden für statistische Belastbarkeit. 100 Prompts sind komfortabel, 300+ sind Enterprise-Level. Unter 30 Prompts schwankt die SoV-Zahl so stark, dass Wochenvergleiche keinen Sinn ergeben — die Standardabweichung frisst das Delta auf.

Die Prompt-Auswahl entscheidet, was du wirklich misst. Eine SoV von 14 Prozent über 30 transaktionale Prompts hat mehr Aussagekraft als 22 Prozent über 200 gemischte Prompts. Definiere zuerst den ICP-Funnel, dann das Prompt-Set, dann die SoV-Messung — nicht umgekehrt.

Versioniere das Prompt-Set quartalsweise. Hinzufügen ist günstig, Streichen ist gefährlich — gestrichene Prompts erzeugen historische Brüche im Trend. Ein neuer Prompt zählt erst nach vier Pulls (also vier Wochen) in den Hauptreport, davor läuft er als „pending".

Share of voice in ai suche messen methodik und tools: helpful reference illustration — Share of voice in ai suche messen methodik und tools

Prompt-Anzahl	Standardabweichung	Sinnvoller Vergleich	Typische Nutzung
10	±8 pp	nur Quartalstrend	Spielwiese
30	±4 pp	Wochentrend möglich	Starter
100	±2 pp	Wochentrend belastbar	Wachstum
300+	<1 pp	Tagestrend möglich	Enterprise

Tools, die die Methodik richtig umsetzen

Profound liefert die saubersten Roh-Daten und exponiert die Mention- vs Citation-Trennung explizit. AEORadar bietet eine sehr gute Default-Methodik und ist in 90 Prozent der Mittelstands-Setups die richtige Wahl. Otterly arbeitet etwas opaker, dafür schneller im Setup. Peec hat 2026 stark aufgeholt und ist besonders bei Multi-Brand-Holding-Setups interessant.

Wenn du DIY misst (Google Sheets, Apps Script gegen die Engine-APIs), bist du gezwungen, die Methodik selbst zu definieren. Das ist Arbeit, aber lehrreich — und das resultierende Vertrauen in deine Zahlen ist messbar höher als bei Black-Box-Tool-Output. Für die ersten sechs Monate ist DIY eine echte Option.

Vermeide es, mehrere Tools parallel zu vergleichen, ohne die Methodik anzugleichen. Wenn AEORadar dir 14 Prozent SoV zeigt und Otterly 19 Prozent, liegt die Differenz fast nie an Daten-Qualität, sondern an unterschiedlicher Engine-Gewichtung und Mention-Definition. Ein Tool-Vendor-Bake-off ohne Methodik-Alignment führt zur falschen Entscheidung.

⚠️ Häufiger Fehler: SoV-Vergleiche zwischen Tools ohne identische Prompt-Sets. Jedes Tool hat Default-Prompts, die Methodiken weichen oft um Faktor 2 ab. Immer mit deinem eigenen Prompt-Set vergleichen, sonst misst du die Tool-Bias, nicht deine Brand.

Drift-Erkennung: Wenn die SoV-Zahl plötzlich springt

SoV-Zahlen springen aus drei Gründen: Modell-Update (OpenAI dreht von gpt-4o auf gpt-4.1), Prompt-Drift (du hast unbewusst neue Prompts ergänzt) oder Engine-Drift (Gemini Search ändert seinen Index-Refresh). Saubere Methodik versioniert alle drei Quellen und macht Sprünge erklärbar.

Konkret: Jeder API-Call speichert das Engine-Modell mit ab (gpt-4o, gpt-4.1, gemini-2.5-pro, claude-sonnet-4.6, perplexity-sonar-large). Jeder Prompt hat eine Version (v1, v1.1). Jede Messung trägt einen Zeitstempel. Steigt der SoV plötzlich um 5 Prozentpunkte, korrelierst du gegen Modell-Wechsel und Prompt-Änderungen, bevor du an „echte" Marktbewegung glaubst.

Empfehlung für den ersten echten SoV-Report

Starte mit 30 Prompts, vier Engines (ChatGPT, Gemini, Perplexity, Claude), Plain-Mention plus Citation-Mention getrennt erfasst. Engine-Gewichtung 45/25/15/10/5 für ChatGPT/Gemini/Perplexity/Claude/Copilot. Wochenpull, Quartals-Prompt-Refresh, Modell-Version pro Pull mit-loggen. Diese Konfiguration produziert in vier Wochen eine belastbare Zeitreihe.

Für Tool-Auswahl konkret: Otterly als Einstieg unter Series A, AEORadar als Standard in Wachstumsphase, Profound oder Peec ab Series B mit dediziertem BI. Wer DIY beginnt, sollte spätestens nach sechs Monaten auf ein Tool migrieren — die Pflege der Engine-API-Integrationen frisst sonst die Zeit für inhaltliche Optimierung auf, und genau dort schlägst du am Ende die SoV-Schlachten.

Share-of-Voice in AI-Suche messen: Methodik und Tools

Definition: Was zählt als Mention

Die Formel: Wie SoV mathematisch sauber berechnet wird

Citation-SoV vs Mention-SoV: Beide brauchen ihren Platz

Sampling: Wie viele Prompts pro Messung

Tools, die die Methodik richtig umsetzen

Drift-Erkennung: Wenn die SoV-Zahl plötzlich springt

Empfehlung für den ersten echten SoV-Report

AEO-Briefing wöchentlich

Das könnte dich auch interessieren

AEO-Tools Pricing-Vergleich 2026: 5 Anbieter zwischen 49 und 999 Euro

Enterprise-AEO-Stack: Welche Tools für 100-Mitarbeiter-Marketing-Teams?

Kostenlose AEO-Tracking-Tools 2026: Was geht ohne Budget?

Kommentare (0)

Kommentar schreiben