Wie Google Ihre Sternebewertung wirklich berechnet (es ist kein Durchschnitt)
Die Bayessche Mathematik hinter gewichteten Bewertungen, der Abwertung nach Aktualität und warum Ihre angezeigte Bewertung mit ziemlicher Sicherheit von Ihrem arithmetischen Mittel abweicht – erklärt mit echten Formeln und Rechenbeispielen.
Hier ist etwas, das die meisten Geschäftsinhaber auf die harte Tour entdecken: Sie können zwanzig Fünf-Sterne-Bewertungen hintereinander sammeln und zusehen, wie sich Ihre angezeigte Bewertung kaum bewegt. Oder schlimmer noch – Sie verbessern sechs Monate lang Ihren Service, knacken endlich die 50 Bewertungen und stellen fest, dass Ihr Durchschnitt von 4,8 auf Google Maps irgendwie bei 4,3 gelandet ist. Die Berechnung ist nicht fehlerhaft. Sie funktioniert genau so, wie sie konzipiert wurde. Man hat Ihnen nur nicht verraten, wie dieses Konzept aussieht.
Google hat seinen Bewertungsalgorithmus nie veröffentlicht. Aber zwischen der öffentlich dokumentierten Bayesschen Formel von IMDB, der Bewertungsdokumentation von Algolia, akademischer Forschung zu Bewertungssystemen und jahrelanger Praxis von Experten, die sichtbare Bewertungsänderungen zurückentwickeln, sind die Mechanismen gut verstanden. Dieser Artikel führt Sie durch die Mathematik – richtig, mit echten Zahlen.
Das Problem mit naiven Durchschnittswerten
// naive_average.failure_modes
Beginnen wir damit, was ein naiver Durchschnitt ist und warum er versagt. Das arithmetische Mittel einer Reihe von Bewertungen ist einfach die Summe geteilt durch die Anzahl. Drei Bewertungen von 5, 4 und 5 ergeben (5+4+5)/3 = 4,67. Das ist mathematisch korrekt. Es ist aber auch statistisch irreführend, wenn das Ziel darin besteht, Tausende von Unternehmen miteinander zu vergleichen.
Die Fehleranfälligkeit potenziert sich bei großem Maßstab schnell. Ein Restaurant, das letzte Woche mit drei Bewertungen von begeisterten Freunden eröffnet wurde, wird höher bewertet als ein etablierter Konkurrent mit 200 Bewertungen und einem Durchschnitt von 4,4 – obwohl das etablierte Lokal ein weitaus zuverlässigeres Signal darstellt. Jedes Ranking-System, das dies zulässt, wird innerhalb von Monaten durch Manipulationen irrelevant.
Wie die Berechnung der Google-Sternebewertung in der Praxis funktioniert
Stellen Sie sich die Bayessche Bewertung als einen vertrauensgewichteten Durchschnitt vor. Wenn Sie nur sehr wenige Bewertungen haben, vertraut das System Ihrer Stichprobe nicht genug, um sie eins zu eins anzuzeigen. Stattdessen mischt es Ihren rohen Durchschnitt mit einem Prior – einer Standarderwartung, die auf allen ähnlichen Unternehmen basiert. Je mehr Bewertungen Sie sammeln, desto mehr vertraut das System Ihren eigenen Daten und desto weniger wichtig wird der Prior.
IMDB verwendet genau diesen Ansatz für ihre Top-250-Liste und hat die Formel öffentlich dokumentiert: WR = (v/(v+m)) × R + (m/(v+m)) × C. Die Variablen sind elegant einfach, aber die Auswirkungen auf das Verhalten brauchen einen Moment, um sie vollständig zu erfassen. Die gleiche mathematische Struktur findet sich in der Ranking-Dokumentation von Algolia, in der Fachliteratur über Bewertungssysteme und in der Reverse-Engineering-Arbeit von SEO-Praktikern, die das lokale Ranking von Google untersuchen.
Die Bayessche Durchschnittsformel erklärt
// bayesian_average.formula_derivation
Die Formel WR = (v/(v+m)) × R + (m/(v+m)) × C ist eine gewichtete Mischung aus zwei Größen: dem beobachteten Durchschnitt Ihres Unternehmens (R) und dem Kategoriemittelwert (C). Die Gewichte werden dadurch bestimmt, wie viele Bewertungen Sie haben (v) im Verhältnis zu einem Mindestschwellenwert für die Glaubwürdigkeit (m).
Beachten Sie, dass (v/(v+m)) + (m/(v+m)) immer 1,0 ergibt. Diese beiden Gewichte summieren sich zu 100 % – Sie interpolieren immer zwischen Ihren eigenen Daten und dem Prior. Die einzige Frage ist, wie viel von jedem. Wenn v im Verhältnis zu m winzig ist, dominiert der Prior. Wenn v im Verhältnis zu m groß ist, dominieren Ihre eigenen Bewertungen.
Der Schwellenwert m ist der Parameter, der die Vertrauensanforderungen der Plattform kodiert. IMDB setzt m für die Berechnung ihrer Top 250 auf ungefähr 25.000 Stimmen. Ein Café um die Ecke auf Google konkurriert nicht im selben statistischen Universum wie Avatar, daher wird m viel niedriger angesetzt – Praktiker schätzen m für lokale Google-Einträge im Allgemeinen auf 5 bis 50, je nach Kategorie und geografischem Markt.
Der Kategoriemittelwert C ist die am meisten unterschätzte Variable. Er ist keine feste globale Konstante. Google berechnet C mit ziemlicher Sicherheit dynamisch – pro Kategorie, pro Stadt, vielleicht sogar pro Suchkontext. Ein Zahnarzt in San Francisco wird mit anderen Zahnärzten in San Francisco verglichen, nicht mit Restaurants im ländlichen Montana. Das bedeutet, Ihre Bayessche Untergrenze ist kategoriespezifisch.
Warum die gewichtete Sternebewertungsformel für Ihr SEO wichtig ist
Die praktische Konsequenz ist, dass es unverhältnismäßig wichtiger ist, Ihre ersten 50 Bewertungen zu erhalten, als die Bewertungen 51 bis 150. Jede Bewertung unterhalb des Glaubwürdigkeitsschwellenwerts m hat eine überproportional große Auswirkung, da sie den Koeffizienten (v/(v+m)) erheblich verschiebt. Von v=5 auf v=10 zu gehen, verdoppelt Ihr Vertrauensgewicht. Von v=150 auf v=155 zu gehen, ist kaum messbar.
Dies erklärt ein kontraintuitives Muster, das Praktiker immer wieder beobachten: Ein Unternehmen geht von 3 auf 30 Bewertungen und sieht, wie seine angezeigte Bewertung von 5,0 auf 4,6 fällt – selbst wenn die neuen Bewertungen ebenfalls positiv sind. Die Berechnung ist korrekt. Die frühe 5,0 war eine Bayessche Fiktion. Die 4,6 ist die erste ehrliche Schätzung.
Schritt-für-Schritt-Rechenbeispiel
// step_by_step.numerical_walkthrough
Zwei durchgerechnete Beispiele mit einem realistischen Kategoriemittelwert von C = 4,1 und einem Mindestschwellenwert von m = 50. Dies sind plausible Schätzungen für eine mäßig wettbewerbsintensive lokale Dienstleistungskategorie (Klempner, Zahnärzte, Autowerkstätten). Setzen Sie andere Werte ein, um Ihre eigene Kategorie zu modellieren.
Unternehmen A hat eine perfekte Rohbewertung – jeder Bewerter gab 5 Sterne. Aber mit nur 3 Bewertungen vertraut die Formel ihren eigenen Daten nur zu 5,7 %. Die restlichen 94,3 % der angezeigten Bewertung stammen vom Kategoriemittelwert von 4,1. Ergebnis: 4,15. Nicht die 5,0, die es zu verdienen scheint.
Unternehmen B hat einen niedrigeren Rohdurchschnitt von 4,6 – einige Bewerter gaben 3 oder 4 Sterne. Aber 120 Bewertungen bedeuten, dass die Formel ihren eigenen Daten zu 70,6 % vertraut. Die angezeigte Bewertung von 4,45 liegt viel näher an der Realität und wird vom Google-Algorithmus höher eingestuft als die nominelle 5,0 von Unternehmen A. Volumen schafft Glaubwürdigkeit. Glaubwürdigkeit schafft Sichtbarkeit.
Simulation: Naiver Durchschnitt vs. Bayessche gewichtete Bewertung
// simulation.naive_vs_bayesian_comparison
Die folgende Tabelle wendet die Formel auf sechs Szenarien mit C = 4,1 und m = 50 an. Die Spalte 'Delta' zeigt, wie stark die Bayessche Bewertung vom naiven Durchschnitt abweicht. Beachten Sie, wie die Lücke mit zunehmender Anzahl der Bewertungen schrumpft – das ist der Prior, der an Einfluss verliert, während sich die Beweise häufen.
Die interessanteste Zeile ist die letzte: Ein Unternehmen mit nur 5 Bewertungen, aber einem schrecklichen Rohdurchschnitt von 2,0, zeigt tatsächlich 3,85 an – fast zwei volle Sterne nach oben gezogen durch den Kategoriemittelwert. Das ist so gewollt. Das System weigert sich, ein Unternehmen auf der Grundlage von fünf Datenpunkten in die Bedeutungslosigkeit zu verdammen. Es sichert sich zum Mittelwert hin ab, bis die Stichprobe groß genug ist, um Vertrauen zu rechtfertigen.
Dieser Dämpfungseffekt bei negativen Ausreißern ist der Grund, warum Review Bombing – eine koordinierte Kampagne gefälschter negativer Bewertungen – weniger katastrophal ist, als es auf den ersten Blick scheint. Der Algorithmus widersetzt sich extremen Ergebnissen, wenn die Anzahl der Bewertungen nicht ausreicht, um sie zu rechtfertigen. Allerdings kennzeichnen die Anomalieerkennungssysteme von Google auch Kampagnen mit schnell ansteigenden Bewertungszahlen in beide Richtungen.
Googles zusätzliche Ebenen über die Grundformel hinaus
// google_specific.beyond_bayesian_math
Die Bayessche Formel erklärt die Grundlage, aber das tatsächliche System von Google fügt mindestens drei weitere Ebenen hinzu: Abwertung nach Aktualität, Vertrauensbewertung der Beitragenden und Dämpfung von Anomalien bei Geschwindigkeitsspitzen. Keine davon ist offiziell bestätigt. Alle werden aus Verhaltensbeobachtungen und Patentanalysen abgeleitet.
Stellen Sie sich die grundlegende Bayessche Formel als das Fundament vor. Alles, was darauf aufbaut, macht das Signal widerstandsfähiger gegen Manipulationen und zeitlich genauer. Das Ziel ist immer dasselbe: Die angezeigte Bewertung soll das widerspiegeln, was ein Kunde wirklich erleben würde, wenn er heute hereinkäme.
Gewichtung nach Aktualität – warum Ihre letzten 90 Tage dominieren
Google wendet einen zeitlichen Verfall auf Bewertungen an, wobei neueres Feedback mehr Gewicht erhält als ältere Einträge. Der Mechanismus ist mit einer exponentiellen Abklingfunktion konsistent, bei der der Einfluss einer Bewertung im Laufe der Zeit abnimmt, anstatt an einem festen Stichtag auf null zu fallen.[1]
Community-Analysen des Google-Bewertungsverhaltens stellen durchweg fest, dass Bewertungen, die vor mehr als 12–18 Monaten veröffentlicht wurden, etwa 30–50 % weniger Einfluss haben als eine Bewertung von letzter Woche. Eine 5-Sterne-Bewertung von vor drei Jahren wird immer noch gezählt – sie wird nur weniger stark gezählt. Das bedeutet, ein Unternehmen, das 2022 80 Bewertungen gesammelt hat und seitdem keine mehr erhalten hat, lebt von einem geliehenen Signal.
Vertrauen in Beitragende – warum die Bewertung eines Level 7 Local Guides mehr ins Gewicht fällt
Googles Vertrauenshierarchie für Bewerter wird aus seinem Patentportfolio und beobachtbarem Verhalten abgeleitet. Das Patent US8818995B1 beschreibt ein Suchranking-System, das Beiträge nach dem Vertrauensniveau der sie erstellenden Entität gewichtet. Auf Bewertungen angewendet: Ein Level 7 Local Guide mit Hunderten von detaillierten Bewertungen in verschiedenen Geschäftskategorien wird als Knotenpunkt mit hohem Vertrauen eingestuft.[2]
Der praktische Effekt: Eine 5-Sterne-Bewertung von einem Local Guide Level 7 wird wahrscheinlich stärker gewichtet als eine 5-Sterne-Bewertung von einem gestern erstellten Konto ohne Bewertungshistorie. Es geht nicht um den Sternewert – beide zählen als 5 im Zähler. Aber das Gewicht, das auf jede vor der Mittelwertbildung angewendet wird, unterscheidet sich. Google hat diesen Unterschied nie öffentlich quantifiziert.
Anomaliedämpfung – was passiert, wenn 40 Bewertungen in einer Woche eintreffen
Geschwindigkeitsspitzen lösen eine separate Erkennungsebene aus. Wenn ein Unternehmen in 72 Stunden 40 Bewertungen erhält, während seine Basis bei 2–3 pro Monat liegt, kennzeichnen die Systeme von Google dieses Muster. Das Ergebnis ist keine automatische Löschung – es ist eine Quarantäne. Neue Bewertungen erscheinen nicht mehr in der angezeigten Anzahl und Bewertung, während das System den Vorfall untersucht.[3]
Dieser Mechanismus erklärt, warum Unternehmen, die Bewertungskampagnen in großen Mengen kaufen, oft keine sichtbare Verbesserung sehen – oder vorübergehend sehen, wie ihre Profilbewertungen sinken, da ältere authentische Bewertungen sichtbar bleiben, aber die neue Charge in der Überprüfungsschleife feststeckt. Der Algorithmus ist speziell darauf abgestimmt, plötzlichen Volumenschwankungen zu misstrauen, die von etablierten Baselines abweichen.
Vorher und Nachher: Was das Bewertungsvolumen wirklich verändert
// practical_impact.before_and_after_scenarios
Zwei praxisnahe Szenarien, um zu veranschaulichen, wie sich die Formel im Laufe der Zeit verhält. Keines davon ist fiktiv – diese Muster tauchen wiederholt in Fallstudien von Reputationsmanagement-Praktikern auf.
Das Zahnarzt-Szenario demonstriert die Kernbotschaft der Bayesschen Bewertung: Ein niedrigerer Rohdurchschnitt mit hohem Vertrauen schlägt einen höheren Rohdurchschnitt mit niedrigem Vertrauen. Die angezeigte Bewertung sank (von einer nominellen 4,9 auf eine angezeigte 4,58), aber die Ranking-Position verbesserte sich, weil das Vertrauensgewicht jetzt real ist.
Das Szenario des Restaurant-Spikes veranschaulicht, warum ein organischer Rhythmus zählt. Googles Systeme sind darauf kalibriert, unnatürliche Geschwindigkeiten zu erkennen. Vierzig Bewertungen in einer Woche, gefolgt von zwei Monaten Stille, sehen nicht nur verdächtig aus – die gedämpfte effektive Anzahl bedeutet, dass Sie Geld ausgegeben und fast nichts gewonnen haben. Die Berechnung bestraft dies doppelt: Die Anomalieerkennung reduziert die sichtbare Anzahl, und die Abwertung nach Aktualität bedeutet, dass die Bewertungen aus der Spike-Ära sofort zu verblassen beginnen.
Alternative Ansätze: Wilson Score und Dirichlet-Modelle
// related_approaches.wilson_score_dirichlet
Die Bayessche Mittelwertbildung ist nicht der einzige statistisch fundierte Ansatz. Evan Millers Essay von 2009 'How Not to Sort by Average Rating' popularisierte eine andere Methode: die untere Grenze des Wilson-Score-Konfidenzintervalls. Reddit hat es für das Ranking von Kommentaren übernommen. Yelp verwendet eine Variante davon.
Der Wilson-Score stellt eine andere Frage als die Bayessche Mittelwertbildung. Anstatt 'mische meine Daten mit einem Prior', fragt er: 'Gegeben die Bewertungen, die ich habe, was ist bei 95 % Konfidenz die wahrscheinlich schlechteste wahre Qualität?' Dies erzeugt eine konservative Schätzung, die Unsicherheit bei sehr geringen Bewertungszahlen noch aggressiver bestraft als die Bayessche Mittelwertbildung.
Ein dritter Ansatz – das Dirichlet-Multinomial-Modell – behandelt alle fünf Sternewerte als separate Kategorien anstatt als eine einzige kontinuierliche Skala. District Data Labs dokumentierte diesen Ansatz für Mehr-Sterne-Systeme. Er ist mathematisch korrekter als die IMDB-Formel (die Sterne implizit als lineare Skala behandelt), aber rechenintensiver. Für praktische Zwecke wird der Verhaltensunterschied zwischen Bayesscher Mittelwertbildung und einem Dirichlet-Modell bei über etwa 30 Bewertungen vernachlässigbar.
Was das für Ihre Geschäftsstrategie bedeutet
// strategic_implications.for_business_owners
Das Verständnis der Mathematik verwandelt abstrakte Ratschläge ('mehr Bewertungen erhalten') in eine quantifizierte Strategie. Jedes Unternehmen existiert irgendwo auf dem v/(v+m)-Spektrum. Zu wissen, wo Sie stehen, sagt Ihnen, wie sehr Ihre nächste Bewertung wirklich etwas bewirkt.
Wenn v = 8 und m = 50 ist, verschiebt eine einzige neue 5-Sterne-Bewertung Ihr Vertrauensgewicht von 8/58 = 0,138 auf 9/59 = 0,153. Diese Verschiebung um 1,5 Prozentpunkte ist bedeutsam. Wenn v = 300 und m = 50 ist, verschiebt dieselbe Bewertung Sie von 300/350 = 0,857 auf 301/351 = 0,858 – kaum nachweisbar. Das Volumen im frühen Fenster hat die zehnfache mathematische Auswirkung des Volumens bei großer Skalierung.
So berechnen Sie die gewichtete durchschnittliche Sternebewertung für Ihr eigenes Unternehmen
Sie können die Formel selbst in einer Tabellenkalkulation ausführen. Nehmen Sie Ihre aktuelle Bewertungsanzahl als v. Schätzen Sie das m Ihrer Kategorie, indem Sie sich ansehen, welche Bewertungsanzahlen die Top-3-Unternehmen in Ihrer Google Maps-Kategorie aufweisen – das 25. Perzentil dieser Verteilung ist eine vernünftige Schätzung für m. Ihre aktuell angezeigte Bewertung ist wahrscheinlich bereits das WR-Ergebnis; Ihr naiver Durchschnitt ist die einfache Summe geteilt durch die Anzahl in Ihrem Backend.
Die Berechnung, die Sie interessiert, ist die marginale Auswirkung der nächsten N Bewertungen. Modellieren Sie es: Erhöhen Sie v um 10, berechnen Sie WR neu, beobachten Sie das Delta. Tun Sie dies über einen Bereich von v-Werten, um eine Sensitivitätskurve zu erstellen. Der steilste Teil dieser Kurve – wo jede zusätzliche Bewertung die größte WR-Verbesserung bewirkt – ist der Bereich, auf den Sie Ihre Bemühungen zur Bewertungsgewinnung konzentrieren sollten.
Warum Aktualität bedeutet, dass die Bewertungsgeschwindigkeit wichtiger ist als die Gesamtzahl
Sobald Sie die Abwertung nach Aktualität verstehen, verschiebt sich das Optimierungsziel. Es geht nicht nur um das Gesamtvolumen – es geht um das über die Zeit verteilte Volumen. Ein Unternehmen mit 400 Bewertungen, die über fünf Jahre gesammelt wurden und nichts in den letzten 18 Monaten, operiert effektiv mit einer kleineren effektiven Stichprobe, als die Zahlen vermuten lassen. Die abgewerteten Bewertungen tragen weniger zum laufenden gewichteten Durchschnitt bei.
Eine konsistente Generierung von Bewertungen – selbst in bescheidenem Maße – potenziert sich im Laufe der Zeit auf eine Weise, wie es eine schubweise Akquise niemals tut. Acht neue Bewertungen pro Monat für zwölf Monate übertreffen 96 Bewertungen in einem einzigen Monat in fast jeder relevanten Metrik: Bayessches Vertrauen, Freigabe durch Anomalieerkennung, Verlauf der Abwertung nach Aktualität und Glaubwürdigkeitswahrnehmung durch die Verbraucher.
Häufig gestellte Fragen
// faq.frequently_asked_questions
Sternebewertungen sind nicht das, was sie auf den ersten Blick zu sein scheinen. Die von Google angezeigte Zahl ist das Ergebnis eines statistischen Modells, das darauf ausgelegt ist, Manipulationen zu widerstehen, Unsicherheiten zu berücksichtigen und konsistente Qualität über die Zeit zu belohnen. Das Verständnis der Mathematik erfordert keinen Abschluss in Statistik – es erfordert die Akzeptanz, dass drei 5-Sterne-Bewertungen nicht dasselbe wert sind wie 120 authentische Bewertungen mit einem Durchschnitt von 4,6. Die Formel macht das explizit. Was Sie mit dieser Erkenntnis tun, ist die Strategie.
Ihre Bewertung ist ein mathematisches Problem. Wir können bei der Lösung helfen.
Die Bayessche Formel belohnt über die Zeit angesammeltes Bewertungsvolumen. Jede Bewertung, die Sie heute generieren, verschiebt Ihr Vertrauensgewicht in die richtige Richtung – und der Effekt potenziert sich.
Beginnen Sie mit dem Aufbau von Bewertungen


