Sådan beregner Google din stjernebedømmelse (det er ikke et gennemsnit)
Den Bayesianske matematik bag vægtede anmeldelser, vægtning af nye anmeldelser, og hvorfor din viste bedømmelse næsten helt sikkert afviger fra dit aritmetiske gennemsnit – forklaret med rigtige formler og udregnede eksempler.
Her er noget, de fleste virksomhedsejere opdager på den hårde måde: Du kan indsamle tyve femstjernede anmeldelser i træk og se din viste bedømmelse knap nok rykke sig. Eller endnu værre – du bruger seks måneder på at forbedre din service, når endelig 50 anmeldelser, og opdager, at dit 4.8 gennemsnit på en eller anden måde er endt på 4.3 på Google Maps. Regnestykket er ikke forkert. Det virker præcis som designet. Du fik bare ikke at vide, hvad designet var.
Google har aldrig offentliggjort sin bedømmelsesalgoritme. Men mellem IMDB's offentligt dokumenterede Bayesianske formel, Algolias dokumentation om bedømmelser, akademisk forskning i anmeldelsessystemer og mange års praktisk reverse-engineering af synlige bedømmelsesændringer, er mekanikken velkendt. Denne artikel gennemgår matematikken – grundigt, med rigtige tal.
Problemet med simple gennemsnit
// naive_average.failure_modes
Lad os starte med, hvad et simpelt gennemsnit er, og hvorfor det fejler. Det aritmetiske gennemsnit af et sæt bedømmelser er simpelthen summen divideret med antallet. Tre anmeldelser på 5, 4 og 5 giver (5+4+5)/3 = 4.67. Det er matematisk korrekt. Det er også statistisk vildledende, når målet er at rangordne tusindvis af virksomheder mod hinanden.
Fejlscenarierne hober sig hurtigt op i stor skala. En restaurant, der åbnede i sidste uge med tre anmeldelser fra entusiastiske venner, vil score højere end en etableret konkurrent med 200 anmeldelser og et gennemsnit på 4.4 – selvom det etablerede sted repræsenterer et dramatisk mere pålideligt signal. Ethvert rangeringssystem, der tillader dette, vil blive udnyttet til det bliver irrelevant inden for få måneder.
Sådan fungerer Googles beregning af stjernebedømmelse i praksis
Tænk på en Bayesiansk bedømmelse som et tillidsvægtet gennemsnit. Når du har meget få anmeldelser, stoler systemet ikke nok på din stikprøve til at vise den, som den er. I stedet blander det dit rå gennemsnit med en 'prior' — en standardforventning baseret på alle lignende virksomheder. Jo flere anmeldelser du akkumulerer, jo mere stoler systemet på dine egne data, og jo mindre betyder din 'prior'.
IMDB bruger præcis denne tilgang til deres Top 250-liste og har dokumenteret formlen offentligt: WR = (v/(v+m)) × R + (m/(v+m)) × C. Variablerne er elegant simple, men de adfærdsmæssige konsekvenser tager et øjeblik at forstå fuldt ud. Den samme matematiske struktur findes i Algolias rangeringsdokumentation, akademisk litteratur om anmeldelsessystemer og det reverse-engineering-arbejde, som SEO-specialister har udført ved at studere Googles lokale rangering.
Den Bayesianske gennemsnitsformel forklaret
// bayesian_average.formula_derivation
Formlen WR = (v/(v+m)) × R + (m/(v+m)) × C er en vægtet blanding af to størrelser: din virksomheds eget observerede gennemsnit (R) og det kategoridækkende gennemsnit (C). Vægtene bestemmes af, hvor mange anmeldelser du har (v) i forhold til en minimumstærskel for troværdighed (m).
Bemærk, at (v/(v+m)) + (m/(v+m)) altid er lig med 1.0. Disse to vægte summerer til 100% — du interpolerer altid mellem dine egne data og 'prior'. Det eneste spørgsmål er, hvor meget af hver. Når v er lille i forhold til m, dominerer 'prior'. Når v er stor i forhold til m, dominerer dine egne anmeldelser.
Tærsklen m er den parameter, der indkoder platformens tillidskrav. IMDB sætter m til cirka 25.000 stemmer for deres Top 250-beregning. En lokal café på Google konkurrerer ikke i det samme statistiske univers som Avatar, så m er sat meget lavere — specialister estimerer generelt, at m ligger i intervallet 5 til 50 for lokale Google-profiler, varierende efter kategori og geografisk marked.
Kategoriens gennemsnit C er den mest undervurderede variabel. Det er ikke en fast global konstant. Google beregner næsten helt sikkert C dynamisk — pr. kategori, pr. by, måske pr. søgekontekst. En tandlæge i København bliver benchmarket mod andre københavnske tandlæger, ikke mod restauranter på landet i Jylland. Det betyder, at din Bayesianske bund er kategorispecifik.
Hvorfor den vægtede stjernebedømmelsesformel er vigtig for din SEO
Den praktiske konsekvens er, at det at få dine første 50 anmeldelser betyder uforholdsmæssigt meget mere end at få anmeldelse nummer 51 til 150. Hver anmeldelse under troværdighedstærsklen m har en overdimensioneret effekt, fordi den flytter (v/(v+m))-koefficienten betydeligt. At gå fra v=5 til v=10 fordobler din tillidsvægt. At gå fra v=150 til v=155 er knap målbart.
Dette forklarer et kontraintuitivt mønster, som specialister ser igen og igen: en virksomhed går fra 3 anmeldelser til 30 anmeldelser og ser sin viste bedømmelse falde fra 5.0 til 4.6 — selvom de nye anmeldelser også er positive. Matematikken er korrekt. Den tidlige 5.0-bedømmelse var en Bayesiansk fiktion. De 4.6 er det første ærlige estimat.
Trin-for-trin gennemgang af beregning
// step_by_step.numerical_walkthrough
To gennemgåede eksempler, der bruger et realistisk gennemsnit for kategorien på C = 4.1 og en minimumstærskel på m = 50. Disse er plausible estimater for en moderat konkurrencepræget lokal servicekategori (VVS-installatører, tandlæger, autoværksteder). Indsæt forskellige værdier for at modellere din egen kategori.
Virksomhed A har en perfekt rå score — alle anmeldere gav 5 stjerner. Men med kun 3 anmeldelser stoler formlen kun 5.7% på sine egne data. De resterende 94.3% af dens viste score kommer fra kategoriens gennemsnit på 4.1. Resultat: 4.15. Ikke de 5.0, den ser ud til at fortjene.
Virksomhed B har et lavere råt gennemsnit på 4.6 — nogle anmeldere gav 3 eller 4 stjerner. Men 120 anmeldelser betyder, at formlen stoler 70.6% på sine egne data. Dens viste score på 4.45 er meget tættere på virkeligheden og vil blive rangeret højere af Googles algoritme end Virksomhed A's nominelle 5.0. Volumen skaber troværdighed. Troværdighed skaber synlighed.
Simulering: Simpelt gennemsnit vs. Bayesiansk vægtet bedømmelse
// simulation.naive_vs_bayesian_comparison
Tabellen nedenfor anvender formlen på tværs af seks scenarier med C = 4.1 og m = 50. Delta-kolonnen viser, hvor meget den Bayesianske score adskiller sig fra det simple gennemsnit. Bemærk, hvordan kløften mindskes, efterhånden som antallet af anmeldelser vokser — det er 'prior', der mister indflydelse, som beviserne akkumuleres.
Den mest interessante række er den sidste: en virksomhed med kun 5 anmeldelser, men et forfærdeligt råt gennemsnit på 2.0, viser faktisk 3.85 — trukket op med næsten to hele stjerner af kategoriens gennemsnit. Dette er med vilje. Systemet nægter at dømme en virksomhed til glemsel baseret på fem datapunkter. Det garderer sig mod gennemsnittet, indtil stikprøven er stor nok til at berettige tillid.
Denne dæmpende effekt på negative outliers er grunden til, at 'review bombing' — en koordineret kampagne af falske negative anmeldelser — er mindre katastrofal, end den ser ud på overfladen. Algoritmen modstår ekstreme resultater, når antallet af anmeldelser er utilstrækkeligt til at retfærdiggøre dem. Når det er sagt, markerer Googles systemer til anomalidetektion også kampagner med hurtig anmeldelsesfrekvens i begge retninger.
Googles ekstra lag ud over grundformlen
// google_specific.beyond_bayesian_math
Den Bayesianske formel forklarer grundlaget, men Googles faktiske system tilføjer mindst tre yderligere lag: vægtning af nye anmeldelser, score for bidragyders troværdighed og dæmpning af anomalier ved pludselige stigninger. Ingen af disse er officielt bekræftet. Alle er udledt af adfærdsmæssige beviser og patentanalyse.
Tænk på den grundlæggende Bayesianske formel som fundamentet. Alt, der er bygget ovenpå, gør signalet mere modstandsdygtigt over for manipulation og mere tidsmæssigt præcist. Målet er altid det samme: at få den viste bedømmelse til at afspejle, hvad en kunde reelt ville opleve, hvis de kom ind i dag.
Vægtning af nye anmeldelser — hvorfor dine sidste 90 dage dominerer
Google anvender et tidsmæssigt henfald på anmeldelser, hvilket giver mere vægt til nylig feedback end til ældre indlæg. Mekanismen er i overensstemmelse med en eksponentiel henfaldsfunktion, hvor en anmeldelses indflydelse aftager over tid i stedet for at falde til nul på en bestemt skæringsdato.[1]
Fællesskabsanalyser af Googles bedømmelsesadfærd finder konsekvent, at anmeldelser, der er offentliggjort for mere end 12-18 måneder siden, har cirka 30-50% mindre indflydelse end en anmeldelse, der blev offentliggjort i sidste uge. En 5-stjernet anmeldelse fra tre år siden tæller stadig med — den tæller bare mindre. Det betyder, at en virksomhed, der indsamlede 80 anmeldelser i 2022 og ikke har fået nogen siden, lever på lånt signal.
Bidragyders troværdighed — hvorfor en anmeldelse fra en Level 7 Local Guide vejer tungere
Googles troværdighedshierarki for anmeldere udledes af dets patentportefølje og observerbar adfærd. Patent US8818995B1 beskriver et søgerangeringssystem, der vægter bidrag efter troværdighedsniveauet for den enhed, der afgiver dem. Anvendt på anmeldelser: en Level 7 Local Guide med hundredvis af detaljerede anmeldelser på tværs af flere forretningskategorier registreres som en node med høj troværdighed.[2]
Den praktiske effekt: en 5-stjernet anmeldelse fra en Local Guide Level 7 vægtes sandsynligvis tungere end en 5-stjernet anmeldelse fra en konto, der blev oprettet i går uden anmeldelseshistorik. Dette handler ikke om stjerneværdien — begge tæller som 5 i tælleren. Men vægten, der anvendes på hver enkelt før gennemsnittet beregnes, er forskellig. Google har aldrig kvantificeret denne forskel offentligt.
Anomalidæmpning — hvad sker der, når 40 anmeldelser ankommer på en uge
Pludselige stigninger i frekvens udløser et separat detektionslag. Hvis en virksomhed modtager 40 anmeldelser på 72 timer, når dens baseline er 2-3 om måneden, markerer Googles systemer dette mønster. Resultatet er ikke automatisk sletning — det er karantæne. Nye anmeldelser holder op med at blive vist i det offentlige antal og bedømmelse, mens systemet undersøger sagen.[3]
Denne mekanisme forklarer, hvorfor virksomheder, der køber anmeldelseskampagner i store mængder, ofte ikke ser nogen synlig forbedring — eller midlertidigt ser deres profilbedømmelser falde, da ældre autentiske anmeldelser forbliver synlige, mens den nye batch sidder i et anmeldelses-limbo. Algoritmen er specifikt indstillet til at mistro pludselige volumenudsving, der afviger fra etablerede baselines.
Før og efter: Hvad anmeldelsesvolumen reelt ændrer
// practical_impact.before_and_after_scenarios
To scenarier i stil med den virkelige verden for at illustrere, hvordan formlen opfører sig over tid. Ingen af dem er fiktive — disse mønstre ses gentagne gange i casestudier fra specialister i omdømmepleje.
Tandlægescenariet demonstrerer kerneindsigten i Bayesiansk bedømmelse: et lavere råt gennemsnit med høj tillid slår et højere råt gennemsnit med lav tillid. Den viste score faldt (fra en nominel 4.9 til en vist 4.58), men rangeringspositionen blev forbedret, fordi tillidsvægten nu er reel.
Restaurant-scenariet illustrerer, hvorfor organisk kadence betyder noget. Googles systemer er kalibreret til at opdage unaturlig frekvens. Fyrre anmeldelser på en uge efterfulgt af to måneders stilhed ser ikke kun mistænkeligt ud — det dæmpede effektive antal betyder, at du har brugt penge og næsten intet opnået. Matematikken straffer det dobbelt: anomalidetektionen reducerer det synlige antal, og vægtningen af nye anmeldelser betyder, at anmeldelserne fra stigningsperioden begynder at falme med det samme.
Alternative tilgange: Wilson Score og Dirichlet-modeller
// related_approaches.wilson_score_dirichlet
Bayesiansk gennemsnit er ikke den eneste statistisk sunde tilgang. Evan Millers essay fra 2009 'How Not to Sort by Average Rating' populariserede en anden metode: den nedre grænse af Wilson score konfidensintervallet. Reddit adopterede det til rangering af kommentarer. Yelp bruger en variation af det.
Wilson score stiller et andet spørgsmål end Bayesiansk gennemsnit. I stedet for 'bland mine data med en prior', spørger den: 'givet de bedømmelser, jeg har, hvad er så det værst tænkelige sande kvalitetsniveau med 95% konfidens?' Dette producerer et konservativt estimat, der straffer usikkerhed endnu mere aggressivt end Bayesiansk gennemsnit for meget lave anmeldelsesantal.
En tredje tilgang — Dirichlet-Multinomial-modellen — behandler alle fem stjerneværdier som separate kategorier snarere end en enkelt kontinuerlig score. District Data Labs dokumenterede denne tilgang for systemer med flere stjerner. Den er matematisk mere korrekt end IMDB-formlen (som implicit behandler stjerner som en lineær skala), men beregningsmæssigt tungere. Til praktiske formål bliver den adfærdsmæssige forskel mellem Bayesiansk gennemsnit og en Dirichlet-model ubetydelig over cirka 30 anmeldelser.
Hvad dette betyder for din forretningsstrategi
// strategic_implications.for_business_owners
Forståelse af matematikken omdanner et abstrakt råd ('få flere anmeldelser') til en kvantificeret strategi. Hver virksomhed eksisterer et sted på v/(v+m)-spektret. At vide, hvor du er, fortæller dig, hvor meget din næste anmeldelse reelt flytter nålen.
Hvis v = 8 og m = 50, flytter en enkelt ny 5-stjernet anmeldelse din tillidsvægt fra 8/58 = 0.138 til 9/59 = 0.153. Det skift på 1.5 procentpoint er meningsfuldt. Hvis v = 300 og m = 50, flytter den samme anmeldelse dig fra 300/350 = 0.857 til 301/351 = 0.858 — knap detekterbart. Volumen i det tidlige vindue har ti gange den matematiske effekt af volumen i stor skala.
Sådan beregner du den vægtede gennemsnitlige stjernebedømmelse for din egen virksomhed
Du kan selv køre formlen i et regneark. Tag dit nuværende antal anmeldelser som v. Estimer din kategoris m ved at se på, hvilke anmeldelsesantal de top-3 virksomheder i din Google Maps-kategori har — den 25. percentil af den fordeling er et rimeligt estimat for m. Din nuværende viste bedømmelse er sandsynligvis allerede WR-outputtet; dit simple gennemsnit er den simple sum divideret med antallet i dit backend.
Den beregning, du er interesseret i, er den marginale effekt af de næste N anmeldelser. Modeller det: øg v med 10, genberegn WR, observer deltaet. Gør dette på tværs af en række v-værdier for at bygge en følsomhedskurve. Den stejleste del af den kurve — hvor hver yderligere anmeldelse producerer den største WR-forbedring — er der, du bør koncentrere din indsats for at skaffe anmeldelser.
Hvorfor nyhedsværdi betyder, at anmeldelsesfrekvens er vigtigere end det samlede antal
Når du først forstår vægtningen af nye anmeldelser, skifter optimeringsmålet. Det handler ikke kun om det samlede volumen — det handler om volumen fordelt over tid. En virksomhed med 400 anmeldelser indsamlet over fem år og intet i de sidste 18 måneder opererer reelt på en mindre effektiv stikprøve, end tallene antyder. De henfaldne anmeldelser bidrager mindre til det løbende vægtede gennemsnit.
Konsekvent generering af anmeldelser — selv i beskedne rater — akkumulerer over tid på måder, som pludselige anskaffelser aldrig gør. Otte nye anmeldelser om måneden i tolv måneder overgår 96 anmeldelser på en enkelt måned på næsten alle relevante metrikker: Bayesiansk tillid, godkendelse fra anomalidetektion, bane for vægtning af nye anmeldelser og forbrugernes opfattelse af troværdighed.
Ofte Stillede Spørgsmål
// faq.frequently_asked_questions
Stjernebedømmelser er ikke, hvad de ser ud til at være på overfladen. Det tal, Google viser, er outputtet fra en statistisk model designet til at modstå manipulation, tage højde for usikkerhed og belønne konsekvent kvalitet over tid. At forstå matematikken kræver ikke en grad i statistik — det kræver, at man accepterer, at tre 5-stjernede anmeldelser ikke er det samme værd som 120 autentiske anmeldelser med et gennemsnit på 4.6. Formlen gør det eksplicit. Hvad du gør med den indsigt, er strategien.
Din bedømmelse er et regnestykke. Vi kan hjælpe med at løse det.
Den Bayesianske formel belønner anmeldelsesvolumen akkumuleret over tid. Hver anmeldelse, du genererer i dag, flytter din tillidsvægt i den rigtige retning — og effekten forstærkes.
Begynd at opbygge anmeldelsesvolumen


