Hvordan Google faktisk beregner din stjernerangering (det er ikke et gjennomsnitt)
Den Bayesianske matematikken bak vektede anmeldelser, verditap over tid, og hvorfor din viste rangering nesten helt sikkert avviker fra ditt aritmetiske gjennomsnitt – forklart med ekte formler og utregninger.
Her er noe de fleste bedriftseiere oppdager på den harde måten: du kan samle tjue femstjerners anmeldelser på rad og se at din viste rangering knapt beveger seg. Eller verre – du bruker seks måneder på å forbedre tjenesten din, når endelig 50 anmeldelser, og innser at ditt 4,8-gjennomsnitt på en eller annen måte har landet på 4,3 på Google Maps. Regnestykket er ikke feil. Det fungerer nøyaktig som designet. Du ble bare ikke fortalt hva designet var.
Google har aldri publisert sin rangeringsalgoritme. Men mellom IMDBs offentlig dokumenterte Bayesianske formel, Algolias rangeringsdokumentasjon, akademisk forskning på anmeldelsessystemer og årevis med praksis hvor eksperter har dekonstruert synlige rangeringsendringer, er mekanismene godt forstått. Denne artikkelen går gjennom matematikken – skikkelig, med ekte tall.
Problemet med naive gjennomsnitt
// naive_average.failure_modes
La oss starte med hva et naivt gjennomsnitt er og hvorfor det ikke fungerer. Det aritmetiske gjennomsnittet av et sett med rangeringer er rett og slett summen delt på antallet. Tre anmeldelser med 5, 4 og 5 gir (5+4+5)/3 = 4,67. Det er matematisk korrekt. Det er også statistisk misvisende når målet er å rangere tusenvis av bedrifter mot hverandre.
Svakhetene blir raskt tydelige i stor skala. En restaurant som åpnet forrige uke med tre anmeldelser fra entusiastiske venner, vil score høyere enn en etablert konkurrent med 200 anmeldelser og et gjennomsnitt på 4,4 – selv om den etablerte bedriften representerer et dramatisk mer pålitelig signal. Ethvert rangeringssystem som tillater dette, vil bli manipulert til det er irrelevant i løpet av måneder.
Hvordan beregning av Google stjernerangering fungerer i praksis
Tenk på Bayesiansk rangering som et konfidensvektet gjennomsnitt. Når du har veldig få anmeldelser, stoler ikke systemet nok på utvalget ditt til å vise det som det er. I stedet blander det ditt rå gjennomsnitt med en prior – en standardforventning basert på alle lignende bedrifter. Jo flere anmeldelser du samler, jo mer stoler systemet på dine egne data, og jo mindre betyr prioren.
IMDB bruker nøyaktig denne tilnærmingen for sin Topp 250-liste og har dokumentert formelen offentlig: WR = (v/(v+m)) × R + (m/(v+m)) × C. Variablene er elegant enkle, men implikasjonene for atferd tar litt tid å forstå fullt ut. Den samme matematiske strukturen finnes i Algolias rangeringsdokumentasjon, akademisk litteratur om anmeldelsessystemer og i dekonstruksjonsarbeidet utført av SEO-eksperter som studerer Googles lokale rangering.
Den Bayesianske gjennomsnittsformelen, forklart
// bayesian_average.formula_derivation
Formelen WR = (v/(v+m)) × R + (m/(v+m)) × C er en vektet blanding av to størrelser: din bedrifts eget observerte gjennomsnitt (R) og gjennomsnittet for hele kategorien (C). Vekten bestemmes av hvor mange anmeldelser du har (v) i forhold til en minimumsterskel for troverdighet (m).
Legg merke til at (v/(v+m)) + (m/(v+m)) alltid er lik 1,0. Disse to vektene summerer seg til 100 % – du interpolerer alltid mellom dine egne data og prioren. Det eneste spørsmålet er hvor mye av hver. Når v er veldig liten i forhold til m, dominerer prioren. Når v er stor i forhold til m, dominerer dine egne anmeldelser.
Terskelen m er parameteren som koder for plattformens konfidenskrav. IMDB setter m til omtrent 25 000 stemmer for sin Topp 250-beregning. En nabolagskafé på Google konkurrerer ikke i det samme statistiske universet som Avatar, så m settes mye lavere – eksperter anslår generelt at m ligger i området 5 til 50 for lokale Google-oppføringer, og varierer etter kategori og geografisk marked.
Kategoriens gjennomsnitt C er den mest undervurderte variabelen. Det er ikke en fast global konstant. Google beregner nesten helt sikkert C dynamisk – per kategori, per by, kanskje per søkekontekst. En tannlege i Oslo blir målt mot andre tannleger i Oslo, ikke mot restauranter på landsbygda i Finnmark. Dette betyr at din Bayesianske 'gulvverdi' er kategorispesifikk.
Hvorfor den vektede stjernerangeringsformelen er viktig for din SEO
Den praktiske implikasjonen er at det å få dine første 50 anmeldelser betyr uforholdsmessig mye mer enn å få anmeldelsene fra 51 til 150. Hver anmeldelse under troverdighetsterskelen m har en overdimensjonert effekt fordi den forskyver (v/(v+m))-koeffisienten betydelig. Å gå fra v=5 til v=10 dobler din konfidensvekt. Å gå fra v=150 til v=155 er knapt merkbart.
Dette forklarer et kontraintuitivt mønster som eksperter observerer gjentatte ganger: en bedrift går fra 3 til 30 anmeldelser og ser sin viste rangering falle fra 5,0 til 4,6 – selv når de nye anmeldelsene også er positive. Regnestykket er korrekt. Den tidlige 5,0-scoren var Bayesiansk fiksjon. 4,6 er det første ærlige estimatet.
Trinn-for-trinn gjennomgang av beregningen
// step_by_step.numerical_walkthrough
To regneeksempler, som bruker et realistisk gjennomsnitt for kategorien på C = 4,1 og en minimumsterskel på m = 50. Dette er plausible estimater for en moderat konkurranseutsatt lokal tjenestekategori (rørleggere, tannleger, bilverksteder). Sett inn forskjellige verdier for å modellere din egen kategori.
Bedrift A har en perfekt rå-score – hver anmelder ga 5 stjerner. Men med bare 3 anmeldelser stoler formelen bare 5,7 % på sine egne data. De resterende 94,3 % av den viste scoren kommer fra kategoriens gjennomsnitt på 4,1. Resultat: 4,15. Ikke 5,0 som den ser ut til å fortjene.
Bedrift B har et lavere rå-gjennomsnitt på 4,6 – noen anmeldere ga 3 eller 4 stjerner. Men 120 anmeldelser betyr at formelen stoler 70,6 % på sine egne data. Den viste scoren på 4,45 er mye nærmere virkeligheten, og vil bli rangert høyere av Googles algoritme enn Bedrift As nominelle 5,0. Volum gir troverdighet. Troverdighet gir synlighet.
Simulering: Naivt gjennomsnitt vs. Bayesiansk vektet rangering
// simulation.naive_vs_bayesian_comparison
Tabellen nedenfor bruker formelen på tvers av seks scenarier med C = 4,1 og m = 50. Delta-kolonnen viser hvor mye den Bayesianske scoren avviker fra det naive gjennomsnittet. Legg merke til hvordan gapet krymper etter hvert som antall anmeldelser øker – det er prioren som mister innflytelse ettersom bevisene samles.
Den mest interessante raden er den siste: en bedrift med bare 5 anmeldelser, men et forferdelig rå-gjennomsnitt på 2,0, viser faktisk 3,85 – trukket opp nesten to hele stjerner av kategoriens gjennomsnitt. Dette er med vilje. Systemet nekter å dømme en bedrift til glemsel basert på fem datapunkter. Det sikrer seg mot gjennomsnittet til utvalget er stort nok til å fortjene tillit.
Denne dempende effekten på negative avvik er grunnen til at 'review bombing' – en koordinert kampanje med falske negative anmeldelser – er mindre katastrofal enn den ser ut på overflaten. Algoritmen motstår ekstreme utfall når antall anmeldelser er utilstrekkelig til å rettferdiggjøre dem. Når det er sagt, flagger Googles systemer for avviksdeteksjon også kampanjer med rask anmeldelsesfrekvens i begge retninger.
Googles ekstra lag utover grunnformelen
// google_specific.beyond_bayesian_math
Den Bayesianske formelen forklarer grunnlinjen, men Googles faktiske system legger til minst tre lag til: verditap over tid (recency decay), tillitsscore for bidragsytere, og demping av avvik for frekvenshopp. Ingen av disse er offisielt bekreftet. Alle er utledet fra atferdsbevis og patentanalyse.
Tenk på den grunnleggende Bayesianske formelen som fundamentet. Alt som er bygget på toppen av den, gjør signalet mer motstandsdyktig mot manipulasjon og mer nøyaktig over tid. Målet er alltid det samme: å få den viste rangeringen til å gjenspeile hva en kunde genuint ville oppleve hvis de kom inn i dag.
Nyhetsvekting – hvorfor de siste 90 dagene dominerer
Google bruker et tidsmessig verditap på anmeldelser, og gir mer vekt til nylig feedback enn eldre innlegg. Mekanismen er i tråd med en eksponentiell forfallsfunksjon, der en anmeldelses innflytelse reduseres over tid i stedet for å falle til null på en bestemt dato.[1]
Fellesskapsanalyser av Googles rangeringsatferd finner konsekvent at anmeldelser publisert for mer enn 12–18 måneder siden har omtrent 30–50 % mindre innflytelse enn en anmeldelse publisert forrige uke. En 5-stjerners anmeldelse fra tre år siden telles fortsatt med – den telles bare mindre. Dette betyr at en bedrift som samlet 80 anmeldelser i 2022 og ikke har fått noen siden, lever på et lånt signal.
Bidragsytertillit – hvorfor en anmeldelse fra en Local Guide på nivå 7 treffer hardere
Googles tillitshierarki for anmeldere er utledet fra patentporteføljen og observerbar atferd. Patent US8818995B1 beskriver et søkerangeringssystem som vekter bidrag etter tillitsnivået til enheten som gir dem. Anvendt på anmeldelser: en Local Guide på nivå 7 med hundrevis av detaljerte anmeldelser på tvers av flere bedriftskategorier, registreres som en node med høy tillit.[2]
Den praktiske effekten: en 5-stjerners anmeldelse fra en Local Guide på nivå 7 blir sannsynligvis vektet tyngre enn en 5-stjerners anmeldelse fra en konto opprettet i går uten anmeldelseshistorikk. Dette handler ikke om stjerneverdien – begge teller som 5 i telleren. Men vekten som brukes på hver før gjennomsnittet beregnes, er forskjellig. Google har aldri kvantifisert denne forskjellen offentlig.
Avviksdemping – hva skjer når 40 anmeldelser kommer på en uke
Frekvenshopp utløser et separat deteksjonslag. Hvis en bedrift mottar 40 anmeldelser på 72 timer når normalen er 2–3 per måned, flagger Googles systemer dette mønsteret. Resultatet er ikke automatisk sletting – det er karantene. Nye anmeldelser slutter å vises i det viste antallet og rangeringen mens systemet undersøker.[3]
Denne mekanismen forklarer hvorfor bedrifter som kjøper anmeldelseskampanjer i bulk ofte ikke ser noen synlig forbedring – eller midlertidig ser profilen sin falle i rangering ettersom eldre, autentiske anmeldelser forblir synlige, mens den nye bunken sitter i 'review limbo'. Algoritmen er spesifikt innstilt til å mistro plutselige volumendringer som avviker fra etablerte grunnlinjer.
Før og etter: Hva anmeldelsesvolum faktisk endrer
// practical_impact.before_and_after_scenarios
To realistiske scenarier for å illustrere hvordan formelen oppfører seg over tid. Ingen av dem er fiktive – disse mønstrene dukker opp gjentatte ganger i casestudier fra omdømmeeksperter.
Tannlege-scenarioet demonstrerer kjerneinnsikten i Bayesiansk rangering: et lavere rå-gjennomsnitt med høy konfidens slår et høyere rå-gjennomsnitt med lav konfidens. Den viste scoren gikk ned (fra en nominell 4,9 til en vist 4,58), men rangeringsposisjonen ble bedre fordi konfidensvekten nå er reell.
Restaurant-scenarioet illustrerer hvorfor organisk frekvens er viktig. Googles systemer er kalibrert for å oppdage unaturlig hastighet. Førti anmeldelser på en uke, etterfulgt av to måneder med stillhet, ser ikke bare mistenkelig ut – det dempede effektive antallet betyr at du brukte penger og oppnådde nesten ingenting. Matematikken straffer det to ganger: avviksdeteksjonen reduserer det synlige antallet, og verditapet over tid betyr at anmeldelsene fra 'hoppet' begynner å miste verdi umiddelbart.
Alternative tilnærminger: Wilson Score og Dirichlet-modeller
// related_approaches.wilson_score_dirichlet
Bayesiansk gjennomsnittsberegning er ikke den eneste statistisk solide tilnærmingen. Evan Millers essay fra 2009, 'How Not to Sort by Average Rating', populariserte en annen metode: den nedre grensen for Wilson score-konfidensintervallet. Reddit tok det i bruk for kommentarrangering. Yelp bruker en variant av det.
Wilson score stiller et annet spørsmål enn Bayesiansk gjennomsnittsberegning. I stedet for 'bland mine data med en prior', spør den: 'gitt rangeringene jeg har, hva er den sannsynligvis dårligste sanne kvaliteten med 95 % konfidens?' Dette gir et konservativt estimat som straffer usikkerhet enda mer aggressivt enn Bayesiansk gjennomsnittsberegning for svært lave anmeldelsestall.
En tredje tilnærming – Dirichlet-Multinomial-modellen – behandler alle de fem stjerneverdiene som separate kategorier i stedet for en enkelt kontinuerlig score. District Data Labs dokumenterte denne tilnærmingen for systemer med flere stjerner. Den er matematisk mer korrekt enn IMDB-formelen (som implisitt behandler stjerner som en lineær skala), men er beregningsmessig tyngre. For praktiske formål blir atferdsforskjellen mellom Bayesiansk gjennomsnittsberegning og en Dirichlet-modell ubetydelig over omtrent 30 anmeldelser.
Hva dette betyr for din forretningsstrategi
// strategic_implications.for_business_owners
Å forstå matematikken gjør et abstrakt råd ('få flere anmeldelser') om til en kvantifisert strategi. Hver bedrift befinner seg et sted på v/(v+m)-spekteret. Å vite hvor du er, forteller deg hvor mye din neste anmeldelse faktisk flytter nålen.
Hvis v = 8 og m = 50, flytter en enkelt ny 5-stjerners anmeldelse din konfidensvekt fra 8/58 = 0,138 til 9/59 = 0,153. Denne endringen på 1,5 prosentpoeng er meningsfull. Hvis v = 300 og m = 50, flytter den samme anmeldelsen deg fra 300/350 = 0,857 til 301/351 = 0,858 – knapt merkbart. Volum i det tidlige vinduet har ti ganger den matematiske effekten av volum i stor skala.
Hvordan beregne vektet gjennomsnittlig stjernerangering for din egen bedrift
Du kan kjøre formelen selv i et regneark. Ta ditt nåværende antall anmeldelser som v. Estimer kategoriens m ved å se på hvilket antall anmeldelser de 3 beste bedriftene i din Google Maps-kategori har – 25-persentilen av den fordelingen er et rimelig estimat for m. Din nåværende viste rangering er sannsynligvis allerede WR-resultatet; ditt naive gjennomsnitt er den enkle summen delt på antallet i ditt administrasjonspanel.
Beregningen du bryr deg om, er den marginale effekten av de neste N anmeldelsene. Modeller det: øk v med 10, beregn WR på nytt, og observer deltaet. Gjør dette over en rekke v-verdier for å bygge en følsomhetskurve. Den bratteste delen av kurven – der hver ekstra anmeldelse gir den største WR-forbedringen – er der du bør konsentrere innsatsen for å skaffe anmeldelser.
Hvorfor nyhetsverdi betyr at anmeldelsesfrekvens er viktigere enn totalt antall
Når du forstår verditap over tid, endres optimaliseringsmålet. Det handler ikke bare om totalt volum – det handler om volum fordelt over tid. En bedrift med 400 anmeldelser samlet over fem år og ingenting de siste 18 månedene, opererer i praksis med et mindre effektivt utvalg enn tallene antyder. De gamle anmeldelsene bidrar mindre til det løpende vektede gjennomsnittet.
Jevn generering av anmeldelser – selv i beskjedent tempo – gir en sammensatt effekt over tid på en måte som plutselige anskaffelser aldri gjør. Åtte nye anmeldelser per måned i tolv måneder overgår 96 anmeldelser på en enkelt måned på nesten alle relevante beregninger: Bayesiansk tillit, klarering av avviksdeteksjon, kurven for verditap over tid, og forbrukernes oppfatning av troverdighet.
Ofte stilte spørsmål
// faq.frequently_asked_questions
Stjernerangeringer er ikke hva de ser ut til å være på overflaten. Tallet Google viser er resultatet av en statistisk modell designet for å motstå manipulasjon, ta hensyn til usikkerhet og belønne jevn kvalitet over tid. Å forstå matematikken krever ikke en grad i statistikk – det krever at man aksepterer at tre 5-stjerners anmeldelser ikke er verdt det samme som 120 autentiske anmeldelser med et gjennomsnitt på 4,6. Formelen gjør dette eksplisitt. Hva du gjør med denne innsikten, er strategien.
Din rangering er et matteproblem. Vi kan hjelpe deg med å løse det.
Den Bayesianske formelen belønner anmeldelsesvolum som er samlet over tid. Hver anmeldelse du genererer i dag, flytter konfidensvekten din i riktig retning – og effekten forsterkes.
Begynn å bygge anmeldelsesvolum


