Hur Google faktiskt beräknar ditt stjärnbetyg (det är inte ett genomsnitt)
Den Bayesianska matematiken bakom viktade recensioner, nyhetsviktning och varför ditt visade betyg nästan säkert skiljer sig från ditt aritmetiska medelvärde – förklarat med riktiga formler och räkneexempel.
Här är något de flesta företagsägare upptäcker den hårda vägen: du kan samla in tjugo femstjärniga recensioner i rad och se ditt visade betyg knappt röra sig. Eller ännu värre – du ägnar sex månader åt att förbättra din service, når äntligen 50 recensioner och inser att ditt genomsnitt på 4,8 på något sätt har landat på 4,3 på Google Maps. Matematiken är inte fel. Den fungerar precis som den är designad. Du fick bara aldrig veta hur den var designad.
Google har aldrig publicerat sin betygsalgoritm. Men mellan IMDB:s offentligt dokumenterade Bayesianska formel, Algolias betygsdokumentation, akademisk forskning om recensionssystem och år av praktiker som har baklängeskonstruerat synliga betygsförändringar, är mekaniken väl förstådd. Den här artikeln går igenom matematiken – på rätt sätt, med riktiga siffror.
Problemet med naiva genomsnitt
// naive_average.failure_modes
Låt oss börja med vad ett naivt genomsnitt är och varför det misslyckas. Det aritmetiska medelvärdet av en uppsättning betyg är helt enkelt summan dividerat med antalet. Tre recensioner med betygen 5, 4 och 5 ger (5+4+5)/3 = 4,67. Det är matematiskt korrekt. Det är också statistiskt vilseledande när målet är att rangordna tusentals företag mot varandra.
Misslyckandena blir snabbt värre i stor skala. En restaurang som öppnade förra veckan med tre recensioner från entusiastiska vänner kommer att få högre betyg än en etablerad konkurrent med 200 recensioner och ett snitt på 4,4 – även om det etablerade stället representerar en dramatiskt mer tillförlitlig signal. Vilket rankningssystem som helst som tillåter detta kommer att manipuleras till irrelevans inom några månader.
Hur Googles beräkning av stjärnbetyg fungerar i praktiken
Tänk på Bayesiansk betygsättning som ett konfidensviktat genomsnitt. När du har väldigt få recensioner litar systemet inte tillräckligt på ditt urval för att visa det som det är. Istället blandar det ditt råa genomsnitt med ett 'prior' – ett ursprungligt antagande baserat på alla liknande företag. Ju fler recensioner du samlar på dig, desto mer litar systemet på din egen data och desto mindre betyder det ursprungliga antagandet.
IMDB använder exakt detta tillvägagångssätt för sin Topp 250-lista och har dokumenterat formeln offentligt: WR = (v/(v+m)) × R + (m/(v+m)) × C. Variablerna är elegant enkla, men konsekvenserna för beteendet tar ett ögonblick att helt förstå. Samma matematiska struktur återfinns i Algolias rankningsdokumentation, akademisk litteratur om recensionssystem och det baklängeskonstruktionsarbete som utförts av SEO-specialister som studerar Googles lokala rankning.
Den Bayesianska medelvärdesformeln, förklarad
// bayesian_average.formula_derivation
Formeln WR = (v/(v+m)) × R + (m/(v+m)) × C är en viktad blandning av två kvantiteter: ditt företags eget observerade genomsnitt (R) och det kategoribreda medelvärdet (C). Vikterna bestäms av hur många recensioner du har (v) i förhållande till en minsta trovärdighetströskel (m).
Notera att (v/(v+m)) + (m/(v+m)) alltid är lika med 1,0. Dessa två vikter summerar till 100 % – du interpolerar alltid mellan din egen data och det ursprungliga antagandet. Den enda frågan är hur mycket av varje. När v är litet i förhållande till m, dominerar det ursprungliga antagandet. När v är stort i förhållande till m, dominerar dina egna recensioner.
Tröskeln m är den parameter som kodar plattformens konfidenskrav. IMDB sätter m till cirka 25 000 röster för sin Topp 250-beräkning. Ett kvarterskafé på Google tävlar inte i samma statistiska universum som Avatar, så m är satt mycket lägre – praktiker uppskattar generellt m till mellan 5 och 50 för lokala Google-företagsposter, varierande efter kategori och geografisk marknad.
Kategorins medelvärde C är den mest underskattade variabeln. Det är inte en fast global konstant. Google beräknar nästan säkert C dynamiskt – per kategori, per stad, kanske per sökkontext. En tandläkare i Stockholm jämförs med andra tandläkare i Stockholm, inte med restauranger på landsbygden i Norrland. Detta innebär att din Bayesianska basnivå är kategorispecifik.
Varför den viktade stjärnbetygsformeln är viktig för din SEO
Den praktiska innebörden är att det är oproportionerligt mycket viktigare att få dina första 50 recensioner än att få recensionerna 51 till 150. Varje recension under trovärdighetströskeln m har en överdimensionerad inverkan eftersom den förskjuter (v/(v+m))-koefficienten avsevärt. Att gå från v=5 till v=10 fördubblar din konfidensvikt. Att gå från v=150 till v=155 är knappt mätbart.
Detta förklarar ett kontraintuitivt mönster som praktiker observerar upprepade gånger: ett företag går från 3 recensioner till 30 recensioner och ser sitt visade betyg sjunka från 5,0 till 4,6 – även när de nya recensionerna också är positiva. Matematiken är korrekt. Det tidiga 5,0-betyget var en Bayesiansk fiktion. 4,6 är den första ärliga uppskattningen.
Steg-för-steg-genomgång av beräkningen
// step_by_step.numerical_walkthrough
Två räkneexempel, med ett realistiskt kategorisnitt på C = 4,1 och en minimiträskel på m = 50. Dessa är rimliga uppskattningar för en måttligt konkurrensutsatt lokal servicekategori (rörmokare, tandläkare, bilverkstäder). Använd andra värden för att modellera din egen kategori.
Företag A har ett perfekt råbetyg – varje recensent gav 5 stjärnor. Men med endast 3 recensioner litar formeln på sin egen data till endast 5,7 %. De återstående 94,3 % av dess visade betyg kommer från kategorins medelvärde på 4,1. Resultat: 4,15. Inte de 5,0 det verkar förtjäna.
Företag B har ett lägre rågenomsnitt på 4,6 – några recensenter gav 3 eller 4 stjärnor. Men 120 recensioner innebär att formeln litar på sin egen data till 70,6 %. Dess visade betyg på 4,45 är mycket närmare verkligheten och kommer att rankas högre av Googles algoritm än Företag A:s nominella 5,0. Volym ger trovärdighet. Trovärdighet ger synlighet.
Simulering: Naivt genomsnitt vs. Bayesianskt viktat betyg
// simulation.naive_vs_bayesian_comparison
Tabellen nedan tillämpar formeln på sex scenarier med C = 4,1 och m = 50. Delta-kolumnen visar hur mycket det Bayesianska betyget skiljer sig från det naiva genomsnittet. Notera hur gapet krymper när antalet recensioner växer – det är det ursprungliga antagandet som förlorar inflytande när bevis ackumuleras.
Den mest intressanta raden är den sista: ett företag med endast 5 recensioner men ett fruktansvärt rågenomsnitt på 2,0 visar faktiskt 3,85 – uppdraget nästan två hela stjärnor av kategorins medelvärde. Detta är avsiktligt. Systemet vägrar att döma ett företag till glömska baserat på fem datapunkter. Det garderar sig mot medelvärdet tills urvalet är tillräckligt stort för att motivera förtroende.
Denna dämpande effekt på negativa extremvärden är anledningen till att recensionsbombning – en samordnad kampanj med falska negativa recensioner – är mindre katastrofal än den ser ut på ytan. Algoritmen motstår extrema resultat när antalet recensioner är otillräckligt för att motivera dem. Med det sagt flaggar Googles system för avvikelsedetektering även för recensionskampanjer med hög hastighet i båda riktningarna.
Googles ytterligare lager utöver grundformeln
// google_specific.beyond_bayesian_math
Den Bayesianska formeln förklarar grunden, men Googles faktiska system lägger till minst tre ytterligare lager: nyhetsviktning (recency decay), poängsättning av recensenters trovärdighet och dämpning av avvikelser vid hastighetstoppar. Inget av detta är officiellt bekräftat. Allt är härlett från beteendemässiga bevis och patentanalys.
Tänk på den grundläggande Bayesianska formeln som grunden. Allt som byggs ovanpå den gör signalen mer motståndskraftig mot manipulation och mer tidsmässigt korrekt. Målet är alltid detsamma: att få det visade betyget att återspegla vad en kund faktiskt skulle uppleva om de kom in idag.
Nyhetsviktning – varför dina senaste 90 dagar dominerar
Google tillämpar ett tidsmässigt förfall på recensioner, vilket ger mer vikt åt ny feedback än äldre. Mekanismen är förenlig med en exponentiell avklingningsfunktion, där en recensions inflytande minskar över tid snarare än att sjunka till noll vid ett visst brytdatum.[1]
Analyser från communityn av Googles betygsbeteende visar konsekvent att recensioner som publicerats för mer än 12–18 månader sedan har ungefär 30–50 % mindre inflytande än en recension som publicerades förra veckan. En femstjärnig recension från tre år sedan räknas fortfarande – den räknas bara mindre. Det innebär att ett företag som samlade 80 recensioner under 2022 och inte har fått några sedan dess lever på lånad tid.
Recensentens trovärdighet – varför en recension från en Local Guide på nivå 7 väger tyngre
Googles förtroendehierarki för recensenter kan härledas från dess patentportfölj och observerbart beteende. Patent US8818995B1 beskriver ett sökrankningssystem som viktar bidrag efter förtroendenivån hos den enhet som gör dem. Tillämpat på recensioner: en Local Guide på nivå 7 med hundratals detaljerade recensioner i flera företagskategorier registreras som en nod med högt förtroende.[2]
Den praktiska effekten: en femstjärnig recension från en Local Guide på nivå 7 viktas sannolikt tyngre än en femstjärnig recension från ett konto som skapades igår utan recensionshistorik. Detta handlar inte om stjärnvärdet – båda räknas som 5 i täljaren. Men vikten som tillämpas på var och en innan genomsnittet beräknas skiljer sig åt. Google har aldrig offentligt kvantifierat denna skillnad.
Avvikelsedämpning – vad som händer när 40 recensioner kommer in på en vecka
Hastighetstoppar utlöser ett separat detekteringslager. Om ett företag får 40 recensioner på 72 timmar när dess baslinje är 2–3 per månad, flaggar Googles system detta mönster. Resultatet är inte automatisk radering – det är karantän. Nya recensioner slutar visas i det publika antalet och betyget medan systemet utreder.[3]
Denna mekanism förklarar varför företag som köper recensionskampanjer i bulk ofta inte ser någon synlig förbättring – eller tillfälligt ser sina profilbetyg sjunka när äldre autentiska recensioner förblir synliga men den nya batchen hamnar i ett granskningslimbo. Algoritmen är specifikt inställd för att misstro plötsliga volymförändringar som avviker från etablerade baslinjer.
Före och efter: Vad recensionsvolym faktiskt förändrar
// practical_impact.before_and_after_scenarios
Två verklighetsnära scenarier för att illustrera hur formeln beter sig över tid. Inget av dem är fiktivt – dessa mönster dyker upp upprepade gånger i fallstudier från rykteshanteringsspecialister.
Tandläkarscenariot demonstrerar kärninsikten med Bayesiansk betygsättning: ett lägre rågenomsnitt med hög konfidens slår ett högre rågenomsnitt med låg konfidens. Det visade betyget sjönk (från ett nominellt 4,9 till ett visat 4,58) men rankningspositionen förbättrades eftersom konfidensvikten nu är verklig.
Restaurangtopp-scenariot illustrerar varför organisk kadens är viktig. Googles system är kalibrerade för att upptäcka onaturlig hastighet. Fyrtio recensioner på en vecka följt av två månaders tystnad ser inte bara misstänkt ut – det dämpade effektiva antalet innebär att du spenderade pengar och fick nästan ingenting i utbyte. Matematiken bestraffar det två gånger: avvikelsedetekteringen minskar det synliga antalet, och nyhetsförfallet innebär att recensionerna från topp-perioden börjar tona bort omedelbart.
Alternativa metoder: Wilson Score och Dirichlet-modeller
// related_approaches.wilson_score_dirichlet
Bayesianskt medelvärde är inte den enda statistiskt sunda metoden. Evan Millers essä från 2009, 'How Not to Sort by Average Rating', populariserade en annan metod: den nedre gränsen för Wilson-score-konfidensintervallet. Reddit använder den för att rangordna kommentarer. Yelp använder en variant av den.
Wilson-score ställer en annan fråga än Bayesianskt medelvärde. Istället för 'blanda min data med ett ursprungligt antagande', frågar den: 'givet de betyg jag har, vad är det sämsta den sanna kvaliteten sannolikt är med 95 % konfidens?' Detta ger en konservativ uppskattning som bestraffar osäkerhet ännu mer aggressivt än Bayesianskt medelvärde för mycket låga recensionsantal.
En tredje metod – Dirichlet-Multinomial-modellen – behandlar alla fem stjärnvärden som separata kategorier snarare än en enda kontinuerlig poäng. District Data Labs dokumenterade denna metod för system med flera stjärnor. Den är matematiskt mer korrekt än IMDB-formeln (som implicit behandlar stjärnor som en linjär skala) men beräkningsmässigt tyngre. För praktiska ändamål blir den beteendemässiga skillnaden mellan Bayesianskt medelvärde och en Dirichlet-modell försumbar över cirka 30 recensioner.
Vad detta betyder för din affärsstrategi
// strategic_implications.for_business_owners
Att förstå matematiken omvandlar abstrakta råd ('skaffa fler recensioner') till en kvantifierad strategi. Varje företag befinner sig någonstans på v/(v+m)-spektrumet. Att veta var du är talar om för dig hur mycket din nästa recension faktiskt gör skillnad.
Om v = 8 och m = 50, förskjuter en enda ny 5-stjärnig recension din konfidensvikt från 8/58 = 0,138 till 9/59 = 0,153. Denna förskjutning på 1,5 procentenheter är meningsfull. Om v = 300 och m = 50, förskjuter samma recension dig från 300/350 = 0,857 till 301/351 = 0,858 – knappt detekterbart. Volym i det tidiga fönstret har tio gånger så stor matematisk inverkan som volym i stor skala.
Så beräknar du det viktade genomsnittliga stjärnbetyget för ditt eget företag
Du kan köra formeln själv i ett kalkylblad. Ta ditt nuvarande antal recensioner som v. Uppskatta din kategoris m genom att titta på vilka recensionsantal de tre främsta företagen i din Google Maps-kategori har – den 25:e percentilen av den fördelningen är en rimlig uppskattning av m. Ditt nuvarande visade betyg är troligen redan WR-resultatet; ditt naiva genomsnitt är den enkla summan dividerat med antalet i ditt backend-system.
Beräkningen du bryr dig om är den marginella effekten av de nästa N recensionerna. Modellera det: öka v med 10, beräkna om WR, observera skillnaden. Gör detta över ett intervall av v-värden för att bygga en känslighetskurva. Den brantaste delen av den kurvan – där varje ytterligare recension ger den största WR-förbättringen – är där du bör koncentrera dina ansträngningar för att skaffa recensioner.
Varför nyhetsvärde innebär att recensionsfrekvens är viktigare än totalt antal
När du väl förstår nyhetsförfallet, förskjuts optimeringsmålet. Det handlar inte bara om total volym – det handlar om volym fördelad över tid. Ett företag med 400 recensioner insamlade under fem år och inga under de senaste 18 månaderna arbetar i praktiken med ett mindre effektivt urval än vad siffrorna antyder. De föråldrade recensionerna bidrar mindre till det löpande viktade genomsnittet.
Konsekvent generering av recensioner – även i blygsam takt – ackumuleras över tid på sätt som en plötslig anskaffning aldrig gör. Åtta nya recensioner per månad i tolv månader överträffar 96 recensioner under en enda månad enligt nästan alla relevanta mätvärden: Bayesianskt förtroende, godkännande från avvikelsedetektering, bana för nyhetsförfall och konsumenternas uppfattning om trovärdighet.
Vanliga frågor
// faq.frequently_asked_questions
Stjärnbetyg är inte vad de ser ut att vara på ytan. Siffran som Google visar är resultatet av en statistisk modell som är utformad för att motstå manipulation, ta hänsyn till osäkerhet och belöna konsekvent kvalitet över tid. Att förstå matematiken kräver ingen examen i statistik – det kräver att man accepterar att tre 5-stjärniga recensioner inte är värda lika mycket som 120 autentiska recensioner med ett genomsnitt på 4,6. Formeln gör detta explicit. Vad du gör med den insikten är strategin.
Ditt betyg är ett matematiskt problem. Vi kan hjälpa till att lösa det.
Den Bayesianska formeln belönar recensionsvolym som ackumuleras över tid. Varje recension du genererar idag flyttar din konfidensvikt i rätt riktning – och effekten förstärks.
Börja bygga recensionsvolym


