Hoe Google écht je sterrenbeoordeling berekent (het is géén gemiddelde)
De Bayesiaanse wiskunde achter gewogen reviews, de invloed van recente reviews en waarom je weergegeven beoordeling vrijwel zeker afwijkt van je rekenkundig gemiddelde — uitgelegd met echte formules en berekeningen.
Dit is iets wat de meeste ondernemers op de harde manier ontdekken: je kunt twintig vijfsterrenreviews op rij verzamelen en je weergegeven beoordeling nauwelijks zien veranderen. Of erger nog — je verbetert zes maanden lang je service, haalt eindelijk 50 reviews en realiseert je dat je 4.8 gemiddelde op de een of andere manier is uitgekomen op 4.3 op Google Maps. De wiskunde is niet kapot. Het werkt precies zoals het is ontworpen. Alleen is jou nooit verteld wat dat ontwerp was.
Google heeft zijn beoordelingsalgoritme nooit gepubliceerd. Maar dankzij de publiek gedocumenteerde Bayesiaanse formule van IMDB, de documentatie van Algolia, academisch onderzoek naar reviewsystemen en jarenlange reverse-engineering door experts, zijn de mechanismen goed begrepen. Dit artikel doorloopt de wiskunde — op de juiste manier, met echte cijfers.
Het probleem met simpele gemiddelden
// naive_average.failure_modes
Laten we beginnen met wat een simpel gemiddelde is en waarom het faalt. Het rekenkundig gemiddelde van een reeks beoordelingen is simpelweg de som gedeeld door het aantal. Drie reviews van 5, 4 en 5 geven (5+4+5)/3 = 4,67. Dat is wiskundig correct. Het is echter ook statistisch misleidend wanneer het doel is om duizenden bedrijven met elkaar te vergelijken.
De problemen stapelen zich snel op bij grotere schaal. Een restaurant dat vorige week opende met drie reviews van enthousiaste vrienden, scoort hoger dan een gevestigde concurrent met 200 reviews en een gemiddelde van 4.4 — ook al vertegenwoordigt de gevestigde zaak een veel betrouwbaarder signaal. Elk rankingsysteem dat dit toelaat, wordt binnen enkele maanden irrelevant door manipulatie.
Hoe de berekening van Google-sterrenbeoordelingen in de praktijk werkt
Zie een Bayesiaanse beoordeling als een op vertrouwen gewogen gemiddelde. Als je heel weinig reviews hebt, vertrouwt het systeem je steekproef niet genoeg om deze direct weer te geven. In plaats daarvan wordt je ruwe gemiddelde gemengd met een 'prior' — een standaardverwachting gebaseerd op alle vergelijkbare bedrijven. Hoe meer reviews je verzamelt, hoe meer het systeem je eigen data vertrouwt en hoe minder de 'prior' ertoe doet.
IMDB gebruikt precies deze aanpak voor hun Top 250-lijst en heeft de formule publiek gedocumenteerd: WR = (v/(v+m)) × R + (m/(v+m)) × C. De variabelen zijn elegant eenvoudig, maar het kost even tijd om de gevolgen voor het gedrag volledig te begrijpen. Dezelfde wiskundige structuur komt voor in de rankingdocumentatie van Algolia, academische literatuur over reviewsystemen en het reverse-engineeringwerk van SEO-specialisten die de lokale ranking van Google bestuderen.
De Bayesiaanse gemiddelde formule, uitgelegd
// bayesian_average.formula_derivation
De formule WR = (v/(v+m)) × R + (m/(v+m)) × C is een gewogen mix van twee grootheden: het eigen waargenomen gemiddelde van je bedrijf (R) en het gemiddelde van de hele categorie (C). De weging wordt bepaald door hoeveel reviews je hebt (v) in verhouding tot een minimale geloofwaardigheidsdrempel (m).
Merk op dat (v/(v+m)) + (m/(v+m)) altijd gelijk is aan 1,0. Deze twee gewichten tellen op tot 100% — je interpoleert altijd tussen je eigen data en de 'prior'. De enige vraag is hoeveel van elk. Wanneer v klein is ten opzichte van m, domineert de 'prior'. Wanneer v groot is ten opzichte van m, domineren je eigen reviews.
De drempel m is de parameter die de vertrouwenseisen van het platform vastlegt. IMDB stelt m in op ongeveer 25.000 stemmen voor hun Top 250-berekening. Een buurtcafé op Google concurreert niet in hetzelfde statistische universum als Avatar, dus m wordt veel lager ingesteld — experts schatten m voor lokale Google-vermeldingen over het algemeen tussen 5 en 50, variërend per categorie en geografische markt.
Het categoriegemiddelde C is de meest ondergewaardeerde variabele. Het is geen vaste wereldwijde constante. Google berekent C vrijwel zeker dynamisch — per categorie, per stad, misschien zelfs per zoekcontext. Een tandarts in Amsterdam wordt vergeleken met andere Amsterdamse tandartsen, niet met restaurants op het platteland van Groningen. Dit betekent dat je Bayesiaanse ondergrens categoriespecifiek is.
Waarom de gewogen sterrenbeoordelingsformule belangrijk is voor je SEO
De praktische implicatie is dat het verkrijgen van je eerste 50 reviews onevenredig veel meer uitmaakt dan het verkrijgen van review 51 tot en met 150. Elke review onder de geloofwaardigheidsdrempel m heeft een buitenproportionele impact omdat het de coëfficiënt (v/(v+m)) aanzienlijk verschuift. Van v=5 naar v=10 gaan verdubbelt je vertrouwensweging. Van v=150 naar v=155 gaan is nauwelijks meetbaar.
Dit verklaart een contra-intuïtief patroon dat experts herhaaldelijk waarnemen: een bedrijf gaat van 3 naar 30 reviews en ziet zijn weergegeven beoordeling dalen van 5.0 naar 4.6 — zelfs als de nieuwe reviews ook positief zijn. De wiskunde klopt. De vroege 5.0 was Bayesiaanse fictie. De 4.6 is de eerste eerlijke schatting.
Stapsgewijze berekening en uitleg
// step_by_step.numerical_walkthrough
Twee uitgewerkte voorbeelden, met een realistisch categoriegemiddelde van C = 4,1 en een minimumdrempel van m = 50. Dit zijn plausibele schattingen voor een redelijk competitieve lokale dienstverleningscategorie (loodgieters, tandartsen, autogarages). Vul zelf andere waarden in om je eigen categorie te modelleren.
Bedrijf A heeft een perfecte ruwe score — elke reviewer gaf 5 sterren. Maar met slechts 3 reviews vertrouwt de formule zijn eigen data voor slechts 5,7%. De overige 94,3% van de weergegeven score komt van het categoriegemiddelde van 4,1. Resultaat: 4,15. Niet de 5.0 die het lijkt te verdienen.
Bedrijf B heeft een lager ruw gemiddelde van 4.6 — sommige reviewers gaven 3 of 4 sterren. Maar 120 reviews betekent dat de formule zijn eigen data voor 70,6% vertrouwt. De weergegeven score van 4,45 ligt veel dichter bij de realiteit en zal door het algoritme van Google hoger worden gerangschikt dan de nominale 5.0 van Bedrijf A. Volume levert geloofwaardigheid op. Geloofwaardigheid levert zichtbaarheid op.
Simulatie: Simpel gemiddelde vs. Bayesiaans gewogen beoordeling
// simulation.naive_vs_bayesian_comparison
De onderstaande tabel past de formule toe op zes scenario's met C = 4,1 en m = 50. De Delta-kolom toont hoeveel de Bayesiaanse score verschilt van het simpele gemiddelde. Merk op hoe de kloof kleiner wordt naarmate het aantal reviews groeit — dat is de 'prior' die aan invloed verliest als het bewijs zich opstapelt.
De interessantste rij is de laatste: een bedrijf met slechts 5 reviews maar een verschrikkelijk ruw gemiddelde van 2.0, toont in werkelijkheid 3,85 — bijna twee volle sterren omhooggetrokken door het categoriegemiddelde. Dit is met opzet. Het systeem weigert een bedrijf de vergetelheid in te sturen op basis van vijf datapunten. Het neigt naar het gemiddelde totdat de steekproef groot genoeg is om vertrouwen te rechtvaardigen.
Dit dempende effect op negatieve uitschieters is de reden waarom 'review bombing' — een gecoördineerde campagne van valse negatieve reviews — minder catastrofaal is dan het op het eerste gezicht lijkt. Het algoritme verzet zich tegen extreme uitkomsten wanneer het aantal reviews onvoldoende is om ze te rechtvaardigen. Dat gezegd hebbende, de anomaliedetectiesystemen van Google signaleren ook snelle reviewcampagnes in beide richtingen.
Google's extra lagen bovenop de basisformule
// google_specific.beyond_bayesian_math
De Bayesiaanse formule verklaart de basislijn, maar het daadwerkelijke systeem van Google voegt minstens drie extra lagen toe: weging op recentheid, weging op basis van vertrouwen in de reviewer en demping van pieken in reviewsnelheid. Geen van deze is officieel bevestigd. Ze zijn allemaal afgeleid uit gedragsbewijs en patentanalyse.
Zie de Bayesiaanse basisformule als het fundament. Alles wat daarbovenop is gebouwd, maakt het signaal beter bestand tegen manipulatie en nauwkeuriger in de tijd. Het doel is altijd hetzelfde: ervoor zorgen dat de weergegeven beoordeling weerspiegelt wat een klant daadwerkelijk zou ervaren als hij vandaag binnenliep.
Weging op recentheid — waarom je laatste 90 dagen domineren
Google past tijdsverval toe op reviews, waardoor recente feedback meer gewicht krijgt dan oudere bijdragen. Het mechanisme is consistent met een exponentiële vervalfunctie, waarbij de invloed van een review na verloop van tijd afneemt in plaats van op een harde einddatum naar nul te dalen.[1]
Analyse door de community van het gedrag van Google-ratings toont consequent aan dat reviews die meer dan 12–18 maanden geleden zijn geplaatst, ongeveer 30–50% minder invloed hebben dan een review van vorige week. Een 5-sterrenreview van drie jaar geleden telt nog steeds mee — alleen minder zwaar. Dit betekent dat een bedrijf dat in 2022 80 reviews verzamelde en sindsdien geen nieuwe heeft gekregen, teert op een verouderd signaal.
Vertrouwen in de reviewer — waarom de review van een Level 7 Local Guide harder aankomt
Google's vertrouwenshiërarchie voor reviewers wordt afgeleid uit zijn patentportfolio en waarneembaar gedrag. Patent US8818995B1 beschrijft een zoekrangschikkingssysteem dat bijdragen weegt op basis van het vertrouwensniveau van de entiteit die ze levert. Toegepast op reviews: een Level 7 Local Guide met honderden gedetailleerde reviews in meerdere bedrijfscategorieën wordt geregistreerd als een knooppunt met hoog vertrouwen.[2]
Het praktische effect: een 5-sterrenreview van een Local Guide Level 7 wordt waarschijnlijk zwaarder gewogen dan een 5-sterrenreview van een account dat gisteren is aangemaakt zonder reviewgeschiedenis. Dit gaat niet over de sterwaarde — beide tellen als 5 in de teller. Maar het gewicht dat op elk wordt toegepast vóór het middelen, verschilt. Google heeft dit verschil nooit publiekelijk gekwantificeerd.
Anomaliedemping — wat er gebeurt als er 40 reviews in één week binnenkomen
Pieken in snelheid activeren een aparte detectielaag. Als een bedrijf 40 reviews ontvangt in 72 uur terwijl de basislijn 2–3 per maand is, markeren de systemen van Google dit patroon. Het resultaat is geen automatische verwijdering — het is quarantaine. Nieuwe reviews worden niet meer weergegeven in het getoonde aantal en de beoordeling terwijl het systeem onderzoek doet.[3]
Dit mechanisme verklaart waarom bedrijven die massaal reviewcampagnes kopen vaak geen zichtbare verbetering zien — of tijdelijk hun profielbeoordeling zien dalen omdat oudere, authentieke reviews zichtbaar blijven terwijl de nieuwe lading in een 'review-limbo' zit. Het algoritme is specifiek afgesteld om plotselinge volumeveranderingen die afwijken van de gevestigde basislijnen te wantrouwen.
Voor en na: wat reviewvolume daadwerkelijk verandert
// practical_impact.before_and_after_scenarios
Twee realistische scenario's om te illustreren hoe de formule zich in de loop van de tijd gedraagt. Geen van beide is fictief — deze patronen komen herhaaldelijk voor in casestudy's van reputatiemanagement-experts.
Het tandartsscenario demonstreert het kerninzicht van de Bayesiaanse beoordeling: een lager ruw gemiddelde met hoog vertrouwen wint het van een hoger ruw gemiddelde met laag vertrouwen. De weergegeven score daalde (van een nominale 4.9 naar een weergegeven 4,58), maar de rankingpositie verbeterde omdat de vertrouwensweging nu reëel is.
Het scenario van de restaurantpiek illustreert waarom een organisch ritme ertoe doet. De systemen van Google zijn gekalibreerd om onnatuurlijke snelheid te detecteren. Veertig reviews in een week, gevolgd door twee maanden stilte, ziet er niet alleen verdacht uit — het gedempte effectieve aantal betekent dat je geld hebt uitgegeven en bijna niets hebt gewonnen. De wiskunde straft dit dubbel: de anomaliedetectie vermindert het zichtbare aantal, en door het tijdsverval beginnen de reviews uit de piekperiode onmiddellijk te vervagen.
Alternatieve benaderingen: Wilson Score en Dirichlet-modellen
// related_approaches.wilson_score_dirichlet
Bayesiaans middelen is niet de enige statistisch verantwoorde aanpak. Evan Miller's essay uit 2009 'How Not to Sort by Average Rating' populariseerde een andere methode: de ondergrens van het Wilson score-betrouwbaarheidsinterval. Reddit heeft het overgenomen voor het rangschikken van reacties. Yelp gebruikt er een variant van.
De Wilson score stelt een andere vraag dan Bayesiaans middelen. In plaats van 'meng mijn data met een 'prior',' vraagt het: 'gegeven de beoordelingen die ik heb, wat is de meest waarschijnlijke ondergrens van de ware kwaliteit bij 95% betrouwbaarheid?' Dit levert een conservatieve schatting op die onzekerheid nog agressiever afstraft dan Bayesiaans middelen bij zeer lage aantallen reviews.
Een derde benadering — het Dirichlet-Multinomial-model — behandelt alle vijf sterwaarden als afzonderlijke categorieën in plaats van als één continue score. District Data Labs heeft deze aanpak gedocumenteerd voor systemen met meerdere sterren. Het is wiskundig correcter dan de IMDB-formule (die sterren impliciet als een lineaire schaal behandelt) maar rekenkundig zwaarder. Voor praktische doeleinden wordt het gedragsverschil tussen Bayesiaans middelen en een Dirichlet-model verwaarloosbaar boven ongeveer 30 reviews.
Wat dit betekent voor je bedrijfsstrategie
// strategic_implications.for_business_owners
Het begrijpen van de wiskunde zet abstract advies ('krijg meer reviews') om in een gekwantificeerde strategie. Elk bedrijf bevindt zich ergens op het v/(v+m)-spectrum. Weten waar je staat, vertelt je hoeveel je volgende review daadwerkelijk het verschil maakt.
Als v = 8 en m = 50, verschuift één nieuwe 5-sterrenreview je vertrouwensweging van 8/58 = 0,138 naar 9/59 = 0,153. Die verschuiving van 1,5 procentpunt is betekenisvol. Als v = 300 en m = 50, verschuift dezelfde review je van 300/350 = 0,857 naar 301/351 = 0,858 — nauwelijks detecteerbaar. Volume in de beginfase heeft tien keer zoveel wiskundige impact als volume op grote schaal.
Hoe je de gewogen gemiddelde sterrenbeoordeling voor je eigen bedrijf berekent
Je kunt de formule zelf uitvoeren in een spreadsheet. Neem je huidige aantal reviews als v. Schat de m van je categorie door te kijken welke reviewaantallen de top-3 bedrijven in je Google Maps-categorie hebben — het 25e percentiel van die verdeling is een redelijke schatting voor m. Je huidige weergegeven beoordeling is waarschijnlijk al de WR-uitkomst; je simpele gemiddelde is de som gedeeld door het aantal in je backend.
De berekening waar het om gaat, is de marginale impact van de volgende N reviews. Modelleer het: verhoog v met 10, herbereken WR, observeer de delta. Doe dit voor een reeks v-waarden om een gevoeligheidscurve op te bouwen. Het steilste deel van die curve — waar elke extra review de grootste WR-verbetering oplevert — is waar je je inspanningen voor het werven van reviews op moet concentreren.
Waarom recentheid betekent dat review-snelheid belangrijker is dan het totale aantal
Zodra je het tijdsverval begrijpt, verschuift het optimalisatiedoel. Het gaat niet alleen om het totale volume — het gaat om volume verspreid in de tijd. Een bedrijf met 400 reviews verzameld over vijf jaar en niets in de laatste 18 maanden, werkt effectief met een kleinere steekproef dan de cijfers suggereren. De vervallen reviews dragen minder bij aan het lopende gewogen gemiddelde.
Consistente reviewgeneratie — zelfs in een bescheiden tempo — heeft een cumulatief effect in de tijd dat een eenmalige piek nooit zal hebben. Acht nieuwe reviews per maand gedurende twaalf maanden presteert beter dan 96 reviews in één maand op bijna elke relevante maatstaf: Bayesiaans vertrouwen, goedkeuring door anomaliedetectie, het traject van tijdsverval en de geloofwaardigheidsperceptie van de consument.
Veelgestelde vragen
// faq.frequently_asked_questions
Sterrenbeoordelingen zijn niet wat ze op het eerste gezicht lijken. Het getal dat Google weergeeft, is de uitkomst van een statistisch model dat is ontworpen om manipulatie te weerstaan, rekening te houden met onzekerheid en consistente kwaliteit over tijd te belonen. Het begrijpen van de wiskunde vereist geen diploma in statistiek — het vereist de acceptatie dat drie 5-sterrenreviews niet hetzelfde waard zijn als 120 authentieke reviews met een gemiddelde van 4.6. De formule maakt dat expliciet. Wat je met dat inzicht doet, is de strategie.
Je beoordeling is een wiskundig probleem. Wij kunnen helpen het op te lossen.
De Bayesiaanse formule beloont reviewvolume dat in de loop van de tijd is opgebouwd. Elke review die je vandaag genereert, verschuift je vertrouwensweging in de goede richting — en het effect stapelt zich op.
Begin met het opbouwen van reviewvolume


