diepgaand20 april 2026·blogPost.bayesianStarRatingMath.readTime min read

Hoe Google écht je sterrenbeoordeling berekent (het is géén gemiddelde)

De Bayesiaanse wiskunde achter gewogen reviews, de invloed van recente reviews en waarom je weergegeven beoordeling vrijwel zeker afwijkt van je rekenkundig gemiddelde — uitgelegd met echte formules en berekeningen.

Quick Answers

Gebruikt Google een simpel gemiddelde om sterrenbeoordelingen te berekenen?

Nee. Google past een Bayesiaans beïnvloede, gewogen formule toe die beoordelingen naar het categoriegemiddelde trekt bij een laag aantal reviews. Een bedrijf met 3 reviews van 5.0 zal een lagere effectieve beoordeling weergeven dan een bedrijf met 120 reviews van 4.6.

Wat is de Bayesiaanse gemiddelde formule voor beoordelingen?

WR = (v/(v+m)) × R + (m/(v+m)) × C — waarbij v je aantal reviews is, m een minimumdrempel, R je ruwe gemiddelde en C het categoriegemiddelde. Naarmate v groeit, gaat je eigen gemiddelde domineren.

Hoeveel Google-reviews heb je nodig voordat je beoordeling stabiliseert?

Ongeveer 50–100 reviews, afhankelijk van het gemiddelde reviewvolume in jouw categorie. Onder die drempel is de Bayesiaanse aantrekkingskracht naar het algemene gemiddelde sterk genoeg om zelfs een perfecte score merkbaar te onderdrukken.

Waarom zijn nieuwere reviews belangrijker voor mijn Google-beoordeling?

Google past weging op basis van recentheid toe — reviews die in de laatste 90 dagen zijn geplaatst, hebben aanzienlijk meer invloed dan reviews van 18+ maanden geleden. Dit staat los van de Bayesiaanse 'prior' en beloont bedrijven die een consistente stroom van nieuwe reviews genereren.

Dit is iets wat de meeste ondernemers op de harde manier ontdekken: je kunt twintig vijfsterrenreviews op rij verzamelen en je weergegeven beoordeling nauwelijks zien veranderen. Of erger nog — je verbetert zes maanden lang je service, haalt eindelijk 50 reviews en realiseert je dat je 4.8 gemiddelde op de een of andere manier is uitgekomen op 4.3 op Google Maps. De wiskunde is niet kapot. Het werkt precies zoals het is ontworpen. Alleen is jou nooit verteld wat dat ontwerp was.

Google heeft zijn beoordelingsalgoritme nooit gepubliceerd. Maar dankzij de publiek gedocumenteerde Bayesiaanse formule van IMDB, de documentatie van Algolia, academisch onderzoek naar reviewsystemen en jarenlange reverse-engineering door experts, zijn de mechanismen goed begrepen. Dit artikel doorloopt de wiskunde — op de juiste manier, met echte cijfers.

Het probleem met simpele gemiddelden

// naive_average.failure_modes

Laten we beginnen met wat een simpel gemiddelde is en waarom het faalt. Het rekenkundig gemiddelde van een reeks beoordelingen is simpelweg de som gedeeld door het aantal. Drie reviews van 5, 4 en 5 geven (5+4+5)/3 = 4,67. Dat is wiskundig correct. Het is echter ook statistisch misleidend wanneer het doel is om duizenden bedrijven met elkaar te vergelijken.

Simpel gemiddelde — Nadelen

✗1 review van 5.0 scoort hoger dan 500 reviews van 4.8 — steekproefgrootte wordt genegeerd

✗Nieuwe bedrijven met nep-reviews domineren de ranglijsten voor nieuwkomers

✗Beoordeling is te hoog bij laag volume, daalt als negatieve reviews zich opstapelen

✗Geen straf voor verdachte pieken in review-snelheid — per definitie manipuleerbaar

Bayesiaans gewogen — Oplossingen

✓Bedrijven met weinig reviews worden naar het categoriegemiddelde getrokken — uitschieters onderdrukt

✓Hoog reviewvolume wekt vertrouwen — score convergeert naar het echte kwaliteitssignaal

✓Weging op recentheid houdt de score actueel — reviews ouder dan 18 maanden vervagen

✓Weging op basis van vertrouwen in de reviewer verlaagt de invloed van verdachte of inactieve accounts

De problemen stapelen zich snel op bij grotere schaal. Een restaurant dat vorige week opende met drie reviews van enthousiaste vrienden, scoort hoger dan een gevestigde concurrent met 200 reviews en een gemiddelde van 4.4 — ook al vertegenwoordigt de gevestigde zaak een veel betrouwbaarder signaal. Elk rankingsysteem dat dit toelaat, wordt binnen enkele maanden irrelevant door manipulatie.

Hoe de berekening van Google-sterrenbeoordelingen in de praktijk werkt

Zie een Bayesiaanse beoordeling als een op vertrouwen gewogen gemiddelde. Als je heel weinig reviews hebt, vertrouwt het systeem je steekproef niet genoeg om deze direct weer te geven. In plaats daarvan wordt je ruwe gemiddelde gemengd met een 'prior' — een standaardverwachting gebaseerd op alle vergelijkbare bedrijven. Hoe meer reviews je verzamelt, hoe meer het systeem je eigen data vertrouwt en hoe minder de 'prior' ertoe doet.

IMDB gebruikt precies deze aanpak voor hun Top 250-lijst en heeft de formule publiek gedocumenteerd: WR = (v/(v+m)) × R + (m/(v+m)) × C. De variabelen zijn elegant eenvoudig, maar het kost even tijd om de gevolgen voor het gedrag volledig te begrijpen. Dezelfde wiskundige structuur komt voor in de rankingdocumentatie van Algolia, academische literatuur over reviewsystemen en het reverse-engineeringwerk van SEO-specialisten die de lokale ranking van Google bestuderen.

De Bayesiaanse gemiddelde formule, uitgelegd

// bayesian_average.formula_derivation

De formule WR = (v/(v+m)) × R + (m/(v+m)) × C is een gewogen mix van twee grootheden: het eigen waargenomen gemiddelde van je bedrijf (R) en het gemiddelde van de hele categorie (C). De weging wordt bepaald door hoeveel reviews je hebt (v) in verhouding tot een minimale geloofwaardigheidsdrempel (m).

Merk op dat (v/(v+m)) + (m/(v+m)) altijd gelijk is aan 1,0. Deze twee gewichten tellen op tot 100% — je interpoleert altijd tussen je eigen data en de 'prior'. De enige vraag is hoeveel van elk. Wanneer v klein is ten opzichte van m, domineert de 'prior'. Wanneer v groot is ten opzichte van m, domineren je eigen reviews.

bayesian_weighted_rating.formula

WR = (v / (v + m)) × R + (m / (v + m)) × C

WRWeighted Rating — the score that actually gets displayed

vVote count — number of reviews this business has received

mMinimum threshold — the "credibility floor" (platform-specific, typically 5–50)

RRaw average — naive arithmetic mean of this business's ratings

CCategory mean — average rating across all similar businesses in the dataset

This formula is used publicly by IMDB for their Top 250 ranking and independently reconstructed for Google's system by researchers analyzing rating behavior at scale. Google has not published its exact algorithm.

De drempel m is de parameter die de vertrouwenseisen van het platform vastlegt. IMDB stelt m in op ongeveer 25.000 stemmen voor hun Top 250-berekening. Een buurtcafé op Google concurreert niet in hetzelfde statistische universum als Avatar, dus m wordt veel lager ingesteld — experts schatten m voor lokale Google-vermeldingen over het algemeen tussen 5 en 50, variërend per categorie en geografische markt.

Het categoriegemiddelde C is de meest ondergewaardeerde variabele. Het is geen vaste wereldwijde constante. Google berekent C vrijwel zeker dynamisch — per categorie, per stad, misschien zelfs per zoekcontext. Een tandarts in Amsterdam wordt vergeleken met andere Amsterdamse tandartsen, niet met restaurants op het platteland van Groningen. Dit betekent dat je Bayesiaanse ondergrens categoriespecifiek is.

Waarom de gewogen sterrenbeoordelingsformule belangrijk is voor je SEO

De praktische implicatie is dat het verkrijgen van je eerste 50 reviews onevenredig veel meer uitmaakt dan het verkrijgen van review 51 tot en met 150. Elke review onder de geloofwaardigheidsdrempel m heeft een buitenproportionele impact omdat het de coëfficiënt (v/(v+m)) aanzienlijk verschuift. Van v=5 naar v=10 gaan verdubbelt je vertrouwensweging. Van v=150 naar v=155 gaan is nauwelijks meetbaar.

Dit verklaart een contra-intuïtief patroon dat experts herhaaldelijk waarnemen: een bedrijf gaat van 3 naar 30 reviews en ziet zijn weergegeven beoordeling dalen van 5.0 naar 4.6 — zelfs als de nieuwe reviews ook positief zijn. De wiskunde klopt. De vroege 5.0 was Bayesiaanse fictie. De 4.6 is de eerste eerlijke schatting.

Stapsgewijze berekening en uitleg

// step_by_step.numerical_walkthrough

Twee uitgewerkte voorbeelden, met een realistisch categoriegemiddelde van C = 4,1 en een minimumdrempel van m = 50. Dit zijn plausibele schattingen voor een redelijk competitieve lokale dienstverleningscategorie (loodgieters, tandartsen, autogarages). Vul zelf andere waarden in om je eigen categorie te modelleren.

example_A: new_business (3 reviews, avg 5.0)

1

Inputs: review count (v), minimum threshold (m), raw average (R), category mean (C)

v=3, m=50, R=5.0, C=4.1

defined

2

Calculate confidence weight — how much we trust the business's own data

v / (v + m) = 3 / (3 + 50) = 3 / 53Only 5.7% of the score comes from the business's own reviews

0.0566

3

Calculate prior weight — how much we pull toward category mean

m / (v + m) = 50 / 53Category mean dominates at this review count

0.9434

4

Apply own-review term

0.0566 × 5.0

0.283

5

Apply category prior term

0.9434 × 4.1

3.868

6

Sum both terms to get Bayesian weighted rating

0.283 + 3.868

★ 4.15

Weighted Rating4.15

Bedrijf A heeft een perfecte ruwe score — elke reviewer gaf 5 sterren. Maar met slechts 3 reviews vertrouwt de formule zijn eigen data voor slechts 5,7%. De overige 94,3% van de weergegeven score komt van het categoriegemiddelde van 4,1. Resultaat: 4,15. Niet de 5.0 die het lijkt te verdienen.

example_B: established_business (120 reviews, avg 4.6)

1

Inputs: same threshold and category mean

v=120, m=50, R=4.6, C=4.1

defined

2

Confidence weight — business has many reviews

v / (v + m) = 120 / 17070.6% of score comes from own reviews

0.706

3

Prior weight — category mean has less influence

m / (v + m) = 50 / 170

0.294

4

Apply own-review term

0.706 × 4.6

3.248

5

Apply category prior term

0.294 × 4.1

1.205

6

Sum to get Bayesian weighted rating

3.248 + 1.205

★ 4.45

Weighted Rating4.45

Bedrijf B heeft een lager ruw gemiddelde van 4.6 — sommige reviewers gaven 3 of 4 sterren. Maar 120 reviews betekent dat de formule zijn eigen data voor 70,6% vertrouwt. De weergegeven score van 4,45 ligt veel dichter bij de realiteit en zal door het algoritme van Google hoger worden gerangschikt dan de nominale 5.0 van Bedrijf A. Volume levert geloofwaardigheid op. Geloofwaardigheid levert zichtbaarheid op.

Simulatie: Simpel gemiddelde vs. Bayesiaans gewogen beoordeling

// simulation.naive_vs_bayesian_comparison

De onderstaande tabel past de formule toe op zes scenario's met C = 4,1 en m = 50. De Delta-kolom toont hoeveel de Bayesiaanse score verschilt van het simpele gemiddelde. Merk op hoe de kloof kleiner wordt naarmate het aantal reviews groeit — dat is de 'prior' die aan invloed verliest als het bewijs zich opstapelt.

Simulatie van Bayesiaans gewogen beoordeling

m = 50, C = 4,1 (geschat categoriegemiddelde). Alle berekeningen gebruiken WR = (v/(v+m))×R + (m/(v+m))×C

Scenario

Reviews

Naive Avg

Bayes Avg

Delta

Verdict

Brand new (3 reviews, 5.0 avg)

3

5.00

4.15

-0.85

Penalized

Growing (15 reviews, 4.9 avg)

15

4.90

4.39

-0.51

Pulled down

Moderate (50 reviews, 4.6 avg)

50

4.60

4.35

-0.25

Slight pull

Established (120 reviews, 4.6 avg)

120

4.60

4.45

-0.15

Near-true

Volume leader (400 reviews, 4.4 avg)

400

4.40

4.37

-0.03

Converged

Outlier (5 reviews, 2.0 avg)

5

2.00

3.85

+1.85

Dampened

De interessantste rij is de laatste: een bedrijf met slechts 5 reviews maar een verschrikkelijk ruw gemiddelde van 2.0, toont in werkelijkheid 3,85 — bijna twee volle sterren omhooggetrokken door het categoriegemiddelde. Dit is met opzet. Het systeem weigert een bedrijf de vergetelheid in te sturen op basis van vijf datapunten. Het neigt naar het gemiddelde totdat de steekproef groot genoeg is om vertrouwen te rechtvaardigen.

Dit dempende effect op negatieve uitschieters is de reden waarom 'review bombing' — een gecoördineerde campagne van valse negatieve reviews — minder catastrofaal is dan het op het eerste gezicht lijkt. Het algoritme verzet zich tegen extreme uitkomsten wanneer het aantal reviews onvoldoende is om ze te rechtvaardigen. Dat gezegd hebbende, de anomaliedetectiesystemen van Google signaleren ook snelle reviewcampagnes in beide richtingen.

Google's extra lagen bovenop de basisformule

// google_specific.beyond_bayesian_math

De Bayesiaanse formule verklaart de basislijn, maar het daadwerkelijke systeem van Google voegt minstens drie extra lagen toe: weging op recentheid, weging op basis van vertrouwen in de reviewer en demping van pieken in reviewsnelheid. Geen van deze is officieel bevestigd. Ze zijn allemaal afgeleid uit gedragsbewijs en patentanalyse.

Zie de Bayesiaanse basisformule als het fundament. Alles wat daarbovenop is gebouwd, maakt het signaal beter bestand tegen manipulatie en nauwkeuriger in de tijd. Het doel is altijd hetzelfde: ervoor zorgen dat de weergegeven beoordeling weerspiegelt wat een klant daadwerkelijk zou ervaren als hij vandaag binnenliep.

Weging op recentheid — waarom je laatste 90 dagen domineren

Google past tijdsverval toe op reviews, waardoor recente feedback meer gewicht krijgt dan oudere bijdragen. Het mechanisme is consistent met een exponentiële vervalfunctie, waarbij de invloed van een review na verloop van tijd afneemt in plaats van op een harde einddatum naar nul te dalen.^[1]

Analyse door de community van het gedrag van Google-ratings toont consequent aan dat reviews die meer dan 12–18 maanden geleden zijn geplaatst, ongeveer 30–50% minder invloed hebben dan een review van vorige week. Een 5-sterrenreview van drie jaar geleden telt nog steeds mee — alleen minder zwaar. Dit betekent dat een bedrijf dat in 2022 80 reviews verzamelde en sindsdien geen nieuwe heeft gekregen, teert op een verouderd signaal.

recency_decay.conceptual_model

w(t) = exp(-λ × Δt)

where:
  Δt = days since review was posted
  λ  = decay constant (estimated ~0.003–0.008 for Google)
  w(t) = weight applied to that review in the running average

exp()Exponential function — creates smooth decay rather than hard cutoff

λDecay rate — higher values = faster fade for older reviews

ΔtTime delta in days — how old the review is

w(t)Output weight — multiplied against the star value before averaging

Google has not published λ. Community analysis of visible rating changes after review removals suggests reviews lose roughly 30–50% of their influence after 12–18 months.

Vertrouwen in de reviewer — waarom de review van een Level 7 Local Guide harder aankomt

Google's vertrouwenshiërarchie voor reviewers wordt afgeleid uit zijn patentportfolio en waarneembaar gedrag. Patent US8818995B1 beschrijft een zoekrangschikkingssysteem dat bijdragen weegt op basis van het vertrouwensniveau van de entiteit die ze levert. Toegepast op reviews: een Level 7 Local Guide met honderden gedetailleerde reviews in meerdere bedrijfscategorieën wordt geregistreerd als een knooppunt met hoog vertrouwen.^[2]

Het praktische effect: een 5-sterrenreview van een Local Guide Level 7 wordt waarschijnlijk zwaarder gewogen dan een 5-sterrenreview van een account dat gisteren is aangemaakt zonder reviewgeschiedenis. Dit gaat niet over de sterwaarde — beide tellen als 5 in de teller. Maar het gewicht dat op elk wordt toegepast vóór het middelen, verschilt. Google heeft dit verschil nooit publiekelijk gekwantificeerd.

Anomaliedemping — wat er gebeurt als er 40 reviews in één week binnenkomen

Pieken in snelheid activeren een aparte detectielaag. Als een bedrijf 40 reviews ontvangt in 72 uur terwijl de basislijn 2–3 per maand is, markeren de systemen van Google dit patroon. Het resultaat is geen automatische verwijdering — het is quarantaine. Nieuwe reviews worden niet meer weergegeven in het getoonde aantal en de beoordeling terwijl het systeem onderzoek doet.^[3]

Dit mechanisme verklaart waarom bedrijven die massaal reviewcampagnes kopen vaak geen zichtbare verbetering zien — of tijdelijk hun profielbeoordeling zien dalen omdat oudere, authentieke reviews zichtbaar blijven terwijl de nieuwe lading in een 'review-limbo' zit. Het algoritme is specifiek afgesteld om plotselinge volumeveranderingen die afwijken van de gevestigde basislijnen te wantrouwen.

Voor en na: wat reviewvolume daadwerkelijk verandert

// practical_impact.before_and_after_scenarios

Twee realistische scenario's om te illustreren hoe de formule zich in de loop van de tijd gedraagt. Geen van beide is fictief — deze patronen komen herhaaldelijk voor in casestudy's van reputatiemanagement-experts.

scenario: dentist_practice — 8 reviews → 55 reviews over 14 months

Before

Naive avg: 4.9 ★

Reviews: 8 reviews

Bayesian score

4.21

After

Naive avg: 4.7 ★

Reviews: 55 reviews

Bayesian score

4.58

INSIGHTContra-intuïtief resultaat: de beoordeling daalde van een simpel gemiddelde van 4.9 naar een weergegeven 4,58, maar de Bayesiaanse score verbeterde met +0,37 punten. Het weergegeven getal is nu eerlijk. Voorheen was 4.9 een statistische fictie, ondersteund door 8 datapunten. Nu is 4,58 een betrouwbaar signaal dat Google vertrouwt — en dienovereenkomstig rangschikt.

Het tandartsscenario demonstreert het kerninzicht van de Bayesiaanse beoordeling: een lager ruw gemiddelde met hoog vertrouwen wint het van een hoger ruw gemiddelde met laag vertrouwen. De weergegeven score daalde (van een nominale 4.9 naar een weergegeven 4,58), maar de rankingpositie verbeterde omdat de vertrouwensweging nu reëel is.

scenario: restaurant — 200 reviews → 200 reviews (60-day spike then silence)

Natural cadence

Naive avg: 4.4 ★

Reviews: 200 reviews

Bayesian score

4.36

Post-spike (filtered)

Naive avg: 4.4 ★

Reviews: ~160 visible

Bayesian score

4.29

INSIGHTAnomaliedetectie vermindert het effectieve zichtbare aantal reviews van 200 naar ~160. In combinatie met tijdsverval (de reviews uit de piekperiode verouderen nu), daalt de Bayesiaanse score ondanks dat het ruwe gemiddelde gelijk blijft. Een natuurlijk ritme — 10 reviews per week gedurende 20 weken — levert materieel betere resultaten op dan 200 in één keer.

Het scenario van de restaurantpiek illustreert waarom een organisch ritme ertoe doet. De systemen van Google zijn gekalibreerd om onnatuurlijke snelheid te detecteren. Veertig reviews in een week, gevolgd door twee maanden stilte, ziet er niet alleen verdacht uit — het gedempte effectieve aantal betekent dat je geld hebt uitgegeven en bijna niets hebt gewonnen. De wiskunde straft dit dubbel: de anomaliedetectie vermindert het zichtbare aantal, en door het tijdsverval beginnen de reviews uit de piekperiode onmiddellijk te vervagen.

Alternatieve benaderingen: Wilson Score en Dirichlet-modellen

// related_approaches.wilson_score_dirichlet

Bayesiaans middelen is niet de enige statistisch verantwoorde aanpak. Evan Miller's essay uit 2009 'How Not to Sort by Average Rating' populariseerde een andere methode: de ondergrens van het Wilson score-betrouwbaarheidsinterval. Reddit heeft het overgenomen voor het rangschikken van reacties. Yelp gebruikt er een variant van.

wilson_score_lower_bound.reddit_yelp_approach

score = ( p̂ + z²/2n - z√(p̂(1-p̂)/n + z²/4n²) ) / ( 1 + z²/n )

where:
  p̂  = observed positive proportion (e.g. 4+5 star / total)
  n   = total number of ratings
  z   = 1.96  (for 95% confidence interval)
  score = lower-bound of the true positive rate

p̂Observed proportion — fraction of reviews that are positive

nSample size — total number of ratings received

zZ-score — 1.96 for 95% CI, 2.326 for 99% CI

scoreThe conservative estimate: lower bound of what the "true" quality likely is

Popularized by Evan Miller (2009). Reddit used this for comment ranking. The formula asks: given this sample, what's the worst the true rating is likely to be at 95% confidence? This punishes low-review-count outliers more aggressively than Bayesian averaging.

De Wilson score stelt een andere vraag dan Bayesiaans middelen. In plaats van 'meng mijn data met een 'prior',' vraagt het: 'gegeven de beoordelingen die ik heb, wat is de meest waarschijnlijke ondergrens van de ware kwaliteit bij 95% betrouwbaarheid?' Dit levert een conservatieve schatting op die onzekerheid nog agressiever afstraft dan Bayesiaans middelen bij zeer lage aantallen reviews.

Een derde benadering — het Dirichlet-Multinomial-model — behandelt alle vijf sterwaarden als afzonderlijke categorieën in plaats van als één continue score. District Data Labs heeft deze aanpak gedocumenteerd voor systemen met meerdere sterren. Het is wiskundig correcter dan de IMDB-formule (die sterren impliciet als een lineaire schaal behandelt) maar rekenkundig zwaarder. Voor praktische doeleinden wordt het gedragsverschil tussen Bayesiaans middelen en een Dirichlet-model verwaarloosbaar boven ongeveer 30 reviews.

Wat dit betekent voor je bedrijfsstrategie

// strategic_implications.for_business_owners

Het begrijpen van de wiskunde zet abstract advies ('krijg meer reviews') om in een gekwantificeerde strategie. Elk bedrijf bevindt zich ergens op het v/(v+m)-spectrum. Weten waar je staat, vertelt je hoeveel je volgende review daadwerkelijk het verschil maakt.

Als v = 8 en m = 50, verschuift één nieuwe 5-sterrenreview je vertrouwensweging van 8/58 = 0,138 naar 9/59 = 0,153. Die verschuiving van 1,5 procentpunt is betekenisvol. Als v = 300 en m = 50, verschuift dezelfde review je van 300/350 = 0,857 naar 301/351 = 0,858 — nauwelijks detecteerbaar. Volume in de beginfase heeft tien keer zoveel wiskundige impact als volume op grote schaal.

Hoe je de gewogen gemiddelde sterrenbeoordeling voor je eigen bedrijf berekent

Je kunt de formule zelf uitvoeren in een spreadsheet. Neem je huidige aantal reviews als v. Schat de m van je categorie door te kijken welke reviewaantallen de top-3 bedrijven in je Google Maps-categorie hebben — het 25e percentiel van die verdeling is een redelijke schatting voor m. Je huidige weergegeven beoordeling is waarschijnlijk al de WR-uitkomst; je simpele gemiddelde is de som gedeeld door het aantal in je backend.

De berekening waar het om gaat, is de marginale impact van de volgende N reviews. Modelleer het: verhoog v met 10, herbereken WR, observeer de delta. Doe dit voor een reeks v-waarden om een gevoeligheidscurve op te bouwen. Het steilste deel van die curve — waar elke extra review de grootste WR-verbetering oplevert — is waar je je inspanningen voor het werven van reviews op moet concentreren.

Waarom recentheid betekent dat review-snelheid belangrijker is dan het totale aantal

Zodra je het tijdsverval begrijpt, verschuift het optimalisatiedoel. Het gaat niet alleen om het totale volume — het gaat om volume verspreid in de tijd. Een bedrijf met 400 reviews verzameld over vijf jaar en niets in de laatste 18 maanden, werkt effectief met een kleinere steekproef dan de cijfers suggereren. De vervallen reviews dragen minder bij aan het lopende gewogen gemiddelde.

Consistente reviewgeneratie — zelfs in een bescheiden tempo — heeft een cumulatief effect in de tijd dat een eenmalige piek nooit zal hebben. Acht nieuwe reviews per maand gedurende twaalf maanden presteert beter dan 96 reviews in één maand op bijna elke relevante maatstaf: Bayesiaans vertrouwen, goedkeuring door anomaliedetectie, het traject van tijdsverval en de geloofwaardigheidsperceptie van de consument.

// references

[1]Google has not published a recency decay formula. Evidence of recency weighting comes from observed rating changes after review deletions and from analysis of businesses that receive reviews in concentrated bursts vs. steady streams. SEO practitioners consistently report that fresh reviews carry disproportionate weight in displayed ratings.

[2]Google's trust hierarchy for reviewers is inferred from patent US8818995B1 "Search result ranking based on trust" and from behavioral analysis. Local Guide Level 7+ accounts are classified as "trusted nodes" in the review graph.

[3]The IMDB weighted rating formula WR = (v/(v+m))×R + (m/(v+m))×C was publicly documented on the IMDB website and is a widely-cited example of Bayesian averaging applied to consumer ratings. Algolia published a variant with explicit variable definitions in their custom ranking documentation.

Veelgestelde vragen

// faq.frequently_asked_questions

01Hoe worden Google-sterrenbeoordelingen berekend?

Google gebruikt een Bayesiaans beïnvloede gewogen formule in plaats van een simpel rekenkundig gemiddelde. Reviews van zeer betrouwbare bijdragers (Local Guides, accounts met geverifieerde geschiedenis) wegen zwaarder. Recente reviews krijgen meer gewicht door tijdsverval. De formule verankert bedrijven met weinig reviews aan hun categoriegemiddelde, en trekt beoordelingen naar een 'prior' totdat er voldoende bewijs is verzameld.

02Heeft de ene review meer invloed op je Google-gemiddelde dan de andere?

Ja, op twee manieren. Ten eerste, bij lage reviewaantallen verandert elke nieuwe review de vertrouwenscoëfficiënt aanzienlijk — je eerste 50 reviews zijn per stuk belangrijker dan review 200–250. Ten tweede betekent de weging op basis van vertrouwen in de reviewer dat een review van een Level 7 Local Guide met 1.000+ reviews waarschijnlijk zwaarder weegt in de formule dan een review van een gloednieuw account.

03Hoeveel reviews zijn er nodig voordat je Google-beoordeling stabiliseert?

Stabilisatie in de Bayesiaanse zin treedt op wanneer v >> m — grofweg wanneer je aantal reviews 3–5 keer de minimumdrempel is. Voor de meeste lokale bedrijfscategorieën is dat ongeveer 50–150 reviews. Voorbij dat punt is de Bayesiaanse aantrekkingskracht naar het categoriegemiddelde zwak genoeg dat je weergegeven score nauw aansluit bij je werkelijke gemiddelde.

04Wat is een gewogen sterrenbeoordeling en hoe werkt het?

Een gewogen sterrenbeoordeling past de bijdrage van elke review aan de totaalscore aan op basis van factoren buiten de sterwaarde zelf: hoeveel totale reviews er zijn (vertrouwensweging), hoe recent de review is (tijdsverval), en wie hem heeft geschreven (vertrouwen in de reviewer). Het resultaat is een score die beter bestand is tegen manipulatie en statistisch betekenisvoller is dan een simpel gemiddelde.

05Waarom is mijn Google-beoordeling anders dan mijn Yelp- of TripAdvisor-beoordeling?

Elk platform gebruikt een ander algoritme met verschillende parameterwaarden voor de minimumdrempel, verschillende vertrouwenshiërarchieën voor reviewers en verschillende vervalsnelheden voor recentheid. Onderzoek van FTC-economen wees uit dat Google-beoordelingen gemiddeld ongeveer 1,25 sterren hoger zijn dan vergelijkbare BBB-beoordelingen. Het algoritme van Yelp is aanzienlijk strenger — het filtert meer reviews via zijn 'aanbevolen' systeem, wat doorgaans leidt tot lagere maar conservatievere gemiddelde scores.

06Hoe berekent Google de sterrenbeoordeling voor nieuwe bedrijven met weinig reviews?

Nieuwe bedrijven met minder reviews dan de minimumdrempel (m) hebben scores die sterk verankerd zijn aan het categoriegemiddelde. Een nieuw restaurant met 3 reviews en een gemiddelde van 5.0 kan slechts 4.1–4.3 weergeven, omdat het Bayesiaanse gewicht van zijn eigen data slechts 5–10% is. Dit is wiskundig correct — 3 datapunten kunnen geen betrouwbare schatting van de ware kwaliteit geven.

07Beïnvloeden de lengte of inhoud van een review hoe Google deze weegt?

Kwalitatief gezien wel — de systemen van Google analyseren de reviewtekst op sentiment, trefwoordsignalen en kwaliteitsindicatoren. Een gedetailleerde review van 200 woorden die specifieke service-ervaringen noemt, scoort waarschijnlijk hoger op kwaliteitssignalen dan een 5-sterrenreview zonder tekst. De exacte kwantitatieve relatie tussen de kwaliteit van de reviewtekst en de numerieke weegcoëfficiënt is echter niet publiekelijk gedocumenteerd.

08Wat is de Bayesiaanse gemiddelde formule en wanneer moet ik die gebruiken?

De formule is WR = (v/(v+m)) × R + (m/(v+m)) × C. Gebruik deze wanneer je items op kwaliteit moet rangschikken die sterk verschillende aantallen reviews hebben. Het is de standaardaanpak voor productaanbevelingssystemen, contentranking en bedrijfsbeoordelingsplatforms. De belangrijkste parameter om te kalibreren is m — te laag en het biedt geen bescherming tegen uitschieters; te hoog en legitieme nieuwkomers worden permanent onderdrukt.

09Hoe gaat het Google-sterrenbeoordelingsalgoritme om met reviewpieken en nep-reviews?

Google's anomaliedetectie werkt onafhankelijk van de Bayesiaanse formule. Wanneer er pieken in snelheid worden gedetecteerd — meestal 10–20x het normale wekelijkse reviewtempo van een bedrijf — gaan nieuwe reviews in een quarantainestatus waarin ze zichtbaar zijn voor de bedrijfseigenaar, maar niet worden meegeteld in de openbare beoordelingen. Reviews die de AI- en handmatige controles doorstaan, komen uiteindelijk uit quarantaine; de rest wordt zonder kennisgeving verwijderd.

10Hoe krijg je een 5-sterrenbeoordeling op Google die ook echt standhoudt?

Aanhoudend hoge beoordelingen vereisen een consistente stroom van reviews, geen eenmalige actie. De formule beloont volume over tijd: 10 authentieke reviews per maand gedurende 12 maanden levert een stabielere, hoger gerangschikte score op dan 120 reviews in één maand. Focus op natuurlijke reviewgeneratie via opvolging na aankoop, QR-codes op de serviceplek en herinneringen in e-mailstromen — allemaal binnen de beleidsrichtlijnen van Google.

Sterrenbeoordelingen zijn niet wat ze op het eerste gezicht lijken. Het getal dat Google weergeeft, is de uitkomst van een statistisch model dat is ontworpen om manipulatie te weerstaan, rekening te houden met onzekerheid en consistente kwaliteit over tijd te belonen. Het begrijpen van de wiskunde vereist geen diploma in statistiek — het vereist de acceptatie dat drie 5-sterrenreviews niet hetzelfde waard zijn als 120 authentieke reviews met een gemiddelde van 4.6. De formule maakt dat expliciet. Wat je met dat inzicht doet, is de strategie.

Hoe het werkt Prijzen FAQ

// the_math_favors_volume

Je beoordeling is een wiskundig probleem. Wij kunnen helpen het op te lossen.

De Bayesiaanse formule beloont reviewvolume dat in de loop van de tijd is opgebouwd. Elke review die je vandaag genereert, verschuift je vertrouwensweging in de goede richting — en het effect stapelt zich op.

Begin met het opbouwen van reviewvolume