Jak Google skutečně počítá vaše hvězdičkové hodnocení (není to průměr)
Bayesovská matematika za váženými recenzemi, vlivem aktuálnosti a proč se vaše zobrazené hodnocení téměř jistě liší od aritmetického průměru – vysvětleno se skutečnými vzorci a výpočty.
Tady je něco, co většina majitelů firem zjistí tou těžší cestou: můžete nasbírat dvacet pětihvězdičkových recenzí za sebou a sledovat, jak se vaše zobrazené hodnocení sotva pohne. Nebo hůř – šest měsíců zlepšujete své služby, konečně překonáte 50 recenzí a zjistíte, že váš průměr 4,8 se na Google Maps nějakým způsobem ustálil na 4,3. S výpočtem není nic špatně. Funguje přesně tak, jak byl navržen. Jen vám nikdo neřekl, jaký ten návrh byl.
Google nikdy svůj algoritmus hodnocení nezveřejnil. Ale mezi veřejně zdokumentovaným Bayesovským vzorcem IMDB, dokumentací hodnocení od Algolia, akademickým výzkumem systémů recenzí a lety praxe odborníků, kteří zpětně analyzovali viditelné změny hodnocení, jsou mechanismy dobře pochopeny. Tento článek vás provede matematikou – pořádně, se skutečnými čísly.
Problém s naivními průměry
// naive_average.failure_modes
Začněme tím, co je to naivní průměr a proč selhává. Aritmetický průměr sady hodnocení je jednoduše součet dělený počtem. Tři recenze s hodnocením 5, 4 a 5 dávají (5+4+5)/3 = 4,67. To je matematicky správně. Je to ale také statisticky zavádějící, když je cílem seřadit tisíce podniků proti sobě.
Chyby se ve velkém měřítku rychle násobí. Restaurace, která otevřela minulý týden se třemi recenzemi od nadšených přátel, získá vyšší skóre než zavedený konkurent s 200 recenzemi a průměrem 4,4 – i když zavedený podnik představuje dramaticky spolehlivější signál. Jakýkoli systém hodnocení, který toto umožňuje, bude během měsíců zneužit až k bezvýznamnosti.
Jak výpočet hvězdičkového hodnocení Google funguje v praxi
Představte si Bayesovské hodnocení jako průměr vážený spolehlivostí. Když máte velmi málo recenzí, systém vašemu vzorku nedůvěřuje natolik, aby ho zobrazil v jeho nominální hodnotě. Místo toho smíchá váš hrubý průměr s priorem – výchozím očekáváním založeným na všech podobných podnicích. Čím více recenzí nashromáždíte, tím více systém důvěřuje vašim vlastním datům a tím méně na prioru záleží.
IMDB používá přesně tento přístup pro svůj seznam Top 250 a vzorec veřejně zdokumentovalo: WR = (v/(v+m)) × R + (m/(v+m)) × C. Proměnné jsou elegantně jednoduché, ale plně pochopit důsledky pro chování chvíli trvá. Stejná matematická struktura se objevuje v dokumentaci hodnocení od Algolia, v akademické literatuře o systémech recenzí a v práci SEO odborníků, kteří zpětně analyzují lokální hodnocení Google.
Bayesovský vzorec průměru, vysvětlení
// bayesian_average.formula_derivation
Vzorec WR = (v/(v+m)) × R + (m/(v+m)) × C je váženou směsí dvou veličin: vlastního pozorovaného průměru vašeho podniku (R) a průměru celé kategorie (C). Váhy jsou určeny tím, kolik recenzí máte (v) v poměru k minimálnímu prahu důvěryhodnosti (m).
Všimněte si, že (v/(v+m)) + (m/(v+m)) se vždy rovná 1,0. Součet těchto dvou vah je 100 % – vždy interpolujete mezi svými vlastními daty a priorem. Jedinou otázkou je, kolik z každého. Když je v malé ve srovnání s m, převažuje prior. Když je v velké ve srovnání s m, převažují vaše vlastní recenze.
Práh m je parametr, který kóduje požadavky platformy na spolehlivost. IMDB nastavuje m na přibližně 25 000 hlasů pro svůj výpočet Top 250. Sousedská kavárna na Google nesoutěží ve stejném statistickém vesmíru jako Avatar, takže m je nastaveno mnohem níže – odborníci obecně odhadují m v rozmezí 5 až 50 pro místní zápisy na Google, v závislosti na kategorii a geografickém trhu.
Průměr kategorie C je nejvíce podceňovanou proměnnou. Není to pevná globální konstanta. Google téměř jistě počítá C dynamicky – pro každou kategorii, pro každé město, možná pro každý kontext vyhledávání. Zubař v San Franciscu je porovnáván s ostatními zubaři v San Franciscu, ne s restauracemi na venkově v Montaně. To znamená, že vaše Bayesovská podlaha je specifická pro danou kategorii.
Proč je vážený vzorec hvězdičkového hodnocení důležitý pro vaše SEO
Praktickým důsledkem je, že získání prvních 50 recenzí má neúměrně větší význam než získání recenzí 51 až 150. Každá recenze pod prahem důvěryhodnosti m má nadměrný dopad, protože významně posouvá koeficient (v/(v+m)). Přechod z v=5 na v=10 zdvojnásobí vaši váhu spolehlivosti. Přechod z v=150 na v=155 je sotva měřitelný.
To vysvětluje protiintuitivní vzorec, který odborníci opakovaně pozorují: podnik se dostane ze 3 recenzí na 30 a vidí, jak jeho zobrazené hodnocení klesne z 5,0 na 4,6 – i když nové recenze jsou také pozitivní. Matematika je správná. Dřívější hodnocení 5,0 byla Bayesovská fikce. Hodnocení 4,6 je první poctivý odhad.
Podrobný průvodce výpočtem krok za krokem
// step_by_step.numerical_walkthrough
Dva propracované příklady s použitím realistického průměru kategorie C = 4,1 a minimálního prahu m = 50. Jedná se o pravděpodobné odhady pro středně konkurenční kategorii místních služeb (instalatéři, zubaři, autoservisy). Dosaďte si různé hodnoty a modelujte si vlastní kategorii.
Podnik A má dokonalé hrubé skóre – každý recenzent dal 5 hvězdiček. Ale s pouhými 3 recenzemi vzorec důvěřuje vlastním datům jen z 5,7 %. Zbývajících 94,3 % jeho zobrazeného skóre pochází z průměru kategorie 4,1. Výsledek: 4,15. Ne 5,0, které si zdánlivě zaslouží.
Podnik B má nižší hrubý průměr 4,6 – někteří recenzenti dali 3 nebo 4 hvězdičky. Ale 120 recenzí znamená, že vzorec důvěřuje vlastním datům ze 70,6 %. Jeho zobrazené skóre 4,45 je mnohem blíže realitě a algoritmus Google ho zařadí výše než nominální 5,0 podniku A. Objem získává důvěryhodnost. Důvěryhodnost získává viditelnost.
Simulace: Naivní průměr vs. Bayesovské vážené hodnocení
// simulation.naive_vs_bayesian_comparison
Níže uvedená tabulka aplikuje vzorec na šest scénářů s C = 4,1 a m = 50. Sloupec Delta ukazuje, o kolik se Bayesovské skóre liší od naivního průměru. Všimněte si, jak se rozdíl zmenšuje s rostoucím počtem recenzí – to je vliv prioru, který slábne s přibývajícími důkazy.
Nejzajímavější řádek je ten poslední: podnik s pouhými 5 recenzemi, ale hrozným hrubým průměrem 2,0, ve skutečnosti zobrazuje 3,85 – průměr kategorie ho vytáhl nahoru o téměř dvě celé hvězdičky. Je to záměr. Systém odmítá odsoudit podnik k zapomnění na základě pěti datových bodů. Drží se průměru, dokud vzorek není dostatečně velký, aby si zasloužil důvěru.
Tento tlumící efekt na negativní odlehlé hodnoty je důvodem, proč je „review bombing“ – koordinovaná kampaň falešných negativních recenzí – méně katastrofální, než se na první pohled zdá. Algoritmus se brání extrémním výsledkům, když počet recenzí není dostatečný k jejich ospravedlnění. Nicméně, systémy detekce anomálií od Google také označují kampaně s rychlým nárůstem recenzí v obou směrech.
Další vrstvy Google nad rámec základního vzorce
// google_specific.beyond_bayesian_math
Bayesovský vzorec vysvětluje základ, ale skutečný systém Google přidává nejméně tři další vrstvy: slábnutí vlivu s časem, hodnocení důvěry přispěvatele a tlumení anomálií pro skoky v rychlosti. Žádná z nich není oficiálně potvrzena. Všechny jsou odvozeny z behaviorálních důkazů a analýzy patentů.
Představte si základní Bayesovský vzorec jako základ. Vše, co je na něm postaveno, činí signál odolnějším vůči manipulaci a časově přesnějším. Cíl je vždy stejný: aby zobrazené hodnocení odráželo to, co by zákazník skutečně zažil, kdyby dnes vešel dovnitř.
Vážení podle aktuálnosti – proč dominují vašich posledních 90 dní
Google uplatňuje časové slábnutí na recenze, přičemž dává větší váhu nedávné zpětné vazbě než starším záznamům. Mechanismus je v souladu s funkcí exponenciálního poklesu, kde vliv recenze časem klesá, místo aby v nějakém pevném termínu klesl na nulu.[1]
Komunitní analýza chování hodnocení Google konzistentně zjišťuje, že recenze zveřejněné před více než 12–18 měsíci mají zhruba o 30–50 % menší vliv než recenze zveřejněná minulý týden. Pětihvězdičková recenze z doby před třemi lety se stále počítá – jen se počítá méně. To znamená, že podnik, který v roce 2022 nasbíral 80 recenzí a od té doby žádné, žije na vypůjčeném signálu.
Důvěra přispěvatele – proč recenze od Místního průvodce úrovně 7 má větší dopad
Hierarchie důvěry Google pro recenzenty je odvozena z jeho patentového portfolia a pozorovatelného chování. Patent US8818995B1 popisuje systém hodnocení vyhledávání, který váží příspěvky podle úrovně důvěry entity, která je vytváří. Aplikováno na recenze: Místní průvodce úrovně 7 se stovkami podrobných recenzí napříč více kategoriemi podniků se registruje jako vysoce důvěryhodný uzel.[2]
Praktický efekt: pětihvězdičková recenze od Místního průvodce úrovně 7 má pravděpodobně větší váhu než pětihvězdičková recenze od účtu vytvořeného včera bez historie recenzí. Nejde o hvězdičkovou hodnotu – obě se v čitateli počítají jako 5. Ale váha aplikovaná na každou z nich před zprůměrováním se liší. Google tento rozdíl nikdy veřejně nekvantifikoval.
Tlumení anomálií – co se stane, když přijde 40 recenzí za týden
Skoky v rychlosti spouštějí samostatnou detekční vrstvu. Pokud podnik obdrží 40 recenzí za 72 hodin, když jeho základní linie je 2–3 za měsíc, systémy Google tento vzor označí. Výsledkem není automatické smazání – je to karanténa. Nové recenze se přestanou objevovat ve zobrazeném počtu a hodnocení, zatímco systém prověřuje situaci.[3]
Tento mechanismus vysvětluje, proč podniky, které nakupují recenzní kampaně hromadně, často nevidí žádné viditelné zlepšení – nebo dočasně vidí, jak hodnocení jejich profilu klesá, protože starší autentické recenze zůstávají viditelné, ale nová várka sedí v limbu prověřování. Algoritmus je speciálně naladěn tak, aby nedůvěřoval náhlým změnám objemu, které se odchylují od zavedených základních linií.
Před a po: Co objem recenzí skutečně mění
// practical_impact.before_and_after_scenarios
Dva scénáře ve stylu reálného světa, které ilustrují, jak se vzorec chová v čase. Žádný není fiktivní – tyto vzorce se opakovaně objevují v případových studiích od odborníků na správu reputace.
Scénář se zubařem demonstruje klíčový poznatek Bayesovského hodnocení: nižší hrubý průměr s vysokou spolehlivostí poráží vyšší hrubý průměr s nízkou spolehlivostí. Zobrazené skóre kleslo (z nominálních 4,9 na zobrazených 4,58), ale pozice v hodnocení se zlepšila, protože váha spolehlivosti je nyní reálná.
Scénář se skokem v restauraci ilustruje, proč záleží na organickém tempu. Systémy Google jsou kalibrovány tak, aby detekovaly nepřirozenou rychlost. Čtyřicet recenzí za týden následovaných dvěma měsíci ticha nejenže vypadá podezřele – tlumený efektivní počet znamená, že jste utratili peníze a nezískali téměř nic. Matematika to trestá dvakrát: detekce anomálií snižuje viditelný počet a slábnutí vlivu s časem znamená, že recenze z doby skoku začínají okamžitě slábnout.
Alternativní přístupy: Wilsonovo skóre a Dirichletovy modely
// related_approaches.wilson_score_dirichlet
Bayesovské průměrování není jediný statisticky správný přístup. Esej Evana Millera z roku 2009 'Jak neřadit podle průměrného hodnocení' popularizovala jinou metodu: dolní hranici intervalu spolehlivosti Wilsonova skóre. Reddit ji přijal pro hodnocení komentářů. Yelp používá její variaci.
Wilsonovo skóre klade jinou otázku než Bayesovské průměrování. Místo 'smíchej má data s priorem' se ptá: 'vzhledem k hodnocením, která mám, jaká je nejpravděpodobněji nejhorší skutečná kvalita s 95% spolehlivostí?' To produkuje konzervativní odhad, který trestá nejistotu ještě agresivněji než Bayesovské průměrování při velmi nízkém počtu recenzí.
Třetí přístup – Dirichletův-Multinomiální model – zachází se všemi pěti hvězdičkovými hodnotami jako se samostatnými kategoriemi, nikoli jako s jediným spojitým skóre. District Data Labs zdokumentovali tento přístup pro systémy s více hvězdičkami. Je matematicky správnější než vzorec IMDB (který implicitně zachází s hvězdičkami jako s lineární škálou), ale výpočetně náročnější. Pro praktické účely se behaviorální rozdíl mezi Bayesovským průměrováním a Dirichletovým modelem stává zanedbatelným nad zhruba 30 recenzemi.
Co to znamená pro vaši obchodní strategii
// strategic_implications.for_business_owners
Pochopení matematiky převádí abstraktní rady ('získejte více recenzí') na kvantifikovanou strategii. Každý podnik existuje někde na spektru v/(v+m). Vědět, kde jste, vám řekne, jak moc vaše další recenze skutečně pohne s výsledkem.
Pokud v = 8 a m = 50, jedna nová 5hvězdičková recenze posune vaši váhu spolehlivosti z 8/58 = 0,138 na 9/59 = 0,153. Tento posun o 1,5 procentního bodu je významný. Pokud v = 300 a m = 50, stejná recenze vás posune z 300/350 = 0,857 na 301/351 = 0,858 – sotva zjistitelné. Objem v raném období má desetinásobný matematický dopad než objem ve velkém měřítku.
Jak vypočítat vážený průměr hvězdičkového hodnocení pro váš vlastní podnik
Vzorec si můžete sami spočítat v tabulkovém procesoru. Vezměte svůj aktuální počet recenzí jako v. Odhadněte m pro vaši kategorii pohledem na to, jaké počty recenzí si udržují 3 nejlepší podniky ve vaší kategorii na Google Maps – 25. percentil tohoto rozdělení je rozumný odhad m. Vaše aktuální zobrazené hodnocení je pravděpodobně již výstupem WR; váš naivní průměr je jednoduchý součet dělený počtem ve vašem backendu.
Výpočet, který vás zajímá, je marginální dopad dalších N recenzí. Modelujte to: zvyšte v o 10, přepočtějte WR, sledujte rozdíl. Udělejte to pro rozsah hodnot v, abyste vytvořili křivku citlivosti. Nejprudší část této křivky – kde každá další recenze produkuje největší zlepšení WR – je místo, kde byste měli soustředit své úsilí na získávání recenzí.
Proč aktuálnost znamená, že rychlost přibývání recenzí je důležitější než celkový počet
Jakmile pochopíte slábnutí vlivu s časem, cíl optimalizace se změní. Nejde jen o celkový objem – jde o objem rozložený v čase. Podnik se 400 recenzemi nasbíranými během pěti let a ničím v posledních 18 měsících efektivně pracuje s menším efektivním vzorkem, než naznačují čísla. Zastaralé recenze přispívají k průběžnému váženému průměru méně.
Konzistentní generování recenzí – i v mírném tempu – se časem násobí způsoby, které jednorázová akvizice nikdy nedokáže. Osm nových recenzí měsíčně po dobu dvanácti měsíců překonává 96 recenzí za jediný měsíc téměř ve všech relevantních metrikách: Bayesovská důvěra, schválení detekcí anomálií, trajektorie slábnutí vlivu s časem a vnímání důvěryhodnosti spotřebitelem.
Často kladené otázky
// faq.frequently_asked_questions
Hvězdičková hodnocení nejsou tím, čím se na první pohled zdají být. Číslo, které Google zobrazuje, je výstupem statistického modelu navrženého tak, aby odolával manipulaci, zohledňoval nejistotu a odměňoval konzistentní kvalitu v čase. Pochopení matematiky nevyžaduje titul ze statistiky – vyžaduje přijetí faktu, že tři 5hvězdičkové recenze nemají stejnou hodnotu jako 120 autentických recenzí s průměrem 4,6. Vzorec to činí explicitním. Co s tímto poznatkem uděláte, je strategie.
Vaše hodnocení je matematický problém. Můžeme vám ho pomoci vyřešit.
Bayesovský vzorec odměňuje objem recenzí nashromážděný v čase. Každá recenze, kterou dnes získáte, posouvá váhu vaší spolehlivosti správným směrem – a efekt se násobí.
Začněte budovat objem recenzí


