Hogyan számítja ki valójában a Google a csillagértékelésedet (és miért nem egyszerű átlagolással)
A Bayes-matematika a súlyozott értékelések, az időbeli súlycsökkenés mögött, és hogy a megjelenített értékelésed miért tér el szinte biztosan a számtani átlagtól – valódi képletekkel és kidolgozott számításokkal elmagyarázva.
Van valami, amit a legtöbb cégtulajdonos a saját kárán tanul meg: összegyűjthetsz húsz egymást követő ötcsillagos értékelést, és azt látod, hogy a megjelenített értékelésed alig mozdul. Vagy ami még rosszabb: hat hónapot töltesz a szolgáltatásod fejlesztésével, végre eléred az 50 értékelést, és rájössz, hogy a 4.8-as átlagod valahogy 4.3-ra állt be a Google Térképen. A matematika nem hibás. Pontosan a tervek szerint működik. Csak épp neked nem mondták el, mi volt a terv.
A Google soha nem tette közzé az értékelési algoritmusát. De az IMDB nyilvánosan dokumentált Bayes-képlete, az Algolia értékelési dokumentációja, az értékelési rendszerekkel kapcsolatos tudományos kutatások és a látható értékelésváltozásokat évek óta visszafejtő szakemberek munkája révén a mechanizmus jól ismert. Ez a cikk végigvezeti Önt a matematikán – rendesen, valós számokkal.
A probléma az egyszerű átlagokkal
// naive_average.failure_modes
Kezdjük azzal, mi az egyszerű átlag és miért vall kudarcot. Az értékelések egy halmazának számtani közepe egyszerűen az összegük elosztva a darabszámukkal. Három értékelés (5, 4 és 5) esetén ez (5+4+5)/3 = 4.67. Ez matematikailag helyes. Statisztikailag azonban félrevezető, amikor a cél több ezer vállalkozás egymáshoz viszonyított rangsorolása.
A hibalehetőségek nagy méretekben gyorsan halmozódnak. Egy múlt héten nyílt étterem, amely három lelkes baráttól kapott értékelést, magasabb pontszámot ér el, mint egy bejáratott versenytárs 200 értékeléssel és 4.4-es átlaggal – pedig a bejáratott hely drámaian megbízhatóbb jelet képvisel. Bármely rangsorolási rendszer, amely ezt megengedi, hónapokon belül kijátszhatóvá és irrelevánssá válik.
Hogyan működik a Google csillagértékelés számítása a gyakorlatban
Gondoljon a Bayes-féle értékelésre mint egy bizalommal súlyozott átlagra. Amikor nagyon kevés értékelése van, a rendszer nem bízik eléggé a mintájában ahhoz, hogy azt névértéken jelenítse meg. Ehelyett a nyers átlagát egy „priorral” – egy alapértelmezett elvárással – keveri, amely az összes hasonló vállalkozáson alapul. Minél több értékelést gyűjt, annál jobban bízik a rendszer a saját adataiban, és annál kevésbé számít a prior.
Az IMDB pontosan ezt a megközelítést használja a Top 250-es listájához, és nyilvánosan dokumentálta a képletet: WR = (v/(v+m)) × R + (m/(v+m)) × C. A változók elegánsan egyszerűek, de a viselkedési következmények teljes megértése időbe telik. Ugyanez a matematikai struktúra jelenik meg az Algolia rangsorolási dokumentációjában, az értékelési rendszerekkel foglalkozó tudományos irodalomban, és a Google helyi rangsorolását tanulmányozó SEO szakemberek visszafejtő munkájában.
A Bayes-féle átlagképlet magyarázata
// bayesian_average.formula_derivation
A WR = (v/(v+m)) × R + (m/(v+m)) × C képlet két mennyiség súlyozott keveréke: a vállalkozás saját megfigyelt átlaga (R) és a kategóriaszintű átlag (C). A súlyokat az határozza meg, hogy hány értékelése van (v) egy minimális hitelességi küszöbértékhez (m) képest.
Vegye észre, hogy (v/(v+m)) + (m/(v+m)) mindig 1.0-t ad. Ez a két súly 100%-ot tesz ki – mindig a saját adatai és a prior között interpolál. A kérdés csak az, hogy melyikből mennyit. Amikor v elenyésző m-hez képest, a prior dominál. Amikor v nagy m-hez képest, a saját értékelései dominálnak.
Az m küszöbérték az a paraméter, amely a platform bizalmi követelményeit kódolja. Az IMDB az m értékét körülbelül 25 000 szavazatban határozza meg a Top 250-es számításához. Egy sarki kávézó a Google-on nem ugyanabban a statisztikai univerzumban versenyez, mint az Avatar, ezért az m értéke sokkal alacsonyabb – a szakemberek általában 5 és 50 közé becsülik az m-et a Google helyi listázásainál, kategóriától és földrajzi piactól függően.
A C kategóriaátlag a leginkább alulértékelt változó. Ez nem egy fix globális állandó. A Google szinte biztosan dinamikusan számítja a C-t – kategóriánként, városonként, talán keresési kontextusonként. Egy San Franciscó-i fogorvost más San Franciscó-i fogorvosokhoz hasonlítanak, nem pedig egy vidéki montanai étteremhez. Ez azt jelenti, hogy a Bayes-féle „alap” kategória-specifikus.
Miért számít a súlyozott csillagértékelési képlet a SEO szempontjából
A gyakorlati következmény az, hogy az első 50 értékelés megszerzése aránytalanul többet számít, mint az 51-től 150-ig terjedő értékeléseké. Minden, az m hitelességi küszöbérték alatti értékelésnek óriási hatása van, mert jelentősen eltolja a (v/(v+m)) együtthatót. Ha v=5-ről v=10-re lép, megduplázza a bizalmi súlyát. Ha v=150-ről v=155-re lép, az alig mérhető.
Ez magyarázza azt az ellentmondásos mintát, amelyet a szakemberek újra és újra megfigyelnek: egy vállalkozás 3 értékelésről 30-ra lép, és azt látja, hogy a megjelenített értékelése 5.0-ról 4.6-ra esik – még akkor is, ha az új értékelések is pozitívak. A matematika helyes. A korai 5.0 egy Bayes-féle fikció volt. A 4.6 az első őszinte becslés.
A számítás lépésről lépésre
// step_by_step.numerical_walkthrough
Két kidolgozott példa, egy reális, C = 4.1 kategóriaátlaggal és egy m = 50 minimális küszöbértékkel. Ezek valószínűsíthető becslések egy közepesen versenyképes helyi szolgáltatási kategóriára (vízvezeték-szerelők, fogorvosok, autószerelők). Helyettesítsen be különböző értékeket a saját kategóriájának modellezéséhez.
Az 'A' vállalkozásnak tökéletes a nyers pontszáma – minden értékelő 5 csillagot adott. De mindössze 3 értékeléssel a képlet csak 5,7%-ban bízik a saját adataiban. A megjelenített pontszámának fennmaradó 94,3%-a a 4.1-es kategóriaátlagból származik. Eredmény: 4.15. Nem az 5.0, amit látszólag megérdemelne.
A 'B' vállalkozásnak alacsonyabb, 4.6-os a nyers átlaga – néhány értékelő 3 vagy 4 csillagot adott. De a 120 értékelés azt jelenti, hogy a képlet 70,6%-ban bízik a saját adataiban. A 4.45-ös megjelenített pontszáma sokkal közelebb áll a valósághoz, és a Google algoritmusa magasabbra fogja rangsorolni, mint az 'A' vállalkozás névleges 5.0-s értékelését. A mennyiség hitelességet szül. A hitelesség láthatóságot szül.
Szimuláció: Egyszerű átlag vs. Bayes-súlyozott értékelés
// simulation.naive_vs_bayesian_comparison
Az alábbi táblázat hat forgatókönyvre alkalmazza a képletet, C = 4.1 és m = 50 értékekkel. A Delta oszlop mutatja, mennyire tér el a Bayes-pontszám az egyszerű átlagtól. Figyelje meg, hogyan csökken a különbség az értékelések számának növekedésével – ez az, amikor a prior elveszíti befolyását a bizonyítékok gyűlésével.
A legérdekesebb sor az utolsó: egy vállalkozás mindössze 5 értékeléssel, de borzalmas, 2.0-s nyers átlaggal valójában 3.85-öt jelenít meg – a kategóriaátlag majdnem két teljes csillaggal felhúzta. Ez szándékos. A rendszer nem hajlandó egy vállalkozást a feledés homályába taszítani öt adatpont alapján. Az átlag felé húz, amíg a minta elég nagy nem lesz a bizalomhoz.
Ez a negatív kiugró értékekre gyakorolt tompító hatás az oka annak, hogy az „értékelés-bombázás” – a hamis negatív értékelések összehangolt kampánya – kevésbé katasztrofális, mint amilyennek a felszínen látszik. Az algoritmus ellenáll a szélsőséges eredményeknek, ha az értékelések száma nem elegendő azok igazolásához. Mindazonáltal a Google anomália-észlelő rendszerei a gyors sebességű értékelési kampányokat mindkét irányban megjelölik.
A Google további rétegei az alapképleten túl
// google_specific.beyond_bayesian_math
A Bayes-képlet megmagyarázza az alapot, de a Google tényleges rendszere legalább három további réteget ad hozzá: az időbeli súlycsökkenést, a hozzászólói bizalmi pontozást és az anomália-csillapítást a sebesség-kiugrásoknál. Ezeket hivatalosan nem erősítették meg. Mindegyikre a viselkedési bizonyítékokból és a szabadalmi elemzésekből következtetnek.
Gondoljon az alap Bayes-képletre mint alapzatra. Minden, ami ráépül, ellenállóbbá teszi a jelet a manipulációval szemben és időben pontosabbá. A cél mindig ugyanaz: a megjelenített értékelés tükrözze azt, amit egy ügyfél valóban tapasztalna, ha ma besétálna.
Időbeli súlyozás – miért dominál az utolsó 90 nap
A Google időbeli súlycsökkenést alkalmaz az értékelésekre, nagyobb súlyt adva a friss visszajelzéseknek, mint a régebbi bejegyzéseknek. A mechanizmus összhangban van egy exponenciális csökkenési függvénnyel, ahol egy értékelés befolyása idővel csökken, ahelyett, hogy egy adott határidőnél nullára esne.[1]
A Google értékelési viselkedésének közösségi elemzése következetesen azt találja, hogy a 12–18 hónapnál régebbi értékelések nagyjából 30–50%-kal kevesebb befolyással bírnak, mint egy múlt héten közzétett értékelés. Egy három évvel ezelőtti 5 csillagos értékelés még mindig számít – csak kevesebbet. Ez azt jelenti, hogy egy vállalkozás, amely 2022-ben 80 értékelést gyűjtött, és azóta egyet sem, kölcsönkapott jelből él.
Hozzászólói bizalom – miért üt nagyobbat egy 7. szintű Helyi idegenvezető értékelése
A Google értékelőkre vonatkozó bizalmi hierarchiájára a szabadalmi portfóliójából és a megfigyelhető viselkedésből következtetnek. Az US8818995B1 számú szabadalom egy olyan keresési rangsorolási rendszert ír le, amely a hozzájárulásokat az azt tevő entitás bizalmi szintje szerint súlyozza. Az értékelésekre alkalmazva: egy 7. szintű Helyi idegenvezető, aki több száz részletes értékeléssel rendelkezik több üzleti kategóriában, magas bizalmi szintű csomópontként regisztrálódik.[2]
A gyakorlati hatás: egy 7. szintű Helyi idegenvezetőtől származó 5 csillagos értékelés valószínűleg nagyobb súllyal bír, mint egy tegnap létrehozott, értékelési előzmények nélküli fiókból származó 5 csillagos értékelés. Ez nem a csillagértékről szól – mindkettő 5-nek számít a számlálóban. De az átlagolás előtt alkalmazott súlyuk eltér. A Google soha nem számszerűsítette ezt a különbséget nyilvánosan.
Anomália-csillapítás – mi történik, ha 40 értékelés érkezik egy hét alatt
A sebesség-kiugrások egy külön észlelési réteget indítanak be. Ha egy vállalkozás 72 óra alatt 40 értékelést kap, miközben az alapvonala havi 2–3, a Google rendszerei megjelölik ezt a mintát. Az eredmény nem automatikus törlés, hanem karantén. Az új értékelések nem jelennek meg a megjelenített darabszámban és értékelésben, amíg a rendszer vizsgálódik.[3]
Ez a mechanizmus magyarázza, hogy a tömegesen értékeléseket vásárló vállalkozások miért nem látnak látható javulást – vagy ideiglenesen miért esik a profiljuk értékelése, miközben a régebbi, hiteles értékelések láthatóak maradnak, de az új adag az értékelési limbóban ül. Az algoritmus kifejezetten úgy van hangolva, hogy ne bízzon a hirtelen volumen-változásokban, amelyek eltérnek a kialakult alapvonalaktól.
Előtte és utána: Mit változtat valójában az értékelések volumene
// practical_impact.before_and_after_scenarios
Két valósághű forgatókönyv, amely bemutatja, hogyan viselkedik a képlet az idő múlásával. Egyik sem fiktív – ezek a minták ismétlődően megjelennek a hírnévkezelési szakemberek esettanulmányaiban.
A fogorvosi forgatókönyv a Bayes-féle értékelés alapvető belátását demonstrálja: egy alacsonyabb nyers átlag magas bizalommal legyőzi a magasabb nyers átlagot alacsony bizalommal. A megjelenített pontszám csökkent (egy névleges 4.9-ről egy megjelenített 4.58-ra), de a rangsorolási pozíció javult, mert a bizalmi súly most már valós.
Az éttermi kiugrás forgatókönyve azt szemlélteti, miért számít a szerves ütem. A Google rendszerei a természetellenes sebesség észlelésére vannak kalibrálva. Negyven értékelés egy hét alatt, majd két hónap csend nemcsak gyanúsnak tűnik – a csillapított effektív darabszám azt jelenti, hogy pénzt költöttél és szinte semmit sem nyertél. A matematika kétszer bünteti: az anomália-észlelés csökkenti a látható darabszámot, az időbeli súlycsökkenés pedig azt jelenti, hogy a kiugrás-korszak értékelései azonnal halványulni kezdenek.
Alternatív megközelítések: Wilson-pontszám és Dirichlet-modellek
// related_approaches.wilson_score_dirichlet
A Bayes-féle átlagolás nem az egyetlen statisztikailag megalapozott megközelítés. Evan Miller 2009-es esszéje, a „Hogyan ne rendezzünk átlagos értékelés szerint” egy másik módszert népszerűsített: a Wilson-pontszám konfidenciaintervallumának alsó határát. A Reddit ezt alkalmazta a hozzászólások rangsorolására. A Yelp ennek egy változatát használja.
A Wilson-pontszám más kérdést tesz fel, mint a Bayes-féle átlagolás. Ahelyett, hogy „keverd az adataimat egy priorral”, azt kérdezi: „a meglévő értékeléseim alapján, mi a legrosszabb valószínűsíthető valódi minőség 95%-os konfidenciával?” Ez egy konzervatív becslést eredményez, amely még agresszívebben bünteti a bizonytalanságot, mint a Bayes-féle átlagolás nagyon alacsony értékelésszám esetén.
Egy harmadik megközelítés – a Dirichlet-multinomiális modell – mind az öt csillagértéket külön kategóriaként kezeli, nem pedig egyetlen folytonos pontszámként. A District Data Labs dokumentálta ezt a megközelítést a többcsillagos rendszerekhez. Matematikailag helyesebb, mint az IMDB-képlet (amely implicit módon lineáris skálaként kezeli a csillagokat), de számításigényesebb. Gyakorlati szempontból a Bayes-féle átlagolás és a Dirichlet-modell közötti viselkedésbeli különbség nagyjából 30 értékelés felett elhanyagolhatóvá válik.
Mit jelent ez az Ön üzleti stratégiájára nézve
// strategic_implications.for_business_owners
A matematika megértése az elvont tanácsot („szerezzen több értékelést”) számszerűsített stratégiává alakítja. Minden vállalkozás valahol a v/(v+m) spektrumon helyezkedik el. Ha tudja, hol van, az megmondja, mennyit mozdít a következő értékelése a mérlegen.
Ha v = 8 és m = 50, egyetlen új 5 csillagos értékelés a bizalmi súlyát 8/58 = 0.138-ról 9/59 = 0.153-ra tolja el. Ez az 1.5 százalékpontos elmozdulás jelentős. Ha v = 300 és m = 50, ugyanez az értékelés 300/350 = 0.857-ről 301/351 = 0.858-ra mozdítja el – alig érzékelhetően. A korai ablakban szerzett volumen tízszeres matematikai hatással bír, mint a nagy volumenű szakaszban.
Hogyan számolja ki a súlyozott átlagos csillagértékelést a saját vállalkozásához
A képletet Ön is lefuttathatja egy táblázatkezelőben. Vegye a jelenlegi értékeléseinek számát v-nek. Becsülje meg a kategóriája m értékét úgy, hogy megnézi, milyen értékelésszámot tartanak a Google Térkép kategóriájának top 3 vállalkozásai – ennek az eloszlásnak a 25. percentilise egy ésszerű m becslés. A jelenlegi megjelenített értékelése valószínűleg már a WR kimenete; az egyszerű átlaga a háttérrendszerben lévő összeg osztva a darabszámmal.
A számítás, ami Önt érdekli, a következő N értékelés marginális hatása. Modellezze: növelje v-t 10-zel, számolja újra a WR-t, figyelje meg a deltát. Tegye ezt meg egy sor v értékre, hogy felépítsen egy érzékenységi görbét. A görbe legmeredekebb része – ahol minden további értékelés a legnagyobb WR javulást eredményezi – az a pont, ahol az értékelésszerzési erőfeszítéseit koncentrálnia kell.
Miért fontosabb az értékelések sebessége, mint a teljes darabszám az időbeliség miatt
Amint megérti az időbeli súlycsökkenést, az optimalizálási cél eltolódik. Nem csak a teljes volumenről van szó – hanem az időben elosztott volumenről. Egy vállalkozás, amely öt év alatt 400 értékelést gyűjtött, de az elmúlt 18 hónapban semmit, gyakorlatilag egy kisebb effektív mintán működik, mint amit a számok sugallnak. Az elavult értékelések kevesebbel járulnak hozzá a futó súlyozott átlaghoz.
A következetes értékelésgenerálás – még szerény ütemben is – idővel olyan módon halmozódik, ahogy a rohamszerű szerzés soha. Havi nyolc új értékelés tizenkét hónapon keresztül szinte minden releváns mérőszám szerint felülmúlja a 96 értékelést egyetlen hónap alatt: Bayes-bizalom, anomália-észlelési megfelelés, időbeli súlycsökkenési pálya és fogyasztói hitelesség percepciója.
Gyakran Ismételt Kérdések
// faq.frequently_asked_questions
A csillagértékelések nem azok, aminek a felszínen látszanak. A Google által megjelenített szám egy statisztikai modell kimenete, amelyet arra terveztek, hogy ellenálljon a manipulációnak, figyelembe vegye a bizonytalanságot, és jutalmazza a következetes minőséget az idő múlásával. A matematika megértéséhez nem kell statisztikus diplomával rendelkezni – csak el kell fogadni, hogy három 5 csillagos értékelés nem ér annyit, mint 120 hiteles, 4.6-os átlagú értékelés. A képlet ezt teszi egyértelművé. Az, hogy mit kezd ezzel a belátással, már stratégia kérdése.
Az értékelése egy matematikai probléma. Segítünk megoldani.
A Bayes-képlet az idővel felhalmozott értékelési volument jutalmazza. Minden ma megszerzett értékelés a helyes irányba mozdítja a bizalmi súlyát – és a hatás halmozódik.
Kezdje el növelni az értékelések számát


