Як Google насправді розраховує ваш зірковий рейтинг (це не середнє арифметичне)
Баєсівська математика, що лежить в основі зважених відгуків, врахування давності та чому ваш відображуваний рейтинг майже напевно відрізняється від середнього арифметичного — пояснення з реальними формулами та прикладами розрахунків.
Ось те, що більшість власників бізнесу відкривають для себе на власному гіркому досвіді: ви можете зібрати двадцять п'ятизіркових відгуків поспіль і спостерігати, як ваш рейтинг на екрані ледь рухається. Або ще гірше — ви витрачаєте шість місяців на покращення сервісу, нарешті перетинаєте позначку в 50 відгуків і розумієте, що ваш середній бал 4.8 якимось чином перетворився на 4.3 на Google Maps. З математикою все гаразд. Вона працює саме так, як було задумано. Вам просто не сказали, в чому полягав задум.
Google ніколи не публікував свій алгоритм розрахунку рейтингу. Але завдяки публічно задокументованій баєсівській формулі IMDB, документації по рейтингах від Algolia, академічним дослідженням систем відгуків та рокам зворотного інжинірингу видимих змін рейтингу, проведеного практиками, механіка добре зрозуміла. Ця стаття розбирає математику — як слід, з реальними числами.
Проблема з «наївним» середнім значенням
// naive_average.failure_modes
Почнемо з того, що таке «наївне» середнє і чому воно не працює. Середнє арифметичне для набору оцінок — це просто сума, поділена на кількість. Три відгуки з оцінками 5, 4 і 5 дають (5+4+5)/3 = 4.67. Це математично правильно. Але це також статистично оманливо, коли метою є ранжування тисяч компаній одна проти одної.
Недоліки швидко накопичуються при масштабуванні. Ресторан, що відкрився минулого тижня з трьома відгуками від захоплених друзів, отримає вищий бал, ніж відомий конкурент з 200 відгуками та середнім балом 4.4 — хоча відомий заклад представляє значно надійніший сигнал. Будь-яка система ранжування, що допускає таке, буде знівельована маніпуляціями за лічені місяці.
Як на практиці працює розрахунок зіркового рейтингу Google
Уявляйте баєсівський рейтинг як середнє, зважене за рівнем довіри. Коли у вас дуже мало відгуків, система не довіряє вашій вибірці настільки, щоб відображати її як є. Натомість вона змішує ваш «сирий» середній бал з апріорним значенням — стандартним очікуванням, заснованим на всіх подібних компаніях. Чим більше відгуків ви накопичуєте, тим більше система довіряє вашим власним даним і тим менше важить апріорне значення.
IMDB використовує саме такий підхід для свого списку Топ-250 і публічно задокументував формулу: WR = (v/(v+m)) × R + (m/(v+m)) × C. Змінні елегантно прості, але поведінкові наслідки потребують часу для повного усвідомлення. Така ж математична структура з'являється в документації по ранжуванню від Algolia, академічній літературі про системи відгуків та в роботах SEO-практиків, що вивчають локальне ранжування Google шляхом зворотного інжинірингу.
Пояснення формули баєсівського середнього
// bayesian_average.formula_derivation
Формула WR = (v/(v+m)) × R + (m/(v+m)) × C — це зважена суміш двох величин: власного спостережуваного середнього вашої компанії (R) та середнього по категорії (C). Вагові коефіцієнти визначаються тим, скільки у вас відгуків (v) відносно мінімального порогу достовірності (m).
Зверніть увагу, що (v/(v+m)) + (m/(v+m)) завжди дорівнює 1.0. Сума цих двох вагових коефіцієнтів становить 100% — ви завжди інтерполюєте між вашими власними даними та апріорним значенням. Питання лише в тому, яка частка кожного. Коли v дуже мале відносно m, домінує апріорне значення. Коли v велике відносно m, домінують ваші власні відгуки.
Поріг m — це параметр, який кодує вимоги платформи до довіри. IMDB встановлює m приблизно на рівні 25 000 голосів для розрахунку свого Топ-250. Кав'ярня по сусідству на Google не конкурує в тому ж статистичному всесвіті, що й «Аватар», тому m встановлюється значно нижче — практики зазвичай оцінюють m в діапазоні від 5 до 50 для локальних профілів Google, залежно від категорії та географічного ринку.
Середнє по категорії C — це найбільш недооцінена змінна. Це не фіксована глобальна константа. Google майже напевно розраховує C динамічно — для кожної категорії, кожного міста, можливо, для кожного контексту пошуку. Стоматолог у Сан-Франциско порівнюється з іншими стоматологами Сан-Франциско, а не з ресторанами в сільській місцевості Монтани. Це означає, що ваш баєсівський мінімум залежить від категорії.
Чому формула зваженого зіркового рейтингу важлива для вашого SEO
Практичний наслідок полягає в тому, що отримання перших 50 відгуків має непропорційно більше значення, ніж отримання відгуків з 51-го по 150-й. Кожен відгук нижче порогу достовірності m має надмірний вплив, оскільки він значно змінює коефіцієнт (v/(v+m)). Перехід з v=5 до v=10 подвоює ваш ваговий коефіцієнт довіри. Перехід з v=150 до v=155 ледь помітний.
Це пояснює контрінтуїтивну закономірність, яку практики спостерігають постійно: бізнес переходить від 3 до 30 відгуків і бачить, як його відображуваний рейтинг падає з 5.0 до 4.6 — навіть якщо нові відгуки також позитивні. Математика правильна. Ранній рейтинг 5.0 був баєсівською фікцією. 4.6 — це перша чесна оцінка.
Покроковий розбір розрахунку
// step_by_step.numerical_walkthrough
Два приклади розрахунків з використанням реалістичного середнього по категорії C = 4.1 та мінімального порогу m = 50. Це правдоподібні оцінки для помірно конкурентної категорії місцевих послуг (сантехніки, стоматологи, автомайстерні). Підставте різні значення, щоб змоделювати власну категорію.
Компанія А має ідеальний «сирий» бал — кожен відгук отримав 5 зірок. Але маючи лише 3 відгуки, формула довіряє власним даним лише на 5.7%. Решта 94.3% її відображуваного рейтингу походять від середнього по категорії 4.1. Результат: 4.15. Не 5.0, на які вона, здавалося б, заслуговує.
Компанія Б має нижчий «сирий» середній бал 4.6 — деякі рецензенти поставили 3 або 4 зірки. Але 120 відгуків означають, що формула довіряє її власним даним на 70.6%. Її відображуваний рейтинг 4.45 набагато ближчий до реальності, і алгоритм Google ранжуватиме його вище, ніж номінальний 5.0 компанії А. Кількість здобуває довіру. Довіра здобуває видимість.
Симуляція: «Наївне» середнє проти баєсівського зваженого рейтингу
// simulation.naive_vs_bayesian_comparison
У таблиці нижче застосовано формулу до шести сценаріїв з C = 4.1 та m = 50. Стовпець «Різниця» показує, наскільки баєсівський рейтинг відрізняється від «наївного» середнього. Зверніть увагу, як розрив зменшується зі зростанням кількості відгуків — це апріорне значення втрачає вплив у міру накопичення доказів.
Найцікавіший рядок — останній: компанія з лише 5 відгуками, але жахливим «сирим» середнім балом 2.0 насправді відображає 3.85 — підтягнутий майже на дві повні зірки середнім значенням по категорії. Це зроблено навмисно. Система відмовляється прирікати бізнес на забуття на основі п'яти точок даних. Вона схиляється до середнього, доки вибірка не стане достатньо великою, щоб викликати довіру.
Цей ефект пом'якшення негативних викидів є причиною того, чому «бомбардування відгуками» — скоординована кампанія фейкових негативних відгуків — є менш катастрофічним, ніж здається на перший погляд. Алгоритм протистоїть екстремальним результатам, коли кількість відгуків недостатня для їх обґрунтування. Проте, системи виявлення аномалій Google також відстежують кампанії з відгуками, що мають швидку динаміку в обох напрямках.
Додаткові рівні алгоритму Google окрім базової формули
// google_specific.beyond_bayesian_math
Баєсівська формула пояснює основу, але реальна система Google додає щонайменше ще три рівні: зменшення ваги за давністю, оцінка довіри до автора відгуку та приглушення аномалій при сплесках активності. Жоден з них не підтверджений офіційно. Всі вони виведені з поведінкових доказів та аналізу патентів.
Уявляйте базову баєсівську формулу як фундамент. Все, що побудовано на ній, робить сигнал більш стійким до маніпуляцій та більш точним у часі. Мета завжди одна: зробити так, щоб відображуваний рейтинг відображав те, що клієнт справді відчув би, якби зайшов сьогодні.
Зважування за давністю — чому ваші останні 90 днів домінують
Google застосовує зменшення ваги з часом до відгуків, надаючи більшу вагу нещодавнім відгукам, ніж старим. Механізм відповідає функції експоненціального затухання, де вплив відгуку зменшується з часом, а не падає до нуля в якусь конкретну дату.[1]
Аналіз поведінки рейтингів Google, проведений спільнотою, постійно виявляє, що відгуки, опубліковані понад 12–18 місяців тому, мають приблизно на 30–50% менший вплив, ніж відгук, опублікований минулого тижня. 5-зірковий відгук трирічної давності все ще враховується — просто він важить менше. Це означає, що бізнес, який зібрав 80 відгуків у 2022 році і відтоді не отримав жодного, живе за рахунок застарілого сигналу.
Довіра до автора — чому відгук Місцевого експерта 7-го рівня має більшу вагу
Ієрархія довіри Google до авторів відгуків виводиться з його патентного портфоліо та спостережуваної поведінки. Патент US8818995B1 описує систему ранжування пошуку, яка зважує внески за рівнем довіри до суб'єкта, що їх робить. У застосуванні до відгуків: Місцевий експерт 7-го рівня з сотнями детальних відгуків у різних категоріях бізнесу реєструється як вузол з високим рівнем довіри.[2]
Практичний ефект: 5-зірковий відгук від Місцевого експерта 7-го рівня, ймовірно, має більшу вагу, ніж 5-зірковий відгук від акаунта, створеного вчора без історії відгуків. Справа не в зірковому значенні — обидва враховуються як 5 у чисельнику. Але вага, що застосовується до кожного перед усередненням, різна. Google ніколи публічно не кількісно оцінював цю різницю.
Приглушення аномалій — що відбувається, коли за тиждень надходить 40 відгуків
Сплески активності активують окремий рівень виявлення. Якщо бізнес отримує 40 відгуків за 72 години, коли його базовий рівень становить 2–3 на місяць, системи Google позначають цей патерн. Результатом є не автоматичне видалення, а карантин. Нові відгуки перестають з'являтися у відображуваній кількості та рейтингу, поки система проводить розслідування.[3]
Цей механізм пояснює, чому компанії, які масово купують кампанії з відгуками, часто не бачать видимого покращення — або тимчасово бачать падіння рейтингів своїх профілів, оскільки старі автентичні відгуки залишаються видимими, а нова партія перебуває у «підвішеному» стані. Алгоритм спеціально налаштований не довіряти раптовим змінам обсягу, що відхиляються від встановлених базових показників.
До і після: що насправді змінює кількість відгуків
// practical_impact.before_and_after_scenarios
Два сценарії в стилі реального світу, щоб проілюструвати, як формула поводиться з часом. Жоден з них не є вигаданим — ці закономірності неодноразово з'являються в кейсах від фахівців з управління репутацією.
Сценарій зі стоматологом демонструє основну ідею баєсівського рейтингу: нижчий «сирий» середній бал з високою довірою перемагає вищий «сирий» середній бал з низькою довірою. Відображуваний рейтинг знизився (з номінальних 4.9 до відображуваних 4.58), але позиція в ранжуванні покращилася, оскільки ваговий коефіцієнт довіри тепер реальний.
Сценарій зі сплеском у ресторані ілюструє, чому важливий органічний ритм. Системи Google відкалібровані для виявлення неприродної динаміки. Сорок відгуків за тиждень, за якими слідують два місяці тиші, не просто виглядають підозріло — приглушена ефективна кількість означає, що ви витратили гроші і майже нічого не отримали. Математика карає за це двічі: виявлення аномалій зменшує видиму кількість, а зменшення ваги за давністю означає, що відгуки періоду сплеску починають негайно згасати.
Альтернативні підходи: оцінка Вільсона та модель Діріхле
// related_approaches.wilson_score_dirichlet
Баєсівське усереднення — не єдиний статистично обґрунтований підхід. Есе Евана Міллера 2009 року «Як не варто сортувати за середнім рейтингом» популяризувало інший метод: нижня межа довірчого інтервалу оцінки Вільсона. Reddit застосував його для ранжування коментарів. Yelp використовує його варіацію.
Оцінка Вільсона ставить інше питання, ніж баєсівське усереднення. Замість «змішай мої дані з апріорним значенням», вона запитує: «враховуючи наявні рейтинги, якою є найгірша ймовірна справжня якість з 95% впевненістю?» Це дає консервативну оцінку, яка ще агресивніше карає за невизначеність при дуже низькій кількості відгуків, ніж баєсівське усереднення.
Третій підхід — модель Діріхле-Мультиноміальна — розглядає всі п'ять значень зірок як окремі категорії, а не як єдину безперервну шкалу. District Data Labs задокументували цей підхід для багатозіркових систем. Він математично більш коректний, ніж формула IMDB (яка неявно розглядає зірки як лінійну шкалу), але обчислювально складніший. Для практичних цілей поведінкова різниця між баєсівським усередненням та моделлю Діріхле стає незначною при кількості відгуків понад 30.
Що це означає для вашої бізнес-стратегії
// strategic_implications.for_business_owners
Розуміння математики перетворює абстрактну пораду («отримуйте більше відгуків») на кількісно визначену стратегію. Кожен бізнес існує десь на спектрі v/(v+m). Знання того, де ви знаходитесь, говорить вам, наскільки ваш наступний відгук реально впливає на ситуацію.
Якщо v = 8 і m = 50, один новий 5-зірковий відгук зміщує ваш ваговий коефіцієнт довіри з 8/58 = 0.138 до 9/59 = 0.153. Цей зсув на 1.5 процентних пункти є значущим. Якщо v = 300 і m = 50, той самий відгук зміщує вас з 300/350 = 0.857 до 301/351 = 0.858 — ледь помітно. Обсяг на ранньому етапі має вдесятеро більший математичний вплив, ніж обсяг у великих масштабах.
Як розрахувати зважений середній зірковий рейтинг для власного бізнесу
Ви можете самостійно виконати розрахунок у таблиці. Візьміть вашу поточну кількість відгуків як v. Оцініть m для вашої категорії, подивившись, яку кількість відгуків підтримують топ-3 компанії у вашій категорії на Google Maps — 25-й перцентиль цього розподілу є розумною оцінкою m. Ваш поточний відображуваний рейтинг, ймовірно, вже є результатом WR; ваш «наївний» середній — це проста сума, поділена на кількість у вашому бекенді.
Розрахунок, який вас цікавить, — це граничний вплив наступних N відгуків. Змоделюйте це: збільште v на 10, перерахуйте WR, спостерігайте за різницею. Зробіть це для діапазону значень v, щоб побудувати криву чутливості. Найкрутіша частина цієї кривої — де кожен додатковий відгук дає найбільше покращення WR — це те місце, де ви повинні зосередити свої зусилля зі збору відгуків.
Чому давність означає, що швидкість надходження відгуків важливіша за їх загальну кількість
Коли ви розумієте зменшення ваги за давністю, ціль оптимізації зміщується. Справа не лише в загальному обсязі — а в обсязі, розподіленому в часі. Бізнес з 400 відгуками, зібраними за п'ять років, і нічого за останні 18 місяців, фактично працює на меншій ефективній вибірці, ніж свідчать цифри. Відгуки, що втратили вагу, менше впливають на поточне зважене середнє.
Послідовна генерація відгуків — навіть у скромних обсягах — з часом накопичується так, як ніколи не зможе разове масове залучення. Вісім нових відгуків на місяць протягом дванадцяти місяців перевершують 96 відгуків за один місяць майже за всіма релевантними показниками: баєсівська довіра, проходження перевірки на аномалії, траєкторія зменшення ваги за давністю та сприйняття довіри споживачами.
Часті запитання
// faq.frequently_asked_questions
Зіркові рейтинги — це не те, чим вони здаються на перший погляд. Число, яке відображає Google, є результатом статистичної моделі, розробленої для протистояння маніпуляціям, врахування невизначеності та винагороди за стабільну якість з часом. Розуміння математики не вимагає наукового ступеня зі статистики — воно вимагає прийняття того, що три 5-зіркові відгуки не варті стільки ж, скільки 120 автентичних відгуків із середнім балом 4.6. Формула робить це очевидним. Що ви робите з цим розумінням — це і є стратегія.
Ваш рейтинг — це математична задача. Ми можемо допомогти її вирішити.
Баєсівська формула винагороджує за кількість відгуків, накопичену з часом. Кожен новий відгук зміщує ваговий коефіцієнт довіри у правильному напрямку — і ефект накопичується.
Почніть нарощувати кількість відгуків


