Как Google на самом деле рассчитывает ваш звездный рейтинг (это не среднее арифметическое)
Байесовская математика взвешенных отзывов, учет давности и почему ваш рейтинг почти наверняка отличается от среднего арифметического — объясняем на реальных формулах и с примерами расчетов.
Вот то, что большинство владельцев бизнеса узнают на горьком опыте: вы можете собрать двадцать пятизвездочных отзывов подряд и увидеть, что ваш отображаемый рейтинг почти не изменился. Или хуже — вы полгода улучшаете сервис, наконец-то преодолеваете отметку в 50 отзывов и понимаете, что ваша средняя оценка 4.8 каким-то образом превратилась в 4.3 на Google Maps. С математикой все в порядке. Она работает именно так, как задумано. Просто вам не рассказали, в чем суть.
Google никогда не публиковал свой алгоритм расчета рейтинга. Но благодаря общедоступной байесовской формуле IMDB, документации по рейтингам Algolia, академическим исследованиям систем отзывов и многолетней практике специалистов, которые анализировали видимые изменения рейтинга, механика хорошо изучена. В этой статье мы разберем эту математику — по-настояшему, с реальными числами.
Проблема с «наивным» средним
// naive_average.failure_modes
Давайте начнем с того, что такое «наивное» среднее и почему оно не работает. Среднее арифметическое для набора оценок — это просто сумма, деленная на их количество. Три отзыва с оценками 5, 4 и 5 дают (5+4+5)/3 = 4.67. Математически это верно. Но это также вводит в заблуждение со статистической точки зрения, когда цель — ранжировать тысячи компаний друг против друга.
При больших масштабах недостатки такого подхода быстро накапливаются. Ресторан, открывшийся на прошлой неделе с тремя отзывами от восторженных друзей, получит более высокий балл, чем устоявшийся конкурент с 200 отзывами и средней оценкой 4.4 — хотя данные по старому заведению представляют собой гораздо более надежный сигнал. Любая система ранжирования, допускающая такое, за несколько месяцев будет доведена до абсурда и бесполезности.
Как расчет звездного рейтинга Google работает на практике
Представьте байесовский рейтинг как среднее, взвешенное по уровню доверия. Когда у вас очень мало отзывов, система не доверяет вашей выборке настолько, чтобы отображать ее как есть. Вместо этого она смешивает ваше «сырое» среднее с априорной оценкой — стандартным ожиданием, основанным на всех похожих компаниях. Чем больше отзывов вы накапливаете, тем больше система доверяет вашим собственным данным и тем меньше значит априорная оценка.
IMDB использует именно такой подход для своего списка Top 250 и опубликовал формулу: WR = (v/(v+m)) × R + (m/(v+m)) × C. Переменные элегантно просты, но чтобы полностью осознать их поведенческие последствия, нужно время. Та же математическая структура встречается в документации по ранжированию Algolia, в научной литературе о системах отзывов и в работах SEO-специалистов, изучающих локальное ранжирование Google.
Объяснение формулы байесовского среднего
// bayesian_average.formula_derivation
Формула WR = (v/(v+m)) × R + (m/(v+m)) × C представляет собой взвешенную смесь двух величин: наблюдаемого среднего вашей компании (R) и среднего по всей категории (C). Веса определяются тем, сколько у вас отзывов (v) относительно минимального порога доверия (m).
Обратите внимание, что (v/(v+m)) + (m/(v+m)) всегда равно 1.0. Эти два веса в сумме дают 100% — вы всегда интерполируете между вашими собственными данными и априорной оценкой. Вопрос лишь в том, в какой пропорции. Когда v очень мало по сравнению с m, доминирует априорная оценка. Когда v велико по сравнению с m, доминируют ваши собственные отзывы.
Порог m — это параметр, который кодирует требования платформы к достоверности. IMDB устанавливает m примерно на уровне 25 000 голосов для расчета своего Top 250. Кафе по соседству в Google не конкурирует в той же статистической вселенной, что и «Аватар», поэтому m устанавливается намного ниже — специалисты обычно оценивают m в диапазоне от 5 до 50 для локальных профилей Google, в зависимости от категории и географического рынка.
Среднее по категории C — самая недооцененная переменная. Это не фиксированная глобальная константа. Google почти наверняка рассчитывает C динамически — для каждой категории, каждого города, возможно, для каждого поискового контекста. Дантиста в Сан-Франциско сравнивают с другими дантистами в Сан-Франциско, а не с ресторанами в сельской местности Монтаны. Это означает, что ваш байесовский «пол» зависит от категории.
Почему формула взвешенного звездного рейтинга важна для вашего SEO
Практический вывод таков: получение первых 50 отзывов непропорционально важнее, чем получение отзывов с 51-го по 150-й. Каждый отзыв ниже порога доверия m оказывает огромное влияние, потому что он значительно сдвигает коэффициент (v/(v+m)). Переход с v=5 на v=10 удваивает ваш весовой коэффициент доверия. Переход с v=150 на v=155 едва заметен.
Это объясняет парадоксальную закономерность, которую постоянно наблюдают специалисты: у компании количество отзывов вырастает с 3 до 30, а ее отображаемый рейтинг падает с 5.0 до 4.6 — даже если новые отзывы тоже положительные. Математика верна. Ранний рейтинг 5.0 был байесовской фикцией. 4.6 — это первая честная оценка.
Пошаговый пример расчета
// step_by_step.numerical_walkthrough
Два разобранных примера с использованием реалистичного среднего по категории C = 4.1 и минимального порога m = 50. Это правдоподобные оценки для умеренно конкурентной категории местных услуг (сантехники, стоматологи, автомастерские). Подставьте другие значения, чтобы смоделировать вашу собственную категорию.
Компания А имеет идеальную «сырую» оценку — каждый оставивший отзыв поставил 5 звезд. Но всего с 3 отзывами формула доверяет ее собственным данным лишь на 5.7%. Остальные 94.3% ее отображаемого рейтинга берутся из среднего по категории, равного 4.1. Результат: 4.15. А не 5.0, которых она, казалось бы, заслуживает.
У компании B более низкое «сырое» среднее — 4.6, так как некоторые поставили 3 или 4 звезды. Но 120 отзывов означают, что формула доверяет ее собственным данным на 70.6%. Ее отображаемый рейтинг 4.45 гораздо ближе к реальности и будет ранжироваться алгоритмом Google выше, чем номинальные 5.0 компании А. Количество порождает доверие. Доверие порождает видимость.
Симуляция: «наивное» среднее против байесовского взвешенного рейтинга
// simulation.naive_vs_bayesian_comparison
В таблице ниже формула применяется к шести сценариям с C = 4.1 и m = 50. Колонка «Дельта» показывает, насколько байесовская оценка отличается от «наивного» среднего. Обратите внимание, как разрыв сокращается по мере роста количества отзывов — это априорная оценка теряет влияние по мере накопления данных.
Самая интересная строка — последняя: компания всего с 5 отзывами, но с ужасным «сырым» средним 2.0, на самом деле отображает 3.85 — ее «подтянули» почти на две полные звезды за счет среднего по категории. Это сделано намеренно. Система не позволяет отправить компанию в небытие на основе пяти точек данных. Она стремится к среднему, пока выборка не станет достаточно большой, чтобы вызывать доверие.
Этот сглаживающий эффект на негативные выбросы является причиной, почему «ревью-бомбинг» — скоординированная кампания фейковых негативных отзывов — менее катастрофичен, чем кажется на первый взгляд. Алгоритм сопротивляется экстремальным результатам, когда количество отзывов недостаточно, чтобы их оправдать. Тем не менее, системы обнаружения аномалий Google также отмечают кампании с высокой скоростью появления отзывов в обоих направлениях.
Дополнительные уровни Google поверх базовой формулы
// google_specific.beyond_bayesian_math
Байесовская формула объясняет основу, но реальная система Google добавляет как минимум еще три уровня: учет давности, оценка доверия к автору и сглаживание аномалий при всплесках скорости. Ни один из них не подтвержден официально. Все они выведены из поведенческих данных и анализа патентов.
Считайте базовую байесовскую формулу фундаментом. Все, что построено поверх нее, делает сигнал более устойчивым к манипуляциям и более точным во времени. Цель всегда одна: сделать так, чтобы отображаемый рейтинг отражал то, что клиент действительно испытал бы, зайдя сегодня.
Учет давности — почему последние 90 дней доминируют
Google применяет временной спад к отзывам, придавая больший вес свежим отзывам по сравнению со старыми. Механизм соответствует функции экспоненциального затухания, где влияние отзыва со временем уменьшается, а не падает до нуля в определенную дату.[1]
Анализ поведения рейтинга Google, проводимый сообществом, постоянно показывает, что отзывы, оставленные более 12–18 месяцев назад, имеют примерно на 30–50% меньше влияния, чем отзыв, оставленный на прошлой неделе. Пятизвездочный отзыв трехлетней давности все еще учитывается — просто с меньшим весом. Это означает, что бизнес, собравший 80 отзывов в 2022 году и с тех пор не получивший ни одного, живет за счет «заимствованного» сигнала.
Доверие к автору — почему отзыв «Местного эксперта 7 уровня» имеет больший вес
Иерархия доверия Google к авторам отзывов выводится из его портфеля патентов и наблюдаемого поведения. Патент US8818995B1 описывает систему поискового ранжирования, которая взвешивает вклад в зависимости от уровня доверия к субъекту. В применении к отзывам: «Местный эксперт 7 уровня» с сотнями подробных отзывов в разных категориях бизнеса регистрируется как узел с высоким уровнем доверия.[2]
Практический эффект: 5-звездочный отзыв от «Местного эксперта 7 уровня», скорее всего, будет иметь больший вес, чем 5-звездочный отзыв от аккаунта, созданного вчера и не имеющего истории отзывов. Дело не в значении звезды — оба учитываются как 5 в числителе. Но вес, применяемый к каждому из них перед усреднением, различается. Google никогда публично не раскрывал эту разницу в цифрах.
Сглаживание аномалий — что происходит, когда за неделю приходит 40 отзывов
Всплески скорости запускают отдельный уровень обнаружения. Если компания получает 40 отзывов за 72 часа при своей норме в 2–3 отзыва в месяц, системы Google отмечают этот паттерн. Результатом является не автоматическое удаление, а карантин. Новые отзывы перестают отображаться в общем количестве и рейтинге, пока система проводит расследование.[3]
Этот механизм объясняет, почему компании, которые массово покупают кампании по сбору отзывов, часто не видят видимых улучшений — или временно видят падение рейтинга своего профиля, так как старые подлинные отзывы остаются видимыми, а новая партия находится в «подвешенном» состоянии. Алгоритм специально настроен на недоверие к внезапным скачкам объема, которые отклоняются от установленных базовых показателей.
До и после: что на самом деле меняет количество отзывов
// practical_impact.before_and_after_scenarios
Два сценария в стиле «из реальной жизни», чтобы проиллюстрировать, как формула ведет себя со временем. Ни один из них не вымышлен — эти закономерности постоянно встречаются в кейсах специалистов по управлению репутацией.
Сценарий со стоматологом демонстрирует ключевую идею байесовского рейтинга: более низкое «сырое» среднее с высокой степенью достоверности превосходит более высокое «сырое» среднее с низкой степенью достоверности. Отображаемая оценка снизилась (с номинальных 4.9 до 4.58), но позиция в рейтинге улучшилась, потому что весовой коэффициент доверия теперь реален.
Сценарий со всплеском у ресторана иллюстрирует, почему важен органический темп. Системы Google откалиброваны для обнаружения неестественной скорости. Сорок отзывов за неделю, за которыми следуют два месяца тишины, не просто выглядят подозрительно — уменьшенное эффективное количество означает, что вы потратили деньги и почти ничего не получили. Математика наказывает за это дважды: обнаружение аномалий снижает видимое количество, а учет давности означает, что отзывы периода всплеска начинают немедленно устаревать.
Альтернативные подходы: оценка Вильсона и модели Дирихле
// related_approaches.wilson_score_dirichlet
Байесовское усреднение — не единственный статистически обоснованный подход. Эссе Эвана Миллера 2009 года «Как не надо сортировать по среднему рейтингу» популяризировало другой метод: нижнюю границу доверительного интервала оценки Вильсона. Reddit принял его для ранжирования комментариев. Yelp использует его вариацию.
Оценка Вильсона задает другой вопрос, нежели байесовское усреднение. Вместо «смешать мои данные с априорной оценкой», она спрашивает: «учитывая имеющиеся у меня оценки, каково, скорее всего, наихудшее истинное качество с 95% уверенностью?» Это дает консервативную оценку, которая наказывает за неопределенность еще более агрессивно, чем байесовское усреднение при очень малом количестве отзывов.
Третий подход — модель Дирихле-мультиномиальная — рассматривает все пять значений звезд как отдельные категории, а не как единую непрерывную оценку. District Data Labs задокументировали этот подход для многозвездочных систем. Он математически более корректен, чем формула IMDB (которая неявно рассматривает звезды как линейную шкалу), но более ресурсоемок в вычислениях. Для практических целей поведенческая разница между байесовским усреднением и моделью Дирихле становится незначительной при количестве отзывов примерно выше 30.
Что это означает для вашей бизнес-стратегии
// strategic_implications.for_business_owners
Понимание математики превращает абстрактный совет («получайте больше отзывов») в количественную стратегию. Каждый бизнес находится где-то на спектре v/(v+m). Знание вашего положения говорит о том, насколько сильно ваш следующий отзыв на самом деле изменит ситуацию.
Если v = 8 и m = 50, один новый 5-звездочный отзыв смещает ваш весовой коэффициент доверия с 8/58 = 0.138 до 9/59 = 0.153. Этот сдвиг на 1.5 процентных пункта является значимым. Если v = 300 и m = 50, тот же отзыв смещает вас с 300/350 = 0.857 до 301/351 = 0.858 — едва заметно. Объем в раннем окне имеет в десять раз больший математический эффект, чем объем в больших масштабах.
Как рассчитать взвешенный средний звездный рейтинг для вашего бизнеса
Вы можете самостоятельно применить формулу в электронной таблице. Возьмите ваше текущее количество отзывов как v. Оцените m для вашей категории, посмотрев, какое количество отзывов поддерживают топ-3 компании в вашей категории на Google Maps — 25-й перцентиль этого распределения будет разумной оценкой m. Ваш текущий отображаемый рейтинг, скорее всего, уже является результатом WR; ваше «наивное» среднее — это простая сумма, деленная на количество, в вашей панели управления.
Расчет, который вас интересует, — это предельное влияние следующих N отзывов. Смоделируйте это: увеличьте v на 10, пересчитайте WR, посмотрите на дельту. Сделайте это для диапазона значений v, чтобы построить кривую чувствительности. Самая крутая часть этой кривой — где каждый дополнительный отзыв дает наибольшее улучшение WR — это то место, где вы должны сосредоточить свои усилия по сбору отзывов.
Почему из-за учета давности скорость получения отзывов важнее их общего количества
Как только вы поймете механизм учета давности, цель оптимизации смещается. Дело не только в общем объеме, а в объеме, распределенном во времени. Компания с 400 отзывами, собранными за пять лет, и ни одним за последние 18 месяцев, фактически оперирует с меньшей эффективной выборкой, чем показывают цифры. Устаревшие отзывы вносят меньший вклад в текущее взвешенное среднее.
Постоянное получение отзывов — даже в скромных количествах — со временем дает накопительный эффект, которого никогда не даст взрывной сбор. Восемь новых отзывов в месяц в течение двенадцати месяцев превосходят 96 отзывов за один месяц почти по всем значимым показателям: байесовское доверие, прохождение проверки на аномалии, траектория учета давности и восприятие доверия потребителями.
Часто задаваемые вопросы
// faq.frequently_asked_questions
Звездные рейтинги — это не то, чем они кажутся на первый взгляд. Число, которое показывает Google, является результатом статистической модели, разработанной для противодействия манипуляциям, учета неопределенности и вознаграждения за стабильное качество с течением времени. Для понимания математики не требуется ученая степень по статистике — требуется лишь принять, что три 5-звездочных отзыва не стоят столько же, сколько 120 подлинных отзывов со средней оценкой 4.6. Формула делает это очевидным. Что вы сделаете с этим знанием — это и есть стратегия.
Ваш рейтинг — это математическая задача. Мы можем помочь ее решить.
Байесовская формула вознаграждает за объем отзывов, накопленный со временем. Каждый отзыв, который вы получаете сегодня, сдвигает весовой коэффициент доверия в правильном направлении — и эффект накапливается.
Начать наращивать объем отзывов


