Como o Google Realmente Calcula a Sua Classificação por Estrelas (Não é uma Média)
A matemática Bayesiana por trás das avaliações ponderadas, do declínio por tempo e por que a sua classificação exibida quase certamente difere da sua média aritmética — explicado com fórmulas reais e cálculos práticos.
Eis algo que a maioria dos donos de negócios descobre da maneira mais difícil: pode-se obter vinte avaliações de cinco estrelas consecutivas e ver a classificação exibida mal se mover. Ou pior — passa-se seis meses a melhorar o serviço, finalmente chega-se a 50 avaliações e percebe-se que a média de 4.8 de alguma forma se estabeleceu em 4.3 no Google Maps. A matemática não está errada. Está a funcionar exatamente como foi projetada. Apenas não lhe disseram qual era o projeto.
O Google nunca publicou o seu algoritmo de classificação. Mas entre a fórmula Bayesiana publicamente documentada do IMDB, a documentação de classificação da Algolia, a investigação académica sobre sistemas de avaliação e anos de profissionais a fazer engenharia reversa de mudanças visíveis na classificação, a mecânica é bem compreendida. Este artigo explica a matemática — de forma adequada, com números reais.
O Problema com as Médias Simples
// naive_average.failure_modes
Vamos começar por definir o que é uma média simples e por que ela falha. A média aritmética de um conjunto de classificações é simplesmente a soma dividida pela contagem. Três avaliações de 5, 4 e 5 resultam em (5+4+5)/3 = 4.67. Isso está matematicamente correto. É também estatisticamente enganador quando o objetivo é classificar milhares de empresas umas contra as outras.
Os modos de falha acumulam-se rapidamente em grande escala. Um restaurante que abriu na semana passada com três avaliações de amigos entusiastas terá uma pontuação mais alta do que um concorrente estabelecido com 200 avaliações e uma média de 4.4 — mesmo que o estabelecimento estabelecido represente um sinal dramaticamente mais confiável. Qualquer sistema de classificação que permita isso será manipulado até se tornar irrelevante em poucos meses.
Como o cálculo da classificação por estrelas do Google funciona na prática
Pense na classificação Bayesiana como uma média ponderada pela confiança. Quando tem muito poucas avaliações, o sistema não confia na sua amostra o suficiente para a exibir pelo seu valor nominal. Em vez disso, mistura a sua média bruta com uma 'priori' — uma expectativa padrão baseada em todas as empresas semelhantes. Quanto mais avaliações acumula, mais o sistema confia nos seus próprios dados e menos a 'priori' importa.
O IMDB usa exatamente esta abordagem para a sua lista Top 250 e documentou a fórmula publicamente: PC = (v/(v+m)) × R + (m/(v+m)) × C. As variáveis são elegantemente simples, mas as implicações comportamentais levam um momento para serem totalmente absorvidas. A mesma estrutura matemática aparece na documentação de classificação da Algolia, na literatura académica sobre sistemas de avaliação e no trabalho de engenharia reversa feito por profissionais de SEO que estudam a classificação local do Google.
A Fórmula da Média Bayesiana, Explicada
// bayesian_average.formula_derivation
A fórmula PC = (v/(v+m)) × R + (m/(v+m)) × C é uma mistura ponderada de duas quantidades: a média observada da sua empresa (R) e a média de toda a categoria (C). Os pesos são determinados pelo número de avaliações que possui (v) em relação a um limiar mínimo de credibilidade (m).
Note que (v/(v+m)) + (m/(v+m)) é sempre igual a 1.0. Estes dois pesos somam 100% — está-se sempre a interpolar entre os seus próprios dados e a 'priori'. A única questão é quanto de cada um. Quando v é minúsculo em relação a m, a 'priori' domina. Quando v é grande em relação a m, as suas próprias avaliações dominam.
O limiar m é o parâmetro que codifica os requisitos de confiança da plataforma. O IMDB define m em aproximadamente 25.000 votos para o seu cálculo do Top 250. Um café de bairro no Google não está a competir no mesmo universo estatístico que o filme Avatar, então m é definido como muito mais baixo — os profissionais geralmente estimam m no intervalo de 5 a 50 para as listagens locais do Google, variando por categoria e mercado geográfico.
A média da categoria C é a variável mais subestimada. Não é uma constante global fixa. O Google quase certamente calcula C dinamicamente — por categoria, por cidade, talvez por contexto de pesquisa. Um dentista em São Francisco é comparado com outros dentistas de São Francisco, não com restaurantes na zona rural de Montana. Isto significa que o seu piso Bayesiano é específico da categoria.
Por que a fórmula de classificação ponderada por estrelas é importante para o seu SEO
A implicação prática é que obter as suas primeiras 50 avaliações importa desproporcionalmente mais do que obter as avaliações de 51 a 150. Cada avaliação abaixo do limiar de credibilidade m tem um impacto descomunal porque altera significativamente o coeficiente (v/(v+m)). Passar de v=5 para v=10 duplica o seu peso de confiança. Passar de v=150 para v=155 é quase impercetível.
Isto explica um padrão contraintuitivo que os profissionais observam repetidamente: uma empresa passa de 3 para 30 avaliações e vê a sua classificação exibida cair de 5.0 para 4.6 — mesmo quando as novas avaliações também são positivas. A matemática está correta. O 5.0 inicial era uma ficção Bayesiana. O 4.6 é a primeira estimativa honesta.
Cálculo Passo a Passo
// step_by_step.numerical_walkthrough
Dois exemplos práticos, usando uma média de categoria realista de C = 4.1 e um limiar mínimo de m = 50. Estas são estimativas plausíveis para uma categoria de serviço local moderadamente competitiva (canalizadores, dentistas, oficinas de automóveis). Insira valores diferentes para modelar a sua própria categoria.
A Empresa A tem uma pontuação bruta perfeita — todos os avaliadores deram 5 estrelas. Mas com apenas 3 avaliações, a fórmula confia nos seus próprios dados apenas 5.7%. Os restantes 94.3% da sua pontuação exibida vêm da média da categoria de 4.1. Resultado: 4.15. Não o 5.0 que parece merecer.
A Empresa B tem uma média bruta mais baixa de 4.6 — alguns avaliadores deram 3 ou 4 estrelas. Mas 120 avaliações significam que a fórmula confia nos seus próprios dados 70.6%. A sua pontuação exibida de 4.45 está muito mais próxima da realidade e será classificada mais alto pelo algoritmo do Google do que o 5.0 nominal da Empresa A. O volume gera credibilidade. A credibilidade gera visibilidade.
Simulação: Média Simples vs. Classificação Ponderada Bayesiana
// simulation.naive_vs_bayesian_comparison
A tabela abaixo aplica a fórmula em seis cenários com C = 4.1 e m = 50. A coluna Delta mostra o quanto a pontuação Bayesiana difere da média simples. Note como a diferença diminui à medida que o número de avaliações cresce — isso é a 'priori' a perder influência à medida que a evidência se acumula.
A linha mais interessante é a última: uma empresa com apenas 5 avaliações, mas uma média bruta terrível de 2.0, na verdade exibe 3.85 — elevada em quase duas estrelas inteiras pela média da categoria. Isto é propositado. O sistema recusa-se a condenar uma empresa ao esquecimento com base em cinco pontos de dados. Ele tende para a média até que a amostra seja grande o suficiente para garantir confiança.
Este efeito de amortecimento em valores atípicos negativos é o motivo pelo qual o 'review bombing' — uma campanha coordenada de avaliações negativas falsas — é menos catastrófico do que parece à primeira vista. O algoritmo resiste a resultados extremos quando o número de avaliações é insuficiente para os justificar. Dito isto, os sistemas de deteção de anomalias do Google também sinalizam campanhas de avaliação de alta velocidade em ambas as direções.
As Camadas Adicionais do Google Além da Fórmula Básica
// google_specific.beyond_bayesian_math
A fórmula Bayesiana explica a linha de base, mas o sistema real do Google adiciona pelo menos mais três camadas: declínio por tempo, pontuação de confiança do contribuidor e amortecimento de anomalias para picos de velocidade. Nenhuma destas é confirmada oficialmente. Todas são inferidas a partir de evidências comportamentais e análise de patentes.
Pense na fórmula Bayesiana base como a fundação. Tudo o que é construído sobre ela torna o sinal mais resistente à manipulação e mais preciso temporalmente. O objetivo é sempre o mesmo: fazer com que a classificação exibida reflita o que um cliente genuinamente experienciaria se entrasse hoje.
Ponderação por tempo — por que os seus últimos 90 dias dominam
O Google aplica um declínio temporal às avaliações, dando mais peso ao feedback recente do que a entradas mais antigas. O mecanismo é consistente com uma função de decaimento exponencial, onde a influência de uma avaliação diminui ao longo do tempo em vez de cair para zero numa data de corte rígida.[1]
A análise da comunidade sobre o comportamento das classificações do Google consistentemente descobre que avaliações publicadas há mais de 12–18 meses têm cerca de 30–50% menos influência do que uma avaliação publicada na semana passada. Uma avaliação de 5 estrelas de há três anos ainda é contada — apenas é contada com menos peso. Isto significa que uma empresa que recolheu 80 avaliações em 2022 e não obteve mais nenhuma desde então está a viver de um sinal emprestado.
Confiança do contribuidor — por que a avaliação de um Local Guide de Nível 7 tem mais impacto
A hierarquia de confiança do Google para avaliadores é inferida do seu portfólio de patentes e comportamento observável. A patente US8818995B1 descreve um sistema de classificação de pesquisa que pondera as contribuições pelo nível de confiança da entidade que as faz. Aplicado a avaliações: um Local Guide de Nível 7 com centenas de avaliações detalhadas em várias categorias de negócios é registado como um nó de alta confiança.[2]
O efeito prático: uma avaliação de 5 estrelas de um Local Guide de Nível 7 é provavelmente ponderada mais pesadamente do que uma avaliação de 5 estrelas de uma conta criada ontem sem histórico de avaliações. Não se trata do valor da estrela — ambas contam como 5 no numerador. Mas o peso aplicado a cada uma antes da média difere. O Google nunca quantificou essa diferença publicamente.
Amortecimento de anomalias — o que acontece quando 40 avaliações chegam numa semana
Picos de velocidade acionam uma camada de deteção separada. Se uma empresa recebe 40 avaliações em 72 horas quando a sua linha de base é de 2–3 por mês, os sistemas do Google sinalizam este padrão. O resultado não é a exclusão automática — é a quarentena. Novas avaliações deixam de aparecer na contagem e classificação exibidas enquanto o sistema investiga.[3]
Este mecanismo explica por que empresas que compram campanhas de avaliação em massa muitas vezes não veem melhorias visíveis — ou veem temporariamente as classificações do seu perfil cair enquanto as avaliações autênticas mais antigas permanecem visíveis, mas o novo lote fica no limbo da avaliação. O algoritmo está especificamente ajustado para desconfiar de inflexões súbitas de volume que se desviam das linhas de base estabelecidas.
Antes e Depois: O Que o Volume de Avaliações Realmente Muda
// practical_impact.before_and_after_scenarios
Dois cenários de estilo real para ilustrar como a fórmula se comporta ao longo do tempo. Nenhum é fictício — estes padrões aparecem repetidamente em estudos de caso de profissionais de gestão de reputação.
O cenário do dentista demonstra a principal perceção da classificação Bayesiana: uma média bruta mais baixa com alta confiança supera uma média bruta mais alta com baixa confiança. A pontuação exibida diminuiu (de um 4.9 nominal para um 4.58 exibido), mas a posição no ranking melhorou porque o peso da confiança agora é real.
O cenário do pico no restaurante ilustra por que a cadência orgânica é importante. Os sistemas do Google são calibrados para detetar velocidade não natural. Quarenta avaliações numa semana seguidas por dois meses de silêncio não só parece suspeito — a contagem efetiva amortecida significa que gastou dinheiro e não ganhou quase nada. A matemática pune-o duas vezes: a deteção de anomalias reduz a contagem visível, e o declínio por tempo significa que as avaliações da era do pico começam a desvanecer-se imediatamente.
Abordagens Alternativas: Wilson Score e Modelos de Dirichlet
// related_approaches.wilson_score_dirichlet
A média Bayesiana não é a única abordagem estatisticamente sólida. O ensaio de 2009 de Evan Miller, 'How Not to Sort by Average Rating', popularizou um método diferente: o limite inferior do intervalo de confiança do Wilson score. O Reddit adotou-o para a classificação de comentários. O Yelp usa uma variação dele.
O Wilson score faz uma pergunta diferente da média Bayesiana. Em vez de 'misturar os meus dados com uma priori', ele pergunta: 'dadas as classificações que tenho, qual é a pior qualidade verdadeira provável com 95% de confiança?' Isto produz uma estimativa conservadora que pune a incerteza de forma ainda mais agressiva do que a média Bayesiana para contagens de avaliação muito baixas.
Uma terceira abordagem — o modelo Dirichlet-Multinomial — trata todos os cinco valores de estrelas como categorias separadas, em vez de uma única pontuação contínua. A District Data Labs documentou esta abordagem para sistemas multi-estrelas. É matematicamente mais correto do que a fórmula do IMDB (que trata implicitamente as estrelas como uma escala linear), mas computacionalmente mais pesado. Para fins práticos, a diferença comportamental entre a média Bayesiana e um modelo de Dirichlet torna-se negligenciável acima de aproximadamente 30 avaliações.
O Que Isto Significa para a Sua Estratégia de Negócio
// strategic_implications.for_business_owners
Compreender a matemática converte o conselho abstrato ('obtenha mais avaliações') numa estratégia quantificada. Cada negócio existe algures no espectro v/(v+m). Saber onde está diz-lhe o quanto a sua próxima avaliação realmente faz a diferença.
Se v = 8 e m = 50, uma única nova avaliação de 5 estrelas altera o seu peso de confiança de 8/58 = 0.138 para 9/59 = 0.153. Essa mudança de 1.5 pontos percentuais é significativa. Se v = 300 e m = 50, a mesma avaliação altera-o de 300/350 = 0.857 para 301/351 = 0.858 — quase indetetável. O volume na janela inicial tem dez vezes o impacto matemático do volume em escala.
Como calcular a classificação média ponderada por estrelas para o seu próprio negócio
Pode executar a fórmula você mesmo numa folha de cálculo. Use a sua contagem atual de avaliações como v. Estime o m da sua categoria observando as contagens de avaliações que as 3 principais empresas na sua categoria do Google Maps mantêm — o percentil 25 dessa distribuição é uma estimativa razoável de m. A sua classificação exibida atual já é provavelmente o resultado PC; a sua média simples é a soma dividida pela contagem no seu backend.
O cálculo que lhe interessa é o impacto marginal das próximas N avaliações. Modele-o: aumente v em 10, recalcule PC, observe a diferença. Faça isso para uma gama de valores de v para construir uma curva de sensibilidade. A parte mais íngreme dessa curva — onde cada avaliação adicional produz a maior melhoria em PC — é onde deve concentrar o seu esforço de aquisição de avaliações.
Por que o tempo significa que a velocidade de avaliação é mais importante do que a contagem total
Assim que entender o declínio por tempo, o alvo da otimização muda. Não se trata apenas do volume total — trata-se do volume distribuído no tempo. Uma empresa com 400 avaliações recolhidas ao longo de cinco anos e nada nos últimos 18 meses está efetivamente a operar com uma amostra efetiva menor do que os números sugerem. As avaliações decaídas contribuem menos para a média ponderada contínua.
A geração consistente de avaliações — mesmo a taxas modestas — acumula-se ao longo do tempo de maneiras que a aquisição em rajada nunca consegue. Oito novas avaliações por mês durante doze meses superam 96 avaliações num único mês em quase todas as métricas relevantes: confiança Bayesiana, aprovação na deteção de anomalias, trajetória de declínio por tempo e perceção de credibilidade do consumidor.
Perguntas Frequentes
// faq.frequently_asked_questions
As classificações por estrelas não são o que parecem à primeira vista. O número que o Google exibe é o resultado de um modelo estatístico projetado para resistir à manipulação, ter em conta a incerteza e recompensar a qualidade consistente ao longo do tempo. Compreender a matemática não exige um diploma em estatística — exige aceitar que três avaliações de 5 estrelas não valem o mesmo que 120 avaliações autênticas com uma média de 4.6. A fórmula torna isso explícito. O que faz com essa perceção é a estratégia.
A Sua Classificação é um Problema de Matemática. Nós Podemos Ajudar a Resolvê-lo.
A fórmula Bayesiana recompensa o volume de avaliações acumulado ao longo do tempo. Cada avaliação que gera hoje move o seu peso de confiança na direção certa — e o efeito acumula-se.
Comece a Construir Volume de Avaliações


