Cómo calcula Google realmente tu puntuación de estrellas (no es un promedio)
La matemática bayesiana detrás de las reseñas ponderadas, la pérdida de relevancia por antigüedad y por qué tu puntuación mostrada casi seguro difiere de tu media aritmética. Explicado con fórmulas reales y cálculos prácticos.
Hay algo que la mayoría de los dueños de negocios descubren por las malas: puedes conseguir veinte reseñas de cinco estrellas consecutivas y ver cómo tu puntuación apenas se mueve. O peor: pasas seis meses mejorando tu servicio, finalmente superas las 50 reseñas y te das cuenta de que tu promedio de 4.8 de alguna manera se ha establecido en 4.3 en Google Maps. Las matemáticas no están mal. Están funcionando exactamente como fueron diseñadas. Simplemente no te dijeron cuál era el diseño.
Google nunca ha publicado su algoritmo de calificación. Pero entre la fórmula bayesiana documentada públicamente de IMDB, la documentación de calificación de Algolia, la investigación académica sobre sistemas de reseñas y años de profesionales haciendo ingeniería inversa de los cambios de calificación visibles, la mecánica se entiende bien. Este artículo explica las matemáticas, correctamente, con números reales.
El problema con los promedios simples
// naive_average.failure_modes
Empecemos con qué es un promedio simple y por qué falla. La media aritmética de un conjunto de calificaciones es simplemente la suma dividida por el número de elementos. Tres reseñas de 5, 4 y 5 dan (5+4+5)/3 = 4.67. Eso es matemáticamente correcto. También es estadísticamente engañoso cuando el objetivo es clasificar miles de negocios entre sí.
Los modos de fallo se acumulan rápidamente a gran escala. Un restaurante que abrió la semana pasada con tres reseñas de amigos entusiastas obtendrá una puntuación más alta que un competidor establecido con 200 reseñas y un promedio de 4.4, aunque el lugar establecido representa una señal dramáticamente más confiable. Cualquier sistema de clasificación que permita esto será manipulado hasta la irrelevancia en cuestión de meses.
Cómo funciona en la práctica el cálculo de la puntuación de estrellas de Google
Piensa en la calificación bayesiana como un promedio ponderado por la confianza. Cuando tienes muy pocas reseñas, el sistema no confía lo suficiente en tu muestra como para mostrarla a su valor nominal. En su lugar, mezcla tu promedio bruto con un prior, una expectativa predeterminada basada en todos los negocios similares. Cuantas más reseñas acumules, más confiará el sistema en tus propios datos y menos importará el prior.
IMDB utiliza exactamente este enfoque para su lista Top 250 y documentó la fórmula públicamente: WR = (v/(v+m)) × R + (m/(v+m)) × C. Las variables son elegantemente simples, pero las implicaciones de comportamiento tardan un momento en absorberse por completo. La misma estructura matemática aparece en la documentación de clasificación de Algolia, en la literatura académica sobre sistemas de reseñas y en el trabajo de ingeniería inversa realizado por profesionales de SEO que estudian la clasificación local de Google.
La fórmula del promedio bayesiano, explicada
// bayesian_average.formula_derivation
La fórmula WR = (v/(v+m)) × R + (m/(v+m)) × C es una mezcla ponderada de dos cantidades: el promedio observado de tu propio negocio (R) y la media de toda la categoría (C). Los pesos se determinan por cuántas reseñas tienes (v) en relación con un umbral mínimo de credibilidad (m).
Observa que (v/(v+m)) + (m/(v+m)) siempre es igual a 1.0. Estos dos pesos suman el 100%: siempre estás interpolando entre tus propios datos y el prior. La única pregunta es cuánto de cada uno. Cuando v es pequeño en relación con m, el prior domina. Cuando v es grande en relación con m, tus propias reseñas dominan.
El umbral m es el parámetro que codifica los requisitos de confianza de la plataforma. IMDB establece m en aproximadamente 25,000 votos para su cálculo del Top 250. Una cafetería de barrio en Google no compite en el mismo universo estadístico que Avatar, por lo que m se establece mucho más bajo; los profesionales generalmente estiman m en el rango de 5 a 50 para los perfiles de negocio locales de Google, variando según la categoría y el mercado geográfico.
La media de la categoría C es la variable más subestimada. No es una constante global fija. Es casi seguro que Google calcula C dinámicamente, por categoría, por ciudad, quizás por contexto de búsqueda. Un dentista en San Francisco se compara con otros dentistas de San Francisco, no con restaurantes en la zona rural de Montana. Esto significa que tu base bayesiana es específica de la categoría.
Por qué la fórmula de puntuación de estrellas ponderada es importante para tu SEO
La implicación práctica es que conseguir tus primeras 50 reseñas importa desproporcionadamente más que conseguir las reseñas 51 a 150. Cada reseña por debajo del umbral de credibilidad m tiene un impacto descomunal porque cambia significativamente el coeficiente (v/(v+m)). Pasar de v=5 a v=10 duplica tu peso de confianza. Pasar de v=150 a v=155 es apenas medible.
Esto explica un patrón contraintuitivo que los profesionales observan repetidamente: un negocio pasa de 3 a 30 reseñas y ve cómo su puntuación mostrada cae de 5.0 a 4.6, incluso cuando las nuevas reseñas también son positivas. Las matemáticas son correctas. El 5.0 inicial era una ficción bayesiana. El 4.6 es la primera estimación honesta.
Cálculo paso a paso: un recorrido práctico
// step_by_step.numerical_walkthrough
Dos ejemplos prácticos, utilizando una media de categoría realista de C = 4.1 y un umbral mínimo de m = 50. Estas son estimaciones plausibles para una categoría de servicio local moderadamente competitiva (fontaneros, dentistas, talleres de reparación de automóviles). Introduce diferentes valores para modelar tu propia categoría.
El Negocio A tiene una puntuación bruta perfecta: cada reseñador le dio 5 estrellas. Pero con solo 3 reseñas, la fórmula confía en sus propios datos solo un 5.7%. El 94.3% restante de su puntuación mostrada proviene de la media de la categoría de 4.1. Resultado: 4.15. No el 5.0 que parece merecer.
El Negocio B tiene un promedio bruto más bajo, 4.6; algunos reseñadores le dieron 3 o 4 estrellas. Pero 120 reseñas significan que la fórmula confía en sus propios datos en un 70.6%. Su puntuación mostrada de 4.45 está mucho más cerca de la realidad y será clasificada más alto por el algoritmo de Google que el 5.0 nominal del Negocio A. El volumen gana credibilidad. La credibilidad gana visibilidad.
Simulación: Promedio simple vs. Puntuación ponderada bayesiana
// simulation.naive_vs_bayesian_comparison
La siguiente tabla aplica la fórmula a seis escenarios con C = 4.1 y m = 50. La columna Delta muestra cuánto difiere la puntuación bayesiana del promedio simple. Observa cómo la brecha se reduce a medida que aumenta el número de reseñas: esa es la influencia del prior que disminuye a medida que se acumula la evidencia.
La fila más interesante es la última: un negocio con solo 5 reseñas pero un terrible promedio bruto de 2.0 en realidad muestra 3.85, elevado casi dos estrellas completas por la media de la categoría. Esto es intencionado. El sistema se niega a condenar un negocio al olvido basándose en cinco puntos de datos. Se inclina hacia la media hasta que la muestra es lo suficientemente grande como para justificar la confianza.
Este efecto de amortiguación sobre los valores atípicos negativos es la razón por la que el bombardeo de reseñas (una campaña coordinada de reseñas negativas falsas) es menos catastrófico de lo que parece a simple vista. El algoritmo se resiste a resultados extremos cuando el número de reseñas es insuficiente para justificarlos. Dicho esto, los sistemas de detección de anomalías de Google también marcan las campañas de reseñas de rápida velocidad en ambas direcciones.
Las capas adicionales de Google más allá de la fórmula básica
// google_specific.beyond_bayesian_math
La fórmula bayesiana explica la línea de base, pero el sistema real de Google añade al menos tres capas más: decaimiento por antigüedad, puntuación de confianza del contribuidor y amortiguación de anomalías para picos de velocidad. Ninguna de estas está confirmada oficialmente. Todas se infieren de la evidencia de comportamiento y el análisis de patentes.
Piensa en la fórmula bayesiana base como el cimiento. Todo lo que se construye sobre ella hace que la señal sea más resistente a la manipulación y más precisa temporalmente. El objetivo es siempre el mismo: hacer que la calificación mostrada refleje lo que un cliente experimentaría genuinamente si entrara hoy.
Ponderación por antigüedad: por qué tus últimos 90 días dominan
Google aplica un decaimiento temporal a las reseñas, dando más peso a los comentarios recientes que a las entradas más antiguas. El mecanismo es consistente con una función de decaimiento exponencial, donde la influencia de una reseña disminuye con el tiempo en lugar de caer a cero en una fecha de corte estricta.[1]
El análisis de la comunidad sobre el comportamiento de las calificaciones de Google encuentra consistentemente que las reseñas publicadas hace más de 12-18 meses tienen aproximadamente un 30-50% menos de influencia que una reseña publicada la semana pasada. Una reseña de 5 estrellas de hace tres años todavía se cuenta, solo que se cuenta menos. Esto significa que un negocio que recopiló 80 reseñas en 2022 y no ha recibido ninguna desde entonces está viviendo de una señal prestada.
Confianza en el contribuidor: por qué la reseña de un Local Guide de nivel 7 tiene más impacto
La jerarquía de confianza de Google para los reseñadores se infiere de su cartera de patentes y del comportamiento observable. La patente US8818995B1 describe un sistema de clasificación de búsqueda que pondera las contribuciones según el nivel de confianza de la entidad que las realiza. Aplicado a las reseñas: un Local Guide de Nivel 7 con cientos de reseñas detalladas en múltiples categorías de negocios se registra como un nodo de alta confianza.[2]
El efecto práctico: una reseña de 5 estrellas de un Local Guide de Nivel 7 probablemente se pondera más que una reseña de 5 estrellas de una cuenta creada ayer sin historial de reseñas. No se trata del valor de la estrella, ambas cuentan como 5 en el numerador. Pero el peso aplicado a cada una antes de promediar difiere. Google nunca ha cuantificado esta diferencia públicamente.
Amortiguación de anomalías: qué pasa cuando llegan 40 reseñas en una semana
Los picos de velocidad activan una capa de detección separada. Si un negocio recibe 40 reseñas en 72 horas cuando su línea de base es de 2-3 por mes, los sistemas de Google marcan este patrón. El resultado no es la eliminación automática, es la cuarentena. Las nuevas reseñas dejan de aparecer en el recuento y la calificación mostrados mientras el sistema investiga.[3]
Este mecanismo explica por qué los negocios que compran campañas de reseñas a granel a menudo no ven ninguna mejora visible, o ven temporalmente cómo las calificaciones de su perfil bajan mientras las reseñas auténticas más antiguas permanecen visibles pero el nuevo lote se queda en el limbo de revisión. El algoritmo está específicamente ajustado para desconfiar de las inflexiones de volumen repentinas que se desvían de las líneas de base establecidas.
Antes y después: lo que realmente cambia el volumen de reseñas
// practical_impact.before_and_after_scenarios
Dos escenarios de estilo real para ilustrar cómo se comporta la fórmula con el tiempo. Ninguno es ficticio: estos patrones aparecen repetidamente en estudios de caso de profesionales de la gestión de la reputación.
El escenario del dentista demuestra la idea central de la calificación bayesiana: un promedio bruto más bajo con alta confianza supera a un promedio bruto más alto con baja confianza. La puntuación mostrada bajó (de un nominal 4.9 a un mostrado 4.58) pero la posición en el ranking mejoró porque el peso de confianza ahora es real.
El escenario del pico del restaurante ilustra por qué la cadencia orgánica importa. Los sistemas de Google están calibrados para detectar una velocidad no natural. Cuarenta reseñas en una semana seguidas de dos meses de silencio no solo parece sospechoso: el recuento efectivo amortiguado significa que gastaste dinero y no ganaste casi nada. Las matemáticas lo castigan dos veces: la detección de anomalías reduce el recuento visible, y el decaimiento por antigüedad significa que las reseñas de la era del pico comienzan a desvanecerse inmediatamente.
Enfoques alternativos: Puntuación de Wilson y modelos de Dirichlet
// related_approaches.wilson_score_dirichlet
El promedio bayesiano no es el único enfoque estadísticamente sólido. El ensayo de Evan Miller de 2009 'How Not to Sort by Average Rating' popularizó un método diferente: el límite inferior del intervalo de confianza de la puntuación de Wilson. Reddit lo adoptó para la clasificación de comentarios. Yelp usa una variación de él.
La puntuación de Wilson hace una pregunta diferente a la del promedio bayesiano. En lugar de 'mezclar mis datos con un prior', pregunta: 'dados los ratings que tengo, ¿cuál es la peor calidad verdadera probable con un 95% de confianza?' Esto produce una estimación conservadora que castiga la incertidumbre aún más agresivamente que el promedio bayesiano para recuentos de reseñas muy bajos.
Un tercer enfoque, el modelo Dirichlet-Multinomial, trata los cinco valores de estrellas como categorías separadas en lugar de una única puntuación continua. District Data Labs documentó este enfoque para sistemas de múltiples estrellas. Es matemáticamente más correcto que la fórmula de IMDB (que trata implícitamente las estrellas como una escala lineal) pero computacionalmente más pesado. Para fines prácticos, la diferencia de comportamiento entre el promedio bayesiano y un modelo de Dirichlet se vuelve insignificante por encima de aproximadamente 30 reseñas.
Qué significa esto para tu estrategia de negocio
// strategic_implications.for_business_owners
Entender las matemáticas convierte el consejo abstracto ('consigue más reseñas') en una estrategia cuantificada. Cada negocio existe en algún lugar del espectro v/(v+m). Saber dónde estás te dice cuánto mueve realmente la aguja tu próxima reseña.
Si v = 8 y m = 50, una nueva reseña de 5 estrellas cambia tu peso de confianza de 8/58 = 0.138 a 9/59 = 0.153. Ese cambio de 1.5 puntos porcentuales es significativo. Si v = 300 y m = 50, la misma reseña te cambia de 300/350 = 0.857 a 301/351 = 0.858, apenas detectable. El volumen en la ventana inicial tiene diez veces el impacto matemático que el volumen a gran escala.
Cómo calcular la puntuación de estrellas ponderada para tu propio negocio
Puedes ejecutar la fórmula tú mismo en una hoja de cálculo. Toma tu recuento de reseñas actual como v. Estima la m de tu categoría mirando los recuentos de reseñas que mantienen los 3 mejores negocios en tu categoría de Google Maps; el percentil 25 de esa distribución es una estimación razonable de m. Tu calificación mostrada actual es probablemente ya la salida de WR; tu promedio simple es la suma dividida por el recuento en tu backend.
El cálculo que te importa es el impacto marginal de las próximas N reseñas. Modélalo: aumenta v en 10, recalcula WR, observa el delta. Haz esto en un rango de valores de v para construir una curva de sensibilidad. La parte más empinada de esa curva, donde cada reseña adicional produce la mayor mejora de WR, es donde debes concentrar tu esfuerzo de adquisición de reseñas.
Por qué la antigüedad significa que la velocidad de las reseñas es más importante que el recuento total
Una vez que entiendes el decaimiento por antigüedad, el objetivo de optimización cambia. No se trata solo del volumen total, se trata del volumen distribuido en el tiempo. Un negocio con 400 reseñas recopiladas durante cinco años y nada en los últimos 18 meses está operando efectivamente con una muestra efectiva más pequeña de lo que sugieren los números. Las reseñas decaídas contribuyen menos al promedio ponderado continuo.
La generación constante de reseñas, incluso a tasas modestas, se acumula con el tiempo de maneras que la adquisición masiva nunca logra. Ocho nuevas reseñas por mes durante doce meses superan a 96 reseñas en un solo mes en casi todas las métricas relevantes: confianza bayesiana, aprobación de detección de anomalías, trayectoria de decaimiento por antigüedad y percepción de credibilidad del consumidor.
Preguntas frecuentes
// faq.frequently_asked_questions
Las puntuaciones de estrellas no son lo que parecen a primera vista. El número que Google muestra es el resultado de un modelo estadístico diseñado para resistir la manipulación, tener en cuenta la incertidumbre y premiar la calidad constante a lo largo del tiempo. Entender las matemáticas no requiere un título en estadística, requiere aceptar que tres reseñas de 5 estrellas no valen lo mismo que 120 reseñas auténticas con un promedio de 4.6. La fórmula lo deja claro. Lo que hagas con esta información es la estrategia.
Tu puntuación es un problema matemático. Podemos ayudarte a resolverlo.
La fórmula bayesiana premia el volumen de reseñas acumulado con el tiempo. Cada reseña que generas hoy mueve el peso de confianza en la dirección correcta, y el efecto se acumula.
Empieza a aumentar tu volumen de reseñas


