איך גוגל באמת מחשבת את דירוג הכוכבים שלכם (זה לא ממוצע פשוט)
המתמטיקה הבייסיאנית מאחורי ביקורות משוקללות, דעיכת עדכניות, ולמה הדירוג המוצג שלכם כמעט בוודאות שונה מהממוצע החשבוני — הסבר עם נוסחאות אמיתיות וחישובים לדוגמה.
הנה משהו שרוב בעלי העסקים מגלים בדרך הקשה: אתם יכולים לאסוף עשרים ביקורות חמישה כוכבים רצופות ולראות את הדירוג המוצג שלכם בקושי זז. או גרוע מכך — אתם משקיעים שישה חודשים בשיפור השירות, סוף סוף חוצים את רף 50 הביקורות, ומגלים שהממוצע של 4.8 שלכם התייצב איכשהו על 4.3 ב-Google Maps. המתמטיקה לא שבורה. היא עובדת בדיוק כפי שתוכננה. פשוט לא סיפרו לכם מה היה התכנון.
גוגל מעולם לא פרסמה את אלגוריתם הדירוג שלה. אבל בין הנוסחה הבייסיאנית המתועדת בפומבי של IMDB, תיעוד הדירוג של Algolia, מחקרים אקדמיים על מערכות דירוג, ושנים של אנשי מקצוע שעושים הנדסה הפוכה לשינויי דירוג נראים, המכניקה מובנת היטב. מאמר זה יפרט את המתמטיקה — כמו שצריך, עם מספרים אמיתיים.
הבעיה עם ממוצעים נאיביים
// naive_average.failure_modes
נתחיל במהו ממוצע נאיבי ולמה הוא נכשל. הממוצע החשבוני של קבוצת דירוגים הוא פשוט הסכום חלקי המספר. שלוש ביקורות של 5, 4 ו-5 נותנות (5+4+5)/3 = 4.67. זה נכון מתמטית. זה גם מטעה סטטיסטית כשהמטרה היא לדרג אלפי עסקים זה מול זה.
נקודות הכשל מצטברות במהירות בקנה מידה גדול. מסעדה שנפתחה בשבוע שעבר עם שלוש ביקורות מחברים נלהבים תקבל ציון גבוה יותר ממתחרה מבוסס עם 200 ביקורות בממוצע 4.4 — למרות שהמקום המבוסס מייצג איתות אמין באופן דרמטי יותר. כל מערכת דירוג שמאפשרת זאת תהפוך ללא רלוונטית תוך חודשים ספורים בגלל מניפולציות.
איך חישוב דירוג הכוכבים של גוגל עובד בפועל
חשבו על דירוג בייסיאני כממוצע משוקלל-ביטחון. כשיש לכם מעט מאוד ביקורות, המערכת לא סומכת על המדגם שלכם מספיק כדי להציג אותו כפי שהוא. במקום זאת, היא משלבת את הממוצע הגולמי שלכם עם 'הנחה מוקדמת' (prior) — ציפיית ברירת מחדל המבוססת על כל העסקים הדומים. ככל שאתם צוברים יותר ביקורות, כך המערכת סומכת יותר על הנתונים שלכם וההנחה המוקדמת הופכת לפחות חשובה.
IMDB משתמשת בדיוק בגישה זו לרשימת Top 250 שלה ותיעדה את הנוסחה בפומבי: WR = (v/(v+m)) × R + (m/(v+m)) × C. המשתנים פשוטים ואלגנטיים, אך לוקח רגע להפנים את ההשלכות ההתנהגותיות. אותו מבנה מתמטי מופיע בתיעוד הדירוג של Algolia, בספרות אקדמית על מערכות דירוג, ובעבודת ההנדסה ההפוכה שנעשתה על ידי מומחי SEO שחקרו את הדירוג המקומי של גוגל.
נוסחת הממוצע הבייסיאני, הסבר
// bayesian_average.formula_derivation
הנוסחה WR = (v/(v+m)) × R + (m/(v+m)) × C היא שילוב משוקלל של שתי כמויות: הממוצע הנצפה של העסק שלכם (R) והממוצע הכלל-קטגורי (C). המשקלים נקבעים על פי מספר הביקורות שיש לכם (v) ביחס לסף אמינות מינימלי (m).
שימו לב ש-(v/(v+m)) + (m/(v+m)) תמיד שווה ל-1.0. שני המשקלים הללו מסתכמים ל-100% — אתם תמיד מבצעים אינטרפולציה בין הנתונים שלכם לבין ההנחה המוקדמת. השאלה היחידה היא כמה מכל אחד. כאשר v זעיר ביחס ל-m, ההנחה המוקדמת שולטת. כאשר v גדול ביחס ל-m, הביקורות שלכם שולטות.
הסף m הוא הפרמטר שמקודד את דרישות הביטחון של הפלטפורמה. IMDB קובעת את m בערך ל-25,000 הצבעות עבור חישוב ה-Top 250 שלה. בית קפה שכונתי בגוגל לא מתחרה באותו יקום סטטיסטי כמו 'אווטאר', ולכן m נקבע נמוך בהרבה — אנשי מקצוע מעריכים בדרך כלל ש-m נע בין 5 ל-50 עבור רישומים מקומיים בגוגל, ומשתנה לפי קטגוריה ושוק גיאוגרפי.
הממוצע הקטגורי C הוא המשתנה שהכי פחות מוערך. הוא אינו קבוע גלובלי. גוגל כמעט בוודאות מחשבת את C באופן דינמי — לפי קטגוריה, לפי עיר, אולי לפי הקשר החיפוש. רופא שיניים בתל אביב מושווה לרופאי שיניים אחרים בתל אביב, לא למסעדות בערבה. זה אומר שהרצפה הבייסיאנית שלכם היא ספציפית לקטגוריה.
מדוע נוסחת דירוג הכוכבים המשוקלל חשובה ל-SEO שלכם
ההשלכה המעשית היא שלאיסוף 50 הביקורות הראשונות שלכם יש חשיבות גדולה באופן לא פרופורציונלי מאשר לאיסוף ביקורות 51 עד 150. לכל ביקורת מתחת לסף האמינות m יש השפעה עצומה מכיוון שהיא מזיזה משמעותית את המקדם (v/(v+m)). מעבר מ-v=5 ל-v=10 מכפיל את משקל הביטחון שלכם. מעבר מ-v=150 ל-v=155 בקושי ניתן למדידה.
זה מסביר דפוס לא אינטואיטיבי שאנשי מקצוע רואים שוב ושוב: עסק עובר מ-3 ביקורות ל-30 ביקורות ורואה את הדירוג המוצג שלו יורד מ-5.0 ל-4.6 — גם כשהביקורות החדשות חיוביות גם הן. המתמטיקה נכונה. ה-5.0 המוקדם היה פיקציה בייסיאנית. ה-4.6 הוא האומדן הכן הראשון.
הדרכת חישוב שלב אחר שלב
// step_by_step.numerical_walkthrough
שתי דוגמאות מחושבות, תוך שימוש בממוצע קטגורי ריאליסטי של C = 4.1 וסף מינימלי של m = 50. אלו הערכות סבירות לקטגוריית שירות מקומית תחרותית במידה (אינסטלטורים, רופאי שיניים, מוסכים). הציבו ערכים שונים כדי למדל את הקטגוריה שלכם.
לעסק א' יש ציון גולמי מושלם — כל מדרג נתן 5 כוכבים. אבל עם 3 ביקורות בלבד, הנוסחה סומכת על הנתונים שלו רק ב-5.7%. 94.3% הנותרים מהציון המוצג שלו מגיעים מהממוצע הקטגורי של 4.1. התוצאה: 4.15. לא ה-5.0 שנראה שהוא ראוי לו.
לעסק ב' יש ממוצע גולמי נמוך יותר של 4.6 — חלק מהמדרגים נתנו 3 או 4 כוכבים. אבל 120 ביקורות אומרות שהנוסחה סומכת על הנתונים שלו ב-70.6%. הציון המוצג שלו, 4.45, קרוב הרבה יותר למציאות, וידורג גבוה יותר על ידי האלגוריתם של גוגל מאשר ה-5.0 הנומינלי של עסק א'. נפח מרוויח אמינות. אמינות מרוויחה נראות.
סימולציה: ממוצע נאיבי מול דירוג משוקלל בייסיאני
// simulation.naive_vs_bayesian_comparison
הטבלה למטה מיישמת את הנוסחה על פני שישה תרחישים עם C = 4.1 ו-m = 50. עמודת 'דלתא' מראה כמה הציון הבייסיאני שונה מהממוצע הנאיבי. שימו לב כיצד הפער מצטמצם ככל שמספר הביקורות גדל — זו ההשפעה של ההנחה המוקדמת שדועכת ככל שמצטברות ראיות.
השורה המעניינת ביותר היא האחרונה: עסק עם 5 ביקורות בלבד אבל ממוצע גולמי נוראי של 2.0 מציג למעשה 3.85 — הוא 'נמשך' למעלה בכמעט שני כוכבים שלמים על ידי הממוצע הקטגורי. זה מכוון. המערכת מסרבת לגזור על עסק אבדון על סמך חמש נקודות נתונים. היא מגדרת לכיוון הממוצע עד שהמדגם גדול מספיק כדי להצדיק ביטחון.
אפקט הריכוך הזה על חריגים שליליים הוא הסיבה ש'הפצצת ביקורות' (review bombing) — קמפיין מתואם של ביקורות שליליות מזויפות — היא פחות קטסטרופלית ממה שהיא נראית על פני השטח. האלגוריתם מתנגד לתוצאות קיצוניות כאשר מספר הביקורות אינו מספיק כדי להצדיק אותן. עם זאת, מערכות זיהוי האנומליות של גוגל גם מסמנות קמפיינים של ביקורות בקצב מהיר בשני הכיוונים.
השכבות הנוספות של גוגל מעבר לנוסחה הבסיסית
// google_specific.beyond_bayesian_math
הנוסחה הבייסיאנית מסבירה את קו הבסיס, אבל המערכת האמיתית של גוגל מוסיפה לפחות שלוש שכבות נוספות: דעיכת עדכניות, דירוג אמינות התורם, וריכוך אנומליות עבור קפיצות בקצב. אף אחת מאלה לא אושרה רשמית. כולן מוסקות מראיות התנהגותיות וניתוח פטנטים.
חשבו על הנוסחה הבייסיאנית הבסיסית כיסוד. כל מה שנבנה מעליה הופך את האות לעמיד יותר בפני מניפולציות ומדויק יותר מבחינה זמנית. המטרה תמיד זהה: לגרום לדירוג המוצג לשקף את מה שלקוח יחווה באמת אם ייכנס היום.
שקלול עדכניות — מדוע 90 הימים האחרונים שלכם הם הדומיננטיים
גוגל מיישמת דעיכה זמנית על ביקורות, ונותנת משקל רב יותר למשוב עדכני מאשר לרשומות ישנות יותר. המנגנון עולה בקנה אחד עם פונקציית דעיכה אקספוננציאלית, שבה השפעתה של ביקורת פוחתת עם הזמן במקום לצנוח לאפס בתאריך חתך קשיח כלשהו.[1]
ניתוח קהילתי של התנהגות הדירוג בגוגל מוצא באופן עקבי שלביקורות שפורסמו לפני יותר מ-12-18 חודשים יש השפעה נמוכה בכ-30-50% מאשר לביקורת שפורסמה בשבוע שעבר. ביקורת 5 כוכבים מלפני שלוש שנים עדיין נספרת — היא פשוט נספרת פחות. זה אומר שעסק שאסף 80 ביקורות בשנת 2022 ולא קיבל אף אחת מאז, חי על איתות שאול.
אמינות התורם — מדוע ביקורת של Local Guide רמה 7 'פוגעת' חזק יותר
היררכיית האמון של גוגל למדרגים מוסקת מתיק הפטנטים שלה ומהתנהגות נצפית. פטנט US8818995B1 מתאר מערכת דירוג חיפוש שמשקללת תרומות לפי רמת האמון של הישות התורמת. ביישום על ביקורות: Local Guide רמה 7 עם מאות ביקורות מפורטות על פני קטגוריות עסקיות מרובות נרשם כצומת בעל אמון גבוה.[2]
ההשפעה המעשית: ביקורת 5 כוכבים מ-Local Guide רמה 7 כנראה מקבלת משקל רב יותר מאשר ביקורת 5 כוכבים מחשבון שנוצר אתמול ללא היסטוריית ביקורות. זה לא קשור לערך הכוכבים — שניהם נספרים כ-5 במונה. אבל המשקל המיושם על כל אחד לפני המיצוע שונה. גוגל מעולם לא כימתה את ההפרש הזה בפומבי.
ריכוך אנומליות — מה קורה כש-40 ביקורות מגיעות בשבוע אחד
קפיצות בקצב מפעילות שכבת זיהוי נפרדת. אם עסק מקבל 40 ביקורות ב-72 שעות כאשר קו הבסיס שלו הוא 2-3 לחודש, המערכות של גוגל מסמנות דפוס זה. התוצאה אינה מחיקה אוטומטית — אלא 'הסגר'. ביקורות חדשות מפסיקות להופיע בספירה ובדירוג המוצגים בזמן שהמערכת חוקרת.[3]
מנגנון זה מסביר מדוע עסקים שקונים קמפיינים של ביקורות בכמויות גדולות לעיתים קרובות לא רואים שיפור נראה לעין — או שדירוג הפרופיל שלהם יורד זמנית כאשר ביקורות אותנטיות ישנות יותר נשארות גלויות אך האצווה החדשה יושבת ב'לימבו' של בדיקה. האלגוריתם מכוון במיוחד לחוסר אמון בעליות פתאומיות בנפח החורגות מקווי הבסיס המבוססים.
לפני ואחרי: מה נפח הביקורות משנה בפועל
// practical_impact.before_and_after_scenarios
שני תרחישים בסגנון העולם האמיתי כדי להמחיש כיצד הנוסחה מתנהגת לאורך זמן. אף אחד מהם אינו פיקטיבי — דפוסים אלה מופיעים שוב ושוב במחקרי מקרה של מומחי ניהול מוניטין.
תרחיש רופא השיניים מדגים את התובנה המרכזית של דירוג בייסיאני: ממוצע גולמי נמוך יותר עם ביטחון גבוה מנצח ממוצע גולמי גבוה יותר עם ביטחון נמוך. הציון המוצג ירד (מ-4.9 נומינלי ל-4.58 מוצג) אך מיקום הדירוג השתפר מכיוון שמשקל הביטחון כעת אמיתי.
תרחיש הקפיצה של המסעדה ממחיש מדוע קצב אורגני חשוב. המערכות של גוגל מכוילות לזהות קצב לא טבעי. ארבעים ביקורות בשבוע ואחריהן חודשיים של שקט לא רק נראות חשודות — הספירה האפקטיבית המרוככת אומרת שהוצאתם כסף וכמעט לא הרווחתם כלום. המתמטיקה מענישה זאת פעמיים: זיהוי האנומליות מפחית את הספירה הנראית, ודעיכת העדכניות אומרת שהביקורות מתקופת הקפיצה מתחילות לדעוך מיד.
גישות אלטרנטיביות: ציון וילסון ומודלי דיריכלה
// related_approaches.wilson_score_dirichlet
מיצוע בייסיאני אינו הגישה היחידה התקינה סטטיסטית. המאמר של אוון מילר משנת 2009 'איך לא למיין לפי דירוג ממוצע' הפך פופולרית שיטה אחרת: הגבול התחתון של רווח הסמך של ציון וילסון. Reddit אימצה אותו לדירוג תגובות. Yelp משתמשת בווריאציה שלו.
ציון וילסון שואל שאלה שונה ממיצוע בייסיאני. במקום 'לשלב את הנתונים שלי עם הנחה מוקדמת', הוא שואל: 'בהינתן הדירוגים שיש לי, מהי האיכות האמיתית הגרועה ביותר הסבירה בביטחון של 95%?' זה מפיק אומדן שמרני שמעניש אי-ודאות באגרסיביות רבה יותר ממיצוע בייסיאני עבור ספירות ביקורות נמוכות מאוד.
גישה שלישית — מודל דיריכלה-מולטינומיאלי — מתייחסת לכל חמשת ערכי הכוכבים כקטגוריות נפרדות במקום כציון רציף יחיד. District Data Labs תיעדו גישה זו למערכות מרובות כוכבים. היא נכונה יותר מתמטית מנוסחת IMDB (שמתייחסת במובלע לכוכבים כסולם לינארי) אך כבדה יותר חישובית. למטרות מעשיות, ההבדל ההתנהגותי בין מיצוע בייסיאני למודל דיריכלה הופך לזניח מעל כ-30 ביקורות.
מה זה אומר על האסטרטגיה העסקית שלכם
// strategic_implications.for_business_owners
הבנת המתמטיקה הופכת עצה מופשטת ('תשיגו עוד ביקורות') לאסטרטגיה כמותית. כל עסק קיים איפשהו על ספקטרום ה-v/(v+m). הידיעה היכן אתם נמצאים אומרת לכם כמה הביקורת הבאה שלכם באמת מזיזה את המחט.
אם v = 8 ו-m = 50, ביקורת 5 כוכבים חדשה אחת מזיזה את משקל הביטחון שלכם מ-8/58 = 0.138 ל-9/59 = 0.153. שינוי זה של 1.5 נקודות אחוז הוא משמעותי. אם v = 300 ו-m = 50, אותה ביקורת מזיזה אתכם מ-300/350 = 0.857 ל-301/351 = 0.858 — בקושי ניתן לזיהוי. לנפח בחלון המוקדם יש השפעה מתמטית גדולה פי עשרה מאשר לנפח בקנה מידה גדול.
איך לחשב את דירוג הכוכבים הממוצע המשוקלל עבור העסק שלכם
אתם יכולים להריץ את הנוסחה בעצמכם בגיליון אלקטרוני. קחו את מספר הביקורות הנוכחי שלכם כ-v. העריכו את m של הקטגוריה שלכם על ידי בחינת מספרי הביקורות ששלושת העסקים המובילים בקטגוריית Google Maps שלכם מחזיקים — האחוזון ה-25 של התפלגות זו הוא הערכה סבירה ל-m. הדירוג המוצג הנוכחי שלכם הוא כנראה כבר פלט ה-WR; הממוצע הנאיבי שלכם הוא הסכום הפשוט חלקי הספירה במערכת שלכם.
החישוב שמעניין אתכם הוא ההשפעה השולית של N הביקורות הבאות. מדלו זאת: הגדילו את v ב-10, חשבו מחדש את WR, וצפו בדלתא. עשו זאת על פני טווח של ערכי v כדי לבנות עקומת רגישות. החלק התלול ביותר של העקומה — שבו כל ביקורת נוספת מניבה את השיפור הגדול ביותר ב-WR — הוא המקום שבו עליכם לרכז את מאמצי השגת הביקורות שלכם.
מדוע עדכניות אומרת שקצב הביקורות חשוב יותר מהספירה הכוללת
ברגע שמבינים את דעיכת העדכניות, יעד האופטימיזציה משתנה. זה לא רק עניין של נפח כולל — זה עניין של נפח הפרוס בזמן. עסק עם 400 ביקורות שנאספו על פני חמש שנים ושום דבר ב-18 החודשים האחרונים פועל למעשה על מדגם אפקטיבי קטן יותר ממה שהמספרים מציעים. הביקורות שדעכו תורמות פחות לממוצע המשוקלל הרץ.
יצירת ביקורות עקבית — אפילו בקצבים צנועים — מצטברת עם הזמן בדרכים שרכישה מרוכזת לעולם לא תשיג. שמונה ביקורות חדשות בחודש במשך שנים עשר חודשים מניבה ציון יציב ומדורג גבוה יותר מאשר 96 ביקורות בחודש אחד כמעט בכל מדד רלוונטי: אמון בייסיאני, מעבר זיהוי אנומליות, מסלול דעיכת עדכניות, ותפיסת אמינות צרכנית.
שאלות נפוצות
// faq.frequently_asked_questions
דירוגי כוכבים אינם מה שהם נראים על פני השטח. המספר שגוגל מציגה הוא הפלט של מודל סטטיסטי שנועד להתנגד למניפולציות, לקחת בחשבון אי-ודאות, ולתגמל איכות עקבית לאורך זמן. הבנת המתמטיקה אינה דורשת תואר בסטטיסטיקה — היא דורשת לקבל את העובדה ששלוש ביקורות 5 כוכבים אינן שוות ערך ל-120 ביקורות אותנטיות בממוצע 4.6. הנוסחה מבהירה זאת. מה שאתם עושים עם התובנה הזו הוא האסטרטגיה.
הדירוג שלכם הוא בעיה מתמטית. אנחנו יכולים לעזור לפתור אותה.
הנוסחה הבייסיאנית מתגמלת נפח ביקורות שנצבר לאורך זמן. כל ביקורת שאתם מייצרים היום מזיזה את משקל הביטחון שלכם בכיוון הנכון — והאפקט מצטבר.
התחילו לבנות נפח ביקורות


