كيف يحسب Google تقييمك بالنجوم حقًا (إنه ليس متوسطًا حسابيًا)
الرياضيات البايزية وراء التقييمات المرجحة، وتضاؤل الأهمية بمرور الوقت، ولماذا يختلف تقييمك المعروض بالتأكيد عن متوسطك الحسابي — شرح مع صيغ حقيقية وحسابات عملية.
إليك شيء يكتشفه معظم أصحاب الأعمال بالطريقة الصعبة: يمكنك جمع عشرين تقييمًا من فئة الخمس نجوم على التوالي ومشاهدة تقييمك المعروض بالكاد يتحرك. أو الأسوأ من ذلك — تقضي ستة أشهر في تحسين خدمتك، وتتجاوز أخيرًا 50 تقييمًا، وتدرك أن متوسطك البالغ 4.8 قد استقر بطريقة ما عند 4.3 على خرائط Google. الحسابات ليست خاطئة. إنها تعمل تمامًا كما هو مصمم لها. كل ما في الأمر أنك لم تُخبَر بما هو التصميم.
لم ينشر Google خوارزمية التقييم الخاصة به أبدًا. ولكن بين صيغة IMDB البايزية الموثقة علنًا، ووثائق تقييم Algolia، والأبحاث الأكاديمية حول أنظمة التقييم، وسنوات من الممارسين الذين يقومون بالهندسة العكسية لتغييرات التقييم المرئية، أصبحت الآليات مفهومة جيدًا. يشرح هذا المقال الرياضيات — بشكل صحيح، بأرقام حقيقية.
مشكلة المتوسطات الحسابية البسيطة
// naive_average.failure_modes
لنبدأ بما هو المتوسط الحسابي البسيط ولماذا يفشل. المتوسط الحسابي لمجموعة من التقييمات هو ببساطة المجموع مقسومًا على العدد. ثلاثة تقييمات من 5 و 4 و 5 تعطي (5+4+5)/3 = 4.67. هذا صحيح رياضيًا. ولكنه أيضًا مضلل إحصائيًا عندما يكون الهدف هو تصنيف آلاف الشركات ضد بعضها البعض.
تتفاقم حالات الفشل بسرعة على نطاق واسع. مطعم افتُتح الأسبوع الماضي بثلاثة تقييمات من أصدقاء متحمسين سيحصل على درجة أعلى من منافس راسخ لديه 200 تقييم بمتوسط 4.4 — على الرغم من أن المكان الراسخ يمثل إشارة أكثر موثوقية بشكل كبير. أي نظام تصنيف يسمح بذلك سيتم التلاعب به حتى يصبح غير ذي صلة في غضون أشهر.
كيف يعمل حساب تقييم النجوم في Google عمليًا
فكر في التقييم البايزي كمتوسط مرجح بالثقة. عندما يكون لديك عدد قليل جدًا من التقييمات، لا يثق النظام في عينتك بما يكفي لعرضها بقيمتها الظاهرية. بدلاً من ذلك، يمزج متوسطك الخام مع عامل مسبق — وهو توقع افتراضي يعتمد على جميع الشركات المماثلة. كلما زاد عدد التقييمات التي تجمعها، زادت ثقة النظام في بياناتك الخاصة وقلت أهمية العامل المسبق.
يستخدم موقع IMDB هذا النهج تمامًا في قائمته لأفضل 250 فيلمًا وقد وثق الصيغة علنًا: WR = (v/(v+m)) × R + (m/(v+m)) × C. المتغيرات بسيطة بشكل أنيق، لكن الآثار السلوكية تستغرق لحظة لاستيعابها بالكامل. يظهر نفس الهيكل الرياضي في وثائق تصنيف Algolia، والأدبيات الأكاديمية حول أنظمة التقييم، وأعمال الهندسة العكسية التي قام بها ممارسو SEO الذين يدرسون التصنيف المحلي لـ Google.
شرح صيغة المتوسط البايزي
// bayesian_average.formula_derivation
الصيغة WR = (v/(v+m)) × R + (m/(v+m)) × C هي مزيج مرجح لكميتين: المتوسط المرصود لعملك الخاص (R) ومتوسط الفئة الواسع (C). يتم تحديد الأوزان من خلال عدد التقييمات التي لديك (v) بالنسبة إلى حد أدنى للمصداقية (m).
لاحظ أن (v/(v+m)) + (m/(v+m)) يساوي دائمًا 1.0. هذان الوزنان مجموعهما 100% — أنت دائمًا تقوم بالاستيفاء بين بياناتك الخاصة والعامل المسبق. السؤال الوحيد هو كم من كل منهما. عندما يكون v صغيرًا جدًا بالنسبة إلى m، يهيمن العامل المسبق. عندما يكون v كبيرًا بالنسبة إلى m، تهيمن تقييماتك الخاصة.
الحد الأدنى m هو المعلمة التي تشفر متطلبات الثقة للمنصة. يحدد IMDB قيمة m بحوالي 25,000 صوت لحساب قائمته لأفضل 250 فيلمًا. مقهى في حي على Google لا ينافس في نفس الكون الإحصائي لفيلم Avatar، لذا يتم تعيين m بقيمة أقل بكثير — يقدر الممارسون عمومًا أن m تتراوح بين 5 و 50 للقوائم المحلية على Google، وتختلف حسب الفئة والسوق الجغرافي.
متوسط الفئة C هو المتغير الأكثر استخفافًا بقيمته. إنه ليس ثابتًا عالميًا. من شبه المؤكد أن Google يحسب C ديناميكيًا — لكل فئة، لكل مدينة، وربما لكل سياق بحث. يتم قياس طبيب أسنان في سان فرانسيسكو مقابل أطباء أسنان آخرين في سان فرانسيسكو، وليس مقابل مطاعم في ريف مونتانا. هذا يعني أن الحد الأدنى البايزي الخاص بك خاص بالفئة.
لماذا تعتبر صيغة تقييم النجوم المرجحة مهمة لتحسين محركات البحث (SEO)
التأثير العملي هو أن الحصول على أول 50 تقييمًا يهم بشكل غير متناسب أكثر من الحصول على التقييمات من 51 إلى 150. كل تقييم تحت عتبة المصداقية m له تأثير هائل لأنه يغير معامل (v/(v+m)) بشكل كبير. الانتقال من v=5 إلى v=10 يضاعف وزن ثقتك. الانتقال من v=150 إلى v=155 بالكاد يمكن قياسه.
هذا يفسر نمطًا غير بديهي يلاحظه الممارسون مرارًا وتكرارًا: ينتقل نشاط تجاري من 3 تقييمات إلى 30 تقييمًا ويرى تقييمه المعروض ينخفض من 5.0 إلى 4.6 — حتى عندما تكون التقييمات الجديدة إيجابية أيضًا. الحسابات صحيحة. التقييم المبكر 5.0 كان خيالًا بايزيًا. التقييم 4.6 هو أول تقدير صادق.
شرح تفصيلي للحساب خطوة بخطوة
// step_by_step.numerical_walkthrough
مثالان عمليان، باستخدام متوسط فئة واقعي C = 4.1 وحد أدنى m = 50. هذه تقديرات معقولة لفئة خدمة محلية ذات تنافسية معتدلة (سباكون، أطباء أسنان، ورش تصليح سيارات). أدخل قيمًا مختلفة لنمذجة فئتك الخاصة.
النشاط التجاري (أ) لديه درجة خام مثالية — كل مراجع أعطى 5 نجوم. ولكن مع 3 تقييمات فقط، تثق الصيغة في بياناتها بنسبة 5.7% فقط. النسبة المتبقية 94.3% من نتيجته المعروضة تأتي من متوسط الفئة 4.1. النتيجة: 4.15. ليس 5.0 الذي يبدو أنه يستحقه.
النشاط التجاري (ب) لديه متوسط خام أقل عند 4.6 — بعض المراجعين أعطوا 3 أو 4 نجوم. لكن 120 تقييمًا تعني أن الصيغة تثق في بياناتها بنسبة 70.6%. نتيجته المعروضة 4.45 أقرب بكثير إلى الواقع، وسيتم تصنيفها أعلى بواسطة خوارزمية Google من تقييم النشاط التجاري (أ) الاسمي 5.0. الحجم يكتسب المصداقية. والمصداقية تكتسب الظهور.
محاكاة: المتوسط البسيط مقابل التقييم المرجح البايزي
// simulation.naive_vs_bayesian_comparison
يطبق الجدول أدناه الصيغة على ستة سيناريوهات مع C = 4.1 و m = 50. يوضح عمود "الفرق" مدى اختلاف النتيجة البايزية عن المتوسط البسيط. لاحظ كيف تتقلص الفجوة مع نمو عدد التقييمات — هذا هو العامل المسبق الذي يفقد تأثيره مع تراكم الأدلة.
الصف الأكثر إثارة للاهتمام هو الأخير: نشاط تجاري لديه 5 تقييمات فقط ولكن بمتوسط خام رهيب 2.0 يعرض في الواقع 3.85 — تم رفعه بنجمتين كاملتين تقريبًا بواسطة متوسط الفئة. هذا مقصود. يرفض النظام الحكم على نشاط تجاري بالهلاك بناءً على خمس نقاط بيانات. إنه يتحوط نحو المتوسط حتى تصبح العينة كبيرة بما يكفي لتبرير الثقة.
هذا التأثير المخفف على القيم المتطرفة السلبية هو السبب في أن قصف التقييمات — حملة منسقة من التقييمات السلبية المزيفة — أقل كارثية مما يبدو على السطح. تقاوم الخوارزمية النتائج المتطرفة عندما يكون عدد التقييمات غير كافٍ لتبريرها. ومع ذلك، فإن أنظمة كشف الحالات الشاذة في Google تكتشف أيضًا حملات التقييم سريعة الوتيرة في كلا الاتجاهين.
طبقات Google الإضافية التي تتجاوز الصيغة الأساسية
// google_specific.beyond_bayesian_math
تشرح الصيغة البايزية الخط الأساسي، لكن نظام Google الفعلي يضيف ثلاث طبقات أخرى على الأقل: تضاؤل الأهمية بمرور الوقت، وتسجيل ثقة المساهم، وتخفيف الحالات الشاذة لارتفاعات السرعة. لم يتم تأكيد أي من هذه رسميًا. كلها مستنتجة من الأدلة السلوكية وتحليل براءات الاختراع.
فكر في الصيغة البايزية الأساسية كأساس. كل شيء مبني فوقها يجعل الإشارة أكثر مقاومة للتلاعب وأكثر دقة زمنيًا. الهدف هو نفسه دائمًا: جعل التقييم المعروض يعكس ما سيختبره العميل حقًا إذا دخل اليوم.
الترجيح حسب الحداثة - لماذا تهيمن آخر 90 يومًا
يطبق Google تضاؤلًا زمنيًا على التقييمات، مما يعطي وزنًا أكبر للتعليقات الحديثة من الإدخالات القديمة. تتوافق الآلية مع دالة اضمحلال أسي، حيث يتضاءل تأثير التقييم بمرور الوقت بدلاً من أن ينخفض إلى الصفر في تاريخ قطع صارم.[1]
يجد تحليل المجتمع لسلوك تقييم Google باستمرار أن التقييمات المنشورة منذ أكثر من 12-18 شهرًا تحمل تأثيرًا أقل بنسبة 30-50% تقريبًا من التقييم المنشور الأسبوع الماضي. لا يزال يتم حساب تقييم 5 نجوم من ثلاث سنوات مضت — ولكنه يُحسب بشكل أقل. هذا يعني أن النشاط التجاري الذي جمع 80 تقييمًا في عام 2022 ولم يحصل على أي تقييمات منذ ذلك الحين يعيش على إشارة مستعارة.
ثقة المساهم - لماذا يكون لتقييم مرشد محلي من المستوى 7 تأثير أكبر
يتم استنتاج التسلسل الهرمي لثقة Google للمراجعين من محفظة براءات الاختراع والسلوك الملحوظ. تصف براءة الاختراع US8818995B1 نظام تصنيف بحث يرجح المساهمات حسب مستوى ثقة الكيان الذي يقدمها. عند تطبيقها على التقييمات: مرشد محلي من المستوى 7 لديه مئات التقييمات التفصيلية عبر فئات أعمال متعددة يُسجل كعقدة عالية الثقة.[2]
التأثير العملي: من المرجح أن يكون لتقييم 5 نجوم من مرشد محلي من المستوى 7 وزن أكبر من تقييم 5 نجوم من حساب تم إنشاؤه بالأمس بدون سجل تقييم. لا يتعلق الأمر بقيمة النجمة — كلاهما يُحسب كـ 5 في البسط. لكن الوزن المطبق على كل منهما قبل حساب المتوسط يختلف. لم يحدد Google هذا الفارق كميًا علنًا.
تخفيف الحالات الشاذة - ماذا يحدث عند وصول 40 تقييمًا في أسبوع واحد
تؤدي ارتفاعات السرعة إلى تشغيل طبقة كشف منفصلة. إذا تلقى نشاط تجاري 40 تقييمًا في 72 ساعة بينما كان خط الأساس لديه 2-3 تقييمات شهريًا، فإن أنظمة Google تضع علامة على هذا النمط. النتيجة ليست الحذف التلقائي — بل هي الحجر الصحي. تتوقف التقييمات الجديدة عن الظهور في العدد والتقييم المعروضين بينما يحقق النظام في الأمر.[3]
تفسر هذه الآلية سبب عدم رؤية الشركات التي تشتري حملات تقييم بالجملة أي تحسن واضح — أو رؤية تقييمات ملفاتها الشخصية تنخفض مؤقتًا حيث تظل التقييمات الأصلية القديمة مرئية ولكن الدفعة الجديدة تبقى في طي النسيان. تم ضبط الخوارزمية خصيصًا لعدم الثقة في الانحرافات المفاجئة في الحجم التي تختلف عن خطوط الأساس المعمول بها.
قبل وبعد: ما الذي يغيره حجم التقييمات فعليًا
// practical_impact.before_and_after_scenarios
سيناريوهان على غرار العالم الحقيقي لتوضيح كيفية تصرف الصيغة بمرور الوقت. كلاهما ليس خياليًا — تظهر هذه الأنماط بشكل متكرر في دراسات الحالة من ممارسي إدارة السمعة.
يوضح سيناريو طبيب الأسنان الرؤية الأساسية للتقييم البايزي: متوسط خام أقل بثقة عالية يتفوق على متوسط خام أعلى بثقة منخفضة. انخفضت النتيجة المعروضة (من 4.9 اسميًا إلى 4.58 معروضًا) لكن موضع التصنيف تحسن لأن وزن الثقة أصبح الآن حقيقيًا.
يوضح سيناريو الارتفاع في تقييمات المطعم سبب أهمية الإيقاع العضوي. تمت معايرة أنظمة Google لاكتشاف السرعة غير الطبيعية. أربعون تقييمًا في أسبوع تليها شهران من الصمت لا تبدو مشبوهة فحسب — بل إن العدد الفعال المخفف يعني أنك أنفقت المال ولم تكسب شيئًا تقريبًا. تعاقب الرياضيات على ذلك مرتين: يقلل كشف الحالات الشاذة من العدد المرئي، ويعني تضاؤل الأهمية بمرور الوقت أن تقييمات فترة الارتفاع تبدأ في التلاشي على الفور.
الأساليب البديلة: درجة ويلسون ونماذج ديريخليه
// related_approaches.wilson_score_dirichlet
المتوسط البايزي ليس النهج الوحيد السليم إحصائيًا. شاع مقال إيفان ميلر لعام 2009 بعنوان "كيف لا ترتب حسب متوسط التقييم" طريقة مختلفة: الحد الأدنى لفاصل الثقة لدرجة ويلسون. اعتمدها موقع Reddit لترتيب التعليقات. ويستخدم موقع Yelp تباينًا منها.
تطرح درجة ويلسون سؤالًا مختلفًا عن المتوسط البايزي. بدلاً من "امزج بياناتي مع عامل مسبق"، تسأل: "بالنظر إلى التقييمات التي لدي، ما هو أسوأ ما يمكن أن تكون عليه الجودة الحقيقية بثقة 95%؟" ينتج عن هذا تقدير متحفظ يعاقب عدم اليقين بقوة أكبر من المتوسط البايزي لعدد قليل جدًا من التقييمات.
نهج ثالث — نموذج ديريخليه-متعدد الحدود — يعامل جميع قيم النجوم الخمس كفئات منفصلة بدلاً من درجة مستمرة واحدة. وثقت District Data Labs هذا النهج للأنظمة متعددة النجوم. إنه أكثر صحة رياضيًا من صيغة IMDB (التي تعامل النجوم ضمنيًا كمقياس خطي) ولكنه أثقل حسابيًا. للأغراض العملية، يصبح الفرق السلوكي بين المتوسط البايزي ونموذج ديريخليه ضئيلًا فوق 30 تقييمًا تقريبًا.
ماذا يعني هذا لاستراتيجية عملك
// strategic_implications.for_business_owners
فهم الرياضيات يحول النصيحة المجردة ("احصل على المزيد من التقييمات") إلى استراتيجية كمية. كل عمل تجاري موجود في مكان ما على طيف v/(v+m). معرفة مكانك يخبرك بمدى تأثير تقييمك التالي بالفعل.
إذا كان v = 8 و m = 50، فإن تقييمًا جديدًا واحدًا بـ 5 نجوم يحول وزن ثقتك من 8/58 = 0.138 إلى 9/59 = 0.153. هذا التحول بنسبة 1.5 نقطة مئوية له معنى. إذا كان v = 300 و m = 50، فإن نفس التقييم يحولك من 300/350 = 0.857 إلى 301/351 = 0.858 — بالكاد يمكن اكتشافه. الحجم في النافذة المبكرة له تأثير رياضي أكبر بعشر مرات من الحجم على نطاق واسع.
كيفية حساب متوسط تقييم النجوم المرجح لعملك الخاص
يمكنك تشغيل الصيغة بنفسك في جدول بيانات. خذ عدد تقييماتك الحالي كـ v. قدر m لفئتك من خلال النظر إلى أعداد التقييمات التي تحافظ عليها أفضل 3 شركات في فئة خرائط Google الخاصة بك — الشريحة المئوية الخامسة والعشرون من هذا التوزيع هي تقدير معقول لـ m. تقييمك المعروض الحالي هو على الأرجح بالفعل ناتج WR؛ متوسطك البسيط هو المجموع البسيط مقسومًا على العدد في لوحة التحكم الخاصة بك.
الحساب الذي يهمك هو التأثير الهامشي للتقييمات N التالية. قم بنمذجته: زد v بمقدار 10، وأعد حساب WR، ولاحظ الفرق. افعل ذلك عبر نطاق من قيم v لبناء منحنى حساسية. الجزء الأكثر انحدارًا من هذا المنحنى — حيث ينتج كل تقييم إضافي أكبر تحسن في WR — هو المكان الذي يجب أن تركز فيه جهودك للحصول على التقييمات.
لماذا تعني الحداثة أن سرعة التقييمات أهم من العدد الإجمالي
بمجرد أن تفهم تضاؤل الأهمية بمرور الوقت، يتحول هدف التحسين. لا يتعلق الأمر فقط بالحجم الإجمالي — بل يتعلق بالحجم الموزع في الوقت. النشاط التجاري الذي لديه 400 تقييم تم جمعها على مدى خمس سنوات ولا شيء في آخر 18 شهرًا يعمل فعليًا على عينة فعالة أصغر مما تشير إليه الأرقام. تساهم التقييمات المتضائلة بشكل أقل في المتوسط المرجح الجاري.
توليد التقييمات المستمر — حتى بمعدلات متواضعة — يتراكم بمرور الوقت بطرق لا يمكن للاكتساب السريع تحقيقها أبدًا. ثمانية تقييمات جديدة شهريًا لمدة اثني عشر شهرًا تتفوق على 96 تقييمًا في شهر واحد في كل المقاييس ذات الصلة تقريبًا: الثقة البايزية، وتجاوز كشف الحالات الشاذة، ومسار تضاؤل الأهمية بمرور الوقت، وتصور مصداقية المستهلك.
الأسئلة الشائعة
// faq.frequently_asked_questions
تقييمات النجوم ليست كما تبدو على السطح. الرقم الذي يعرضه Google هو نتاج نموذج إحصائي مصمم لمقاومة التلاعب، ومراعاة عدم اليقين، ومكافأة الجودة المستمرة بمرور الوقت. فهم الرياضيات لا يتطلب شهادة في الإحصاء — بل يتطلب قبول أن ثلاثة تقييمات من فئة 5 نجوم لا تساوي 120 تقييمًا أصليًا بمتوسط 4.6. الصيغة تجعل ذلك واضحًا. ما تفعله بهذه البصيرة هو الاستراتيجية.
تقييمك هو مسألة رياضية. يمكننا المساعدة في حلها.
الصيغة البايزية تكافئ حجم التقييمات المتراكم بمرور الوقت. كل تقييم تحصل عليه اليوم يحرك وزن الثقة في الاتجاه الصحيح — ويتضاعف التأثير.
ابدأ في بناء حجم التقييمات


