Google Yıldız Puanınızı Gerçekte Nasıl Hesaplıyor (Bu Bir Ortalama Değil)
Ağırlıklı yorumların, güncelliğin ve görüntülenen puanınızın aritmetik ortalamanızdan neredeyse kesin olarak neden farklı olduğunun arkasındaki Bayesyen matematiği — gerçek formüller ve pratik hesaplamalarla açıklıyoruz.
İşte çoğu işletme sahibinin zor yoldan öğrendiği bir şey: art arda yirmi tane beş yıldızlı yorum toplayabilir ve görüntülenen puanınızın zar zor hareket ettiğini görebilirsiniz. Ya da daha kötüsü — hizmetinizi geliştirmek için altı ay harcarsınız, nihayet 50 yoruma ulaşırsınız ve 4.8'lik ortalamanızın Google Maps'te bir şekilde 4.3'e yerleştiğini fark edersiniz. Matematik bozuk değil. Tam olarak tasarlandığı gibi çalışıyor. Sadece size tasarımın ne olduğu söylenmedi.
Google, puanlama algoritmasını hiçbir zaman yayınlamadı. Ancak IMDB'nin halka açık belgelenmiş Bayesyen formülü, Algolia'nın puanlama belgeleri, yorum sistemleri üzerine akademik araştırmalar ve yıllarca uygulayıcıların görünür puan değişikliklerini tersine mühendislikle incelemesi arasında, mekanikler iyi anlaşılmıştır. Bu makale, matematiği — düzgün bir şekilde, gerçek sayılarla — adım adım anlatıyor.
Basit Ortalamaların Sorunu
// naive_average.failure_modes
Basit bir ortalamanın ne olduğu ve neden başarısız olduğuyla başlayalım. Bir dizi puanın aritmetik ortalaması, basitçe toplamın sayıya bölünmesidir. 5, 4 ve 5'lik üç yorum (5+4+5)/3 = 4.67 verir. Bu matematiksel olarak doğrudur. Ancak amaç binlerce işletmeyi birbirine karşı sıralamak olduğunda istatistiksel olarak yanıltıcıdır.
Başarısızlık modları ölçekte hızla çoğalır. Geçen hafta hevesli arkadaşlarından aldığı üç yorumla açılan bir restoran, ortalaması 4.4 olan 200 yoruma sahip yerleşik bir rakibinden daha yüksek puan alacaktır — yerleşik yerin çok daha güvenilir bir sinyal temsil etmesine rağmen. Buna izin veren herhangi bir sıralama sistemi, aylar içinde alakasız hale gelecek şekilde manipüle edilecektir.
Google yıldız puanı hesaplaması pratikte nasıl çalışır?
Bayesyen puanlamayı güven ağırlıklı bir ortalama olarak düşünün. Çok az yorumunuz olduğunda, sistem örneğinize olduğu gibi göstermek için yeterince güvenmez. Bunun yerine ham ortalamanızı bir önselle — tüm benzer işletmelere dayalı varsayılan bir beklentiyle — harmanlar. Ne kadar çok yorum biriktirirseniz, sistem kendi verilerinize o kadar çok güvenir ve önsel o kadar az önemli hale gelir.
IMDB, En İyi 250 listesi için tam olarak bu yaklaşımı kullanır ve formülü halka açık olarak belgelemiştir: WR = (v/(v+m)) × R + (m/(v+m)) × C. Değişkenler zarif bir şekilde basittir, ancak davranışsal sonuçları tam olarak özümsemek bir an sürer. Aynı matematiksel yapı, Algolia'nın sıralama belgelerinde, yorum sistemleri üzerine akademik literatürde ve Google'ın yerel sıralamasını inceleyen SEO uygulayıcılarının yaptığı tersine mühendislik çalışmalarında ortaya çıkar.
Bayesyen Ortalama Formülü Açıklaması
// bayesian_average.formula_derivation
WR = (v/(v+m)) × R + (m/(v+m)) × C formülü, iki niceliğin ağırlıklı bir karışımıdır: işletmenizin kendi gözlemlenen ortalaması (R) ve kategori genelindeki ortalama (C). Ağırlıklar, sahip olduğunuz yorum sayısının (v) minimum güvenilirlik eşiğine (m) göre ne kadar olduğuyla belirlenir.
Dikkat ederseniz (v/(v+m)) + (m/(v+m)) her zaman 1.0'a eşittir. Bu iki ağırlığın toplamı %100'dür — her zaman kendi verileriniz ile önsel arasında bir ara değer bulursunuz. Tek soru, her birinden ne kadar olduğudur. v, m'ye göre çok küçük olduğunda, önsel baskın olur. v, m'ye göre büyük olduğunda, kendi yorumlarınız baskın olur.
m eşiği, platformun güven gereksinimlerini kodlayan parametredir. IMDB, En İyi 250 hesaplaması için m'yi yaklaşık 25.000 oy olarak belirlemiştir. Google'daki bir mahalle kafesi, Avatar ile aynı istatistiksel evrende rekabet etmediği için m çok daha düşük ayarlanmıştır — uygulayıcılar genellikle Google yerel listelemeleri için m'yi kategoriye ve coğrafi pazara göre değişmekle birlikte 5 ila 50 aralığında tahmin etmektedir.
Kategori ortalaması C, en az takdir edilen değişkendir. Sabit bir küresel sabit değildir. Google, C'yi neredeyse kesin olarak dinamik olarak hesaplar — kategori başına, şehir başına, belki de arama bağlamına göre. San Francisco'daki bir diş hekimi, kırsal Montana'daki restoranlarla değil, diğer San Francisco diş hekimleriyle karşılaştırılır. Bu, Bayesyen tabanınızın kategoriye özgü olduğu anlamına gelir.
Ağırlıklı yıldız puanı formülü SEO'nuz için neden önemlidir?
Pratik çıkarım şudur: ilk 50 yorumunuzu almak, 51'den 150'ye kadar olan yorumları almaktan orantısız bir şekilde daha önemlidir. Güvenilirlik eşiği m'nin altındaki her yorumun büyük bir etkisi vardır çünkü (v/(v+m)) katsayısını önemli ölçüde değiştirir. v=5'ten v=10'a gitmek güven ağırlığınızı ikiye katlar. v=150'den v=155'e gitmek ise zar zor ölçülebilir.
Bu, uygulayıcıların tekrar tekrar gözlemlediği sezgilere aykırı bir deseni açıklar: bir işletme 3 yorumdan 30 yoruma çıkar ve yeni yorumlar da olumlu olsa bile görüntülenen puanının 5.0'dan 4.6'ya düştüğünü görür. Matematik doğrudur. İlk baştaki 5.0, Bayesyen bir kurguydu. 4.6 ise ilk dürüst tahmindir.
Adım Adım Hesaplama Örneği
// step_by_step.numerical_walkthrough
Gerçekçi bir kategori ortalaması olan C = 4.1 ve minimum eşik olan m = 50 kullanarak iki pratik örnek. Bunlar, orta derecede rekabetçi bir yerel hizmet kategorisi (tesisatçılar, diş hekimleri, oto tamirhaneleri) için makul tahminlerdir. Kendi kategorinizi modellemek için farklı değerler girin.
İşletme A'nın mükemmel bir ham puanı var — her yorumcu 5 yıldız vermiş. Ancak sadece 3 yorumla, formül kendi verilerine sadece %5.7 oranında güveniyor. Görüntülenen puanının kalan %94.3'ü ise 4.1 olan kategori ortalamasından geliyor. Sonuç: 4.15. Hak ettiği gibi görünen 5.0 değil.
İşletme B'nin ham ortalaması 4.6 ile daha düşük — bazı yorumcular 3 veya 4 yıldız vermiş. Ancak 120 yorum, formülün kendi verilerine %70.6 oranında güvendiği anlamına geliyor. Görüntülenen 4.45'lik puanı gerçeğe çok daha yakın ve Google'ın algoritması tarafından İşletme A'nın nominal 5.0'ından daha yüksek sıralanacak. Hacim güvenilirlik kazandırır. Güvenilirlik görünürlük kazandırır.
Simülasyon: Basit Ortalama vs. Bayesyen Ağırlıklı Puan
// simulation.naive_vs_bayesian_comparison
Aşağıdaki tablo, C = 4.1 ve m = 50 ile altı senaryo üzerinden formülü uygular. Delta sütunu, Bayesyen puanın basit ortalamadan ne kadar farklı olduğunu gösterir. Yorum sayısı arttıkça aralığın nasıl daraldığına dikkat edin — bu, kanıt biriktikçe önselin etkisini kaybetmesidir.
En ilginç satır sonuncusu: sadece 5 yorumu olan ama korkunç bir 2.0 ham ortalamaya sahip bir işletme aslında 3.85 gösteriyor — kategori ortalaması tarafından neredeyse iki tam yıldız yukarı çekilmiş. Bu kasıtlı bir tasarım. Sistem, bir işletmeyi beş veri noktasına dayanarak yok olmaya mahkum etmeyi reddeder. Örneklem güveni haklı çıkaracak kadar büyük olana kadar ortalamaya doğru kendini korumaya alır.
Olumsuz aykırı değerler üzerindeki bu sönümleme etkisi, yorum bombalamasının — sahte olumsuz yorumlardan oluşan koordineli bir kampanya — yüzeyde göründüğünden daha az felaket olmasının nedenidir. Algoritma, yorum sayısı onları haklı çıkarmak için yetersiz olduğunda aşırı sonuçlara direnir. Bununla birlikte, Google'ın anomali tespit sistemleri, her iki yöndeki hızlı yorum kampanyalarını da işaretler.
Google'ın Temel Formülün Ötesindeki Ek Katmanları
// google_specific.beyond_bayesian_math
Bayesyen formülü temel çizgiyi açıklar, ancak Google'ın gerçek sistemi en az üç katman daha ekler: güncellik etkisinin azalması, yorumcu güven puanlaması ve hız artışları için anomali sönümlemesi. Bunların hiçbiri resmi olarak doğrulanmamıştır. Hepsi davranışsal kanıtlardan ve patent analizinden çıkarılmıştır.
Temel Bayesyen formülünü temel olarak düşünün. Üzerine inşa edilen her şey, sinyali manipülasyona daha dirençli ve zamansal olarak daha doğru hale getirir. Amaç her zaman aynıdır: görüntülenen puanın, bir müşterinin bugün içeri girse gerçekten deneyimleyeceği şeyi yansıtmasını sağlamak.
Güncellik ağırlıklandırması — son 90 gününüz neden daha önemli
Google, yorumlara zamansal bir etki azalması uygular ve eski kayıtlara göre yeni geri bildirimlere daha fazla ağırlık verir. Mekanizma, bir yorumun etkisinin belirli bir kesim tarihinde sıfıra düşmek yerine zamanla azaldığı üstel bir bozulma fonksiyonu ile tutarlıdır.[1]
Google puanlama davranışının topluluk analizi, 12-18 aydan daha önce yayınlanan yorumların, geçen hafta yayınlanan bir yoruma göre kabaca %30-50 daha az etkiye sahip olduğunu sürekli olarak bulmaktadır. Üç yıl önceki 5 yıldızlı bir yorum hala sayılır — sadece daha az sayılır. Bu, 2022'de 80 yorum toplayan ve o zamandan beri hiç yorum almayan bir işletmenin, ödünç alınmış bir sinyalle yaşadığı anlamına gelir.
Yorumcu güvenilirliği — Seviye 7 Yerel Rehber yorumu neden daha etkili
Google'ın yorumcular için güven hiyerarşisi, patent portföyünden ve gözlemlenebilir davranışlardan çıkarılmıştır. US8818995B1 patenti, katkıları yapan varlığın güven düzeyine göre ağırlıklandıran bir arama sıralama sistemini tanımlar. Yorumlara uygulandığında: birden fazla iş kategorisinde yüzlerce ayrıntılı yoruma sahip bir Seviye 7 Yerel Rehber, yüksek güvenilirliğe sahip bir düğüm olarak kaydedilir.[2]
Pratik etki: Seviye 7 bir Yerel Rehber'den gelen 5 yıldızlı bir yorum, muhtemelen dün oluşturulmuş ve hiç yorum geçmişi olmayan bir hesaptan gelen 5 yıldızlı bir yoruma göre daha ağır basar. Bu yıldız değeriyle ilgili değildir — her ikisi de paydada 5 olarak sayılır. Ancak ortalama alınmadan önce her birine uygulanan ağırlık farklıdır. Google bu farkı hiçbir zaman halka açık olarak ölçmemiştir.
Anomali sönümlemesi — bir haftada 40 yorum geldiğinde ne olur
Hız artışları ayrı bir tespit katmanını tetikler. Bir işletme, temel seviyesi ayda 2-3 iken 72 saat içinde 40 yorum alırsa, Google sistemleri bu deseni işaretler. Sonuç otomatik silme değil — karantinadır. Sistem araştırırken yeni yorumlar görüntülenen sayıda ve puanda görünmeyi durdurur.[3]
Bu mekanizma, toplu yorum kampanyaları satın alan işletmelerin neden genellikle gözle görülür bir iyileşme görmediğini — veya eski otantik yorumlar görünür kalırken yeni partinin yorum inceleme belirsizliğinde beklemesiyle profil puanlarının geçici olarak düştüğünü — açıklar. Algoritma, yerleşik temel çizgilerden sapan ani hacim bükülmelerine güvensizlik duyacak şekilde özel olarak ayarlanmıştır.
Öncesi ve Sonrası: Yorum Hacmi Gerçekte Neyi Değiştirir
// practical_impact.before_and_after_scenarios
Formülün zaman içinde nasıl davrandığını göstermek için iki gerçek dünya tarzı senaryo. Hiçbiri kurgusal değil — bu desenler, itibar yönetimi uygulayıcılarının vaka çalışmalarında tekrar tekrar ortaya çıkıyor.
Diş hekimi senaryosu, Bayesyen puanlamanın temel içgörüsünü gösterir: yüksek güvene sahip daha düşük bir ham ortalama, düşük güvene sahip daha yüksek bir ham ortalamayı yener. Görüntülenen puan düştü (nominal 4.9'dan görüntülenen 4.58'e), ancak sıralama konumu iyileşti çünkü güven ağırlığı artık gerçek.
Restoran artış senaryosu, organik ritmin neden önemli olduğunu gösterir. Google'ın sistemleri, doğal olmayan hızı tespit etmek için kalibre edilmiştir. Bir haftada kırk yorum ve ardından iki aylık sessizlik sadece şüpheli görünmekle kalmaz — sönümlenmiş etkili sayı, para harcadığınız ve neredeyse hiçbir şey kazanmadığınız anlamına gelir. Matematik bunu iki kez cezalandırır: anomali tespiti görünür sayıyı azaltır ve güncellik etkisinin azalması, artış dönemi yorumlarının hemen solmaya başladığı anlamına gelir.
Alternatif Yaklaşımlar: Wilson Skoru ve Dirichlet Modelleri
// related_approaches.wilson_score_dirichlet
Bayesyen ortalama, istatistiksel olarak sağlam tek yaklaşım değildir. Evan Miller'ın 2009 tarihli 'Ortalama Puana Göre Nasıl Sıralama Yapılmaz' makalesi farklı bir yöntemi popülerleştirdi: Wilson skor güven aralığının alt sınırı. Reddit bunu yorum sıralaması için benimsedi. Yelp bunun bir varyasyonunu kullanıyor.
Wilson skoru, Bayesyen ortalamadan farklı bir soru sorar. 'Verilerimi bir önselle harmanla' demek yerine, 'sahip olduğum puanlara göre, gerçek kalitenin %95 güvenle muhtemelen en kötü ne olabileceği' sorusunu sorar. Bu, çok düşük yorum sayılarında belirsizliği Bayesyen ortalamadan bile daha agresif bir şekilde cezalandıran muhafazakar bir tahmin üretir.
Üçüncü bir yaklaşım — Dirichlet-Multinomial modeli — beş yıldız değerinin tamamını tek bir sürekli skor yerine ayrı kategoriler olarak ele alır. District Data Labs bu yaklaşımı çok yıldızlı sistemler için belgeledi. Matematiksel olarak IMDB formülünden (yıldızları örtük olarak doğrusal bir ölçek olarak ele alır) daha doğrudur, ancak hesaplama açısından daha ağırdır. Pratik amaçlar için, Bayesyen ortalama ile bir Dirichlet modeli arasındaki davranışsal fark, kabaca 30 yorumun üzerinde ihmal edilebilir hale gelir.
Bu, İşletme Stratejiniz İçin Ne Anlama Geliyor?
// strategic_implications.for_business_owners
Matematiği anlamak, soyut tavsiyeleri ('daha fazla yorum alın') ölçülebilir bir stratejiye dönüştürür. Her işletme v/(v+m) spektrumunda bir yerdedir. Nerede olduğunuzu bilmek, bir sonraki yorumunuzun ibreyi ne kadar hareket ettirdiğini söyler.
Eğer v = 8 ve m = 50 ise, tek bir yeni 5 yıldızlı yorum güven ağırlığınızı 8/58 = 0.138'den 9/59 = 0.153'e kaydırır. Bu %1.5'lik puanlık değişim anlamlıdır. Eğer v = 300 ve m = 50 ise, aynı yorum sizi 300/350 = 0.857'den 301/351 = 0.858'e kaydırır — zar zor tespit edilebilir. Erken penceredeki hacim, ölçekteki hacmin on katı matematiksel etkiye sahiptir.
Kendi işletmeniz için ağırlıklı ortalama yıldız puanı nasıl hesaplanır?
Formülü bir hesap tablosunda kendiniz çalıştırabilirsiniz. Mevcut yorum sayınızı v olarak alın. Kategorinizin m'sini, Google Maps kategorinizdeki ilk 3 işletmenin hangi yorum sayılarını koruduğuna bakarak tahmin edin — bu dağılımın 25. persentili makul bir m tahminidir. Mevcut görüntülenen puanınız muhtemelen zaten WR çıktısıdır; basit ortalamanız ise arka uçtaki basit toplamın sayıya bölünmesidir.
Önemsemeniz gereken hesaplama, sonraki N yorumun marjinal etkisidir. Modelleyin: v'yi 10 artırın, WR'yi yeniden hesaplayın, farkı gözlemleyin. Bir duyarlılık eğrisi oluşturmak için bunu bir dizi v değeri boyunca yapın. Bu eğrinin en dik kısmı — her ek yorumun en büyük WR iyileştirmesini ürettiği yer — yorum toplama çabanızı yoğunlaştırmanız gereken yerdir.
Güncellik neden yorum hızının toplam sayıdan daha önemli olduğu anlamına gelir
Güncellik etkisinin azalmasını anladığınızda, optimizasyon hedefi değişir. Bu sadece toplam hacimle ilgili değil — zaman içinde dağılmış hacimle ilgilidir. Beş yıl boyunca toplanmış ve son 18 aydır hiç yorum almamış 400 yoruma sahip bir işletme, etkili olarak sayıların gösterdiğinden daha küçük bir örneklem üzerinde çalışıyor demektir. Etkisi azalmış yorumlar, devam eden ağırlıklı ortalamaya daha az katkıda bulunur.
Tutarlı yorum üretimi — mütevazı oranlarda bile — zamanla, ani alımların asla yapamayacağı şekillerde birikir. On iki ay boyunca ayda sekiz yeni yorum, tek bir ayda 96 yorumdan neredeyse her ilgili metrikte daha iyi performans gösterir: Bayesyen güven, anomali tespiti onayı, güncellik azalma yörüngesi ve tüketici güvenilirlik algısı.
Sıkça Sorulan Sorular
// faq.frequently_asked_questions
Yıldız puanları, yüzeyde göründükleri gibi değildir. Google'ın görüntülediği sayı, manipülasyona direnmek, belirsizliği hesaba katmak ve zaman içinde tutarlı kaliteyi ödüllendirmek için tasarlanmış istatistiksel bir modelin çıktısıdır. Matematiği anlamak bir istatistik diploması gerektirmez — üç adet 5 yıldızlı yorumun, ortalaması 4.6 olan 120 otantik yorumla aynı değerde olmadığını kabul etmeyi gerektirir. Formül bunu açıkça belirtir. Bu içgörüyle ne yaptığınız ise stratejidir.
Puanınız Bir Matematik Problemi. Çözmenize Yardımcı Olabiliriz.
Bayesyen formülü, zamanla biriken yorum hacmini ödüllendirir. Bugün oluşturduğunuz her yorum, güven ağırlığınızı doğru yönde değiştirir — ve etki katlanarak artar.
Yorum Hacminizi Artırmaya Başlayın


