Google 最近有一份內部文件洩露出來,揭示其演算法的複雜性,包含 2,596 個模組和 14,014 個屬性,用於數據壓縮和初步評分,例如用戶生成內容的討論得分和產品評論的推廣或降級訊息。這些數據儲存在共享環境中,與 YouTube、Google 助理、書籍、影片搜尋等系統組件相關。
文件中揭示 google 在搜尋的系統有以下這些:
爬取
- Trawler:網絡爬蟲系統,具有爬取序列,維護爬取速率,並識別頁面變更頻率。
索引
- Alexandria:核心索引系統。
- SegIndexer:將文件分級放入索引中的系統。
- TeraGoogle:針對長期存儲於磁盤上的文件的次級索引系統。
渲染
- HtmlrenderWebkitHeadless:用於JavaScript頁面的渲染系統,最初基於Webkit,後轉向無頭Chrome。
處理
- LinkExtractor:從頁面擷取連結。
- WebMirror:管理標準化和重複的系統。
排名
- Mustang:主要的評分、排名及服務系統。
- Ascorer:主排名算法,用於任何重新排名調整前的頁面排名。
- NavBoost:基於用戶行為點擊日誌的重新排名系統。
- FreshnessTwiddler:基於文件新鮮度的重新排名系統。
- WebChooserScorer:定義用於摘要評分的特徵名稱。
服務
- Google Web Server (GWS):Google前端互動的服務器。
- SuperRoot:Google搜尋的中樞,負責發送指令並管理重排和結果呈現的後處理系統。
- SnippetBrain:生成搜尋結果摘要的系統。
- Glue:利用用戶行為整合普遍結果的系統。
- Cookbook:生成訊號的系統,指示數值在運行時創建。
以下是一些重點的摘錄以及我們該做的事情:
什麼是 Twiddlers?
Twiddlers 是在 Google 的 Ascorer 搜索算法之後執行的重新排名功能,類似於 WordPress 的過濾器。這些功能可以調整文件的檢索分數或改變文件的排名。Google 使用多種 Twiddlers 來提升或降級搜索結果,如 NavBoost、QualityBoost、RealTimeBoost 和 WebImageBoost。
Panda 更新的誤解
Google 的 Panda 更新主要是基於用戶行為和外部連結的訊號進行評分修改。Panda 的更新涉及參考查詢和用戶選擇點擊的比例得分,這意味著要通過廣泛的查詢來獲得更多成功點擊和連結多樣性。
演算法降級措施
Google 演算法中存在多種降級措施,包括:
- 錨點不匹配:當連結的錨文本與目標頁面內容不一致時,該連結會被降級。
- SERP 降級:基於搜索引擎結果頁(SERP)中的用戶行為進行降級,例如點擊率低。
- 導航降級:頁面導航不佳或用戶體驗差的網站會被降級。
- 精確匹配域名降級:精確匹配域名(EMD)在排名中的優勢減少。
- 產品評論降級:質量低劣的產品評論頁面會被降級。
- 位置降級:全球性頁面可能會被降級,以優先顯示本地相關內容。
- 色情內容降級:明顯含有成人內容的頁面會被降級。
- 其他連結降級:垃圾鏈接或過多的低質量鏈接會被降級。
這些措施提示需要創造出色的內容、提供強大的用戶體驗並建立品牌來避免降級。
E-E-A-T 及作者標記
Google 會將作者資訊以文字格式儲存並結合實體和嵌入技術進行全面測量,這顯示出作者身份在網路評估中的重要性。
連結分析機制
- URL 變更儲存:Google 儲存特定 URL 的最後 20 次變更,用於分析連結類似於 Wayback Machine 的機制。這意味著頁面需要多次變更並重新索引,才能獲得“乾淨的開始”。
- PageRank:每個文件都與其首頁的 PageRank 相關,首頁 PageRank 作為新頁面的代理,直到它們獲得自己的評分。
- 字型大小:Google 追蹤文件中術語的平均加權字型大小,字型大小對內容的重要性有一定影響。
- 本地內部鏈接:某些內部鏈接可能不被計入。
消除功能
消除(Disavow)功能可能與核心排名系統分離,數據未在 API 中特別提及。這項功能可能是一項由群眾參與的特徵工程,用於訓練 Google 的垃圾郵件分類器。
建議策略
- 重新考慮連結建設:考慮 Google 對連結分析的精確控制,重新審視和優化你的連結建設策略。
- 重要內容前置:將最重要的內容放在前面,因為 Mustang 系統對文檔標記有一個最大數量的考量。
短內容的原創性得分
Google 會根據短內容的原創性進行評分,這顯示出原創性比內容的長度更為重要。這一評分(OriginalContentScore)可能解釋了為什麼薄內容(即使內容不長)依然能夠獲得好的排名。此外,Google 也會評估關鍵字堆砌的情況,過度堆砌關鍵字會導致內容評分降低。
頁面標題與查詢匹配
Google 使用 titlematchScore 評估頁面標題與查詢的匹配度。這意味著將目標關鍵字放在標題開頭仍然是一種有效的 SEO 策略,有助於提升頁面的相關性和排名。
字串計數標準
Google 並沒有設定具體的字串計數標準來評估頁面標題或摘要的長度。唯一的字串計數度量是 snippetPrefixCharCount,用來決定摘要的字串數。研究顯示,雖然冗長的標題對點擊量不利,但對於提升排名有一定幫助。
日期的重要性
Google 將日期視為衡量內容新鮮度的重要指標,並使用以下三種日期:
- bylineDate:頁面上明確設置的日期。
- syntacticDate:從 URL 或標題中提取的日期。
- semanticDate:從頁面內容中提取的日期。
最佳做法是確保這些日期在結構化數據、頁面標題和 XML 網站地圖中一致。日期的不一致可能會導致內容表現下降。
域名註冊資訊
Google 確實儲存最新的域名註冊資訊,這些資訊可能影響新內容的沙盒測試。這也適用於已變更所有權的域名。隨著垃圾郵件政策的引入,過期域名的權重已增加。
影片為主的網站
若網站上超過 50% 的頁面包含影片,Google 將其視為以影片為主,並會對這類網站進行不同的處理和評估。
YMYL(你的金錢,你的生活)評分
Google 使用分類器生成 YMYL 健康和 YMYL 新聞的評分,並預測「邊緣查詢」(即從未見過的查詢)是否屬於 YMYL。這些評分基於片段級別,並依賴嵌入技術。
標準文件
標準文件涉及人工標記和自動標註的內容,這可能與品質評分有關。雖然 Google 表示品質評分不影響排名,但這些文件顯示可能存在影響。
網站嵌入
Google 使用嵌入技術將頁面和網站向量化,以評估頁面是否偏離主題。siteFocusScore 衡量網站專注於單一主題的程度,而 site radius 根據 site2vec 向量生成來捕捉頁面偏離核心主題的距離。
小型網站的潛在排擠
Google 可能對小型個人網站進行特別的提升或降級處理,這可能影響到小型企業在「有用內容更新」中的表現。
本篇整理自 Secrets from the Algorithm: Google Search’s Internal Engineering Documentation Has Leaked 有興趣可以前往觀看原文的說明。