Crawl budget(檢索預算 / 抓取配額)

Crawl Budget(檢索預算或抓取配額)指的是 Googlebot 在特定時間內願意抓取某個網站的頁面數量。這個配額取決於兩個主要因素:網站的「能力」與「需求」。如果你的網站內容很多,但檢索預算有限,可能會導致部分頁面無法被索引,影響 SEO 表現。

檢索預算如何運作?

Google 並不會無限制抓取網站的所有內容,而是依據網站伺服器的負擔能力(Crawl Capacity)與網站內容的新鮮度、熱門程度等因素(Crawl Demand)來決定要抓取多少頁面。

  • 抓取能力(Crawl Rate Limit):Google 會避免過度抓取導致網站速度變慢,因此會根據伺服器的回應狀況自動調整抓取速率。
  • 抓取需求(Crawl Demand):熱門頁面或更新頻繁的內容會有較高的抓取需求,而低價值或重複的頁面則不會被常常抓取。

如何管理 Crawl Budget?

  1. 減少重複內容:使用正確的 canonical 標籤和避免內容重複,有助於讓 Google 將資源集中抓取重要頁面。
  2. 優化內部連結:確保網站結構清晰,讓 Googlebot 更容易找到和抓取深層頁面。
  3. 移除無價值頁面:透過 robots.txt、noindex 或刪除無需抓取的頁面,例如搜尋結果頁或篩選頁。
  4. 提升網站速度:伺服器回應快速,能增加抓取速率。
  5. 使用 Sitemap:提交網站地圖給 Google,有助於引導爬蟲發現新頁面。

適合哪些網站關注 Crawl Budget?

對大多數中小型網站而言,檢索預算通常不是主要問題。但若你擁有一個動態內容多、頁數成千上萬的大型網站(如電商、新聞網站),那就需要特別關注 Crawl Budget 的管理,避免重要頁面未被收錄。


參考資料:

  1. Google 官方文件:Crawl Budget in Googlebot