Crawl Budget(檢索預算或抓取配額)指的是 Googlebot 在特定時間內願意抓取某個網站的頁面數量。這個配額取決於兩個主要因素:網站的「能力」與「需求」。如果你的網站內容很多,但檢索預算有限,可能會導致部分頁面無法被索引,影響 SEO 表現。
檢索預算如何運作?
Google 並不會無限制抓取網站的所有內容,而是依據網站伺服器的負擔能力(Crawl Capacity)與網站內容的新鮮度、熱門程度等因素(Crawl Demand)來決定要抓取多少頁面。
- 抓取能力(Crawl Rate Limit):Google 會避免過度抓取導致網站速度變慢,因此會根據伺服器的回應狀況自動調整抓取速率。
- 抓取需求(Crawl Demand):熱門頁面或更新頻繁的內容會有較高的抓取需求,而低價值或重複的頁面則不會被常常抓取。
如何管理 Crawl Budget?
- 減少重複內容:使用正確的 canonical 標籤和避免內容重複,有助於讓 Google 將資源集中抓取重要頁面。
- 優化內部連結:確保網站結構清晰,讓 Googlebot 更容易找到和抓取深層頁面。
- 移除無價值頁面:透過 robots.txt、noindex 或刪除無需抓取的頁面,例如搜尋結果頁或篩選頁。
- 提升網站速度:伺服器回應快速,能增加抓取速率。
- 使用 Sitemap:提交網站地圖給 Google,有助於引導爬蟲發現新頁面。
適合哪些網站關注 Crawl Budget?
對大多數中小型網站而言,檢索預算通常不是主要問題。但若你擁有一個動態內容多、頁數成千上萬的大型網站(如電商、新聞網站),那就需要特別關注 Crawl Budget 的管理,避免重要頁面未被收錄。
參考資料:
- Google 官方文件:Crawl Budget in Googlebot