faviconSEO Hub HK

索引

索引(Indexing)是指搜尋引擎爬取網頁後,將其分析、處理並存入資料庫的過程——只有完成索引的頁面,才有機會出現在 Google 搜尋結果中。

什麼是索引?

索引是 Google 搜尋運作三大步驟之一,另外兩步為爬取(Crawling)與排名(Ranking)。當 Googlebot 爬取一個網頁後,系統會分析頁面內容(文字、圖片、影片、結構化資料),並將這份「存檔」收進 Google 的搜尋索引資料庫。

當用戶在 Google 搜尋時,Google 並非即時瀏覽全球網頁,而是從這個索引資料庫中快速比對並返回最相關的結果。

要留意的是,爬取不等於索引。 Googlebot 即使爬取了某頁,不代表該頁一定會被索引。若頁面質素低、內容重複,或設有技術阻擋(如 noindex 標籤),Google 可能選擇不予索引。

關鍵前提:未被索引的頁面,在 Google 搜尋中等於不存在。

Google 索引流程

1. URL 發現

Googlebot 透過三個主要途徑發現網頁:內部連結、外部反向連結、以及 XML Sitemap。提交網站地圖至 Google Search Console 是加速新頁面被發現的有效方式。

2. 爬取排程

Google 不會即時爬取所有頁面。每個網站的爬取預算(Crawl Budget)有限,系統會根據頁面重要性和網站速度決定爬取頻率。

3. 內容處理與分析

Googlebot 讀取 HTML 後,分析文字、圖片、影片、結構化資料(Schema Markup)及頁面內外連結。JavaScript 渲染的內容可能需要額外時間處理。

4. 索引決定

Google 根據以下因素決定是否收錄頁面:

  • 頁面是否有 noindex 指令
  • 頁面內容是否具備足夠獨特性與價值
  • 是否有 Canonical 標籤指向其他 URL
  • 頁面是否存在技術問題(如 5xx 錯誤、重定向鏈)
Google 搜尋運作方式
Google 搜尋分為三大主要階段,索引只屬於其中一步,已索引不代表會有排名。

影響索引的主要因素

robots.txt

robots.txt 告知搜尋引擎哪些頁面不應被爬取。若某頁在 robots.txt 中被封鎖(Disallow),Googlebot 便無法讀取其內容,更遑論索引。

注意: robots.txt 封鎖僅阻止爬取,不阻止索引。如果有其他外部連結指向被封鎖的頁面,Google 仍可能將其索引,只是無法讀取內容。

Noindex 標籤

在 HTML <head> 加入 <meta name="robots" content="noindex"> 或 HTTP header 設定 X-Robots-Tag: noindex,可明確指示 Google 不收錄該頁。這是 WordPress 「阻止搜尋引擎索引」選項的底層機制。

Canonical 標籤

當多個 URL 內容相近時,<link rel="canonical"> 標籤告訴 Google 哪個版本是「正本」。若 canonical 設定錯誤,可能導致重要頁面未被索引,或索引了錯誤的 URL 版本。

頁面質素與 E-E-A-T

Google 的 Helpful Content 系統(2023 年後與核心演算法整合)會評估頁面是否能真正幫助用戶。質素低、內容薄弱(Thin Content)或重複的頁面,即使技術上沒有問題,Google 也可能選擇不索引。

爬取預算

大型網站(數萬頁以上)需特別關注爬取預算。過多低價值頁面(如篩選頁、重複參數 URL)會消耗 Googlebot 的爬取配額,導致重要頁面延遲索引。

如何確認頁面是否被索引

1. Google Search Console(最準確)

Google Search Console 的「網址檢查」工具(URL Inspection)能直接顯示特定頁面的索引狀態,包括:

  • 是否已在 Google 索引中
  • 最後爬取時間
  • 爬取時發現的問題

另外,你可以使索引覆蓋率(Page Indexing)報告去查閱網站整體的索引狀態及潛在問題。

2. site: 搜尋指令

在 Google 搜尋框輸入 site:yourdomain.com/page-url,若出現該頁即表示已被索引。

限制: site: 指令並非 100% 準確,Search Console 更為可靠。

相關SEO術語

robots.txt

robots.txt 是一個用來指引搜尋引擎機器人(如 Googlebot)如何抓取網站內容的文字檔案。

Crawl budget

Crawl Budget(檢索預算或抓取配額)指的是 Googlebot 在特定時間內願意抓取某個網站的頁面數量。這個配額取決於兩個主要因素:網站的「能力」與「需求」。如果你的網站內容很多,但檢索預算有限,可能會導致部分頁面無法被索引,影響 SEO 表現。

網站地圖

Sitemap(網站地圖) 是一個列出網站內所有重要的頁面,幫助搜尋引擎更有效地有效率地發現與索引網站的內容。