什麼是索引?
索引是 Google 搜尋運作三大步驟之一,另外兩步為爬取(Crawling)與排名(Ranking)。當 Googlebot 爬取一個網頁後,系統會分析頁面內容(文字、圖片、影片、結構化資料),並將這份「存檔」收進 Google 的搜尋索引資料庫。
當用戶在 Google 搜尋時,Google 並非即時瀏覽全球網頁,而是從這個索引資料庫中快速比對並返回最相關的結果。
要留意的是,爬取不等於索引。 Googlebot 即使爬取了某頁,不代表該頁一定會被索引。若頁面質素低、內容重複,或設有技術阻擋(如 noindex 標籤),Google 可能選擇不予索引。
關鍵前提:未被索引的頁面,在 Google 搜尋中等於不存在。
Google 索引流程
1. URL 發現
Googlebot 透過三個主要途徑發現網頁:內部連結、外部反向連結、以及 XML Sitemap。提交網站地圖至 Google Search Console 是加速新頁面被發現的有效方式。
2. 爬取排程
Google 不會即時爬取所有頁面。每個網站的爬取預算(Crawl Budget)有限,系統會根據頁面重要性和網站速度決定爬取頻率。
3. 內容處理與分析
Googlebot 讀取 HTML 後,分析文字、圖片、影片、結構化資料(Schema Markup)及頁面內外連結。JavaScript 渲染的內容可能需要額外時間處理。
4. 索引決定
Google 根據以下因素決定是否收錄頁面:
- 頁面是否有 noindex 指令
- 頁面內容是否具備足夠獨特性與價值
- 是否有 Canonical 標籤指向其他 URL
- 頁面是否存在技術問題(如 5xx 錯誤、重定向鏈)

影響索引的主要因素
robots.txt
robots.txt 告知搜尋引擎哪些頁面不應被爬取。若某頁在 robots.txt 中被封鎖(Disallow),Googlebot 便無法讀取其內容,更遑論索引。
注意: robots.txt 封鎖僅阻止爬取,不阻止索引。如果有其他外部連結指向被封鎖的頁面,Google 仍可能將其索引,只是無法讀取內容。
Noindex 標籤
在 HTML <head> 加入 <meta name="robots" content="noindex"> 或 HTTP header 設定 X-Robots-Tag: noindex,可明確指示 Google 不收錄該頁。這是 WordPress 「阻止搜尋引擎索引」選項的底層機制。
Canonical 標籤
當多個 URL 內容相近時,<link rel="canonical"> 標籤告訴 Google 哪個版本是「正本」。若 canonical 設定錯誤,可能導致重要頁面未被索引,或索引了錯誤的 URL 版本。
頁面質素與 E-E-A-T
Google 的 Helpful Content 系統(2023 年後與核心演算法整合)會評估頁面是否能真正幫助用戶。質素低、內容薄弱(Thin Content)或重複的頁面,即使技術上沒有問題,Google 也可能選擇不索引。
爬取預算
大型網站(數萬頁以上)需特別關注爬取預算。過多低價值頁面(如篩選頁、重複參數 URL)會消耗 Googlebot 的爬取配額,導致重要頁面延遲索引。
如何確認頁面是否被索引
1. Google Search Console(最準確)
Google Search Console 的「網址檢查」工具(URL Inspection)能直接顯示特定頁面的索引狀態,包括:
- 是否已在 Google 索引中
- 最後爬取時間
- 爬取時發現的問題
另外,你可以使索引覆蓋率(Page Indexing)報告去查閱網站整體的索引狀態及潛在問題。
2. site: 搜尋指令
在 Google 搜尋框輸入 site:yourdomain.com/page-url,若出現該頁即表示已被索引。
限制: site: 指令並非 100% 準確,Search Console 更為可靠。