索引 Indexing

什麼是索引？

索引是 Google 搜尋運作三大步驟之一，另外兩步為爬取（Crawling）與排名（Ranking）。當 Googlebot 爬取一個網頁後，系統會分析頁面內容（文字、圖片、影片、結構化資料），並將這份「存檔」收進 Google 的搜尋索引資料庫。

當用戶在 Google 搜尋時，Google 並非即時瀏覽全球網頁，而是從這個索引資料庫中快速比對並返回最相關的結果。

要留意的是，爬取不等於索引。 Googlebot 即使爬取了某頁，不代表該頁一定會被索引。若頁面質素低、內容重複，或設有技術阻擋（如 noindex 標籤），Google 可能選擇不予索引。

關鍵前提：未被索引的頁面，在 Google 搜尋中等於不存在。

Google 索引流程

1. URL 發現

Googlebot 透過三個主要途徑發現網頁：內部連結、外部反向連結、以及 XML Sitemap。提交網站地圖至 Google Search Console 是加速新頁面被發現的有效方式。

2. 爬取排程

Google 不會即時爬取所有頁面。每個網站的爬取預算（Crawl Budget）有限，系統會根據頁面重要性和網站速度決定爬取頻率。

3. 內容處理與分析

Googlebot 讀取 HTML 後，分析文字、圖片、影片、結構化資料（Schema Markup）及頁面內外連結。JavaScript 渲染的內容可能需要額外時間處理。

4. 索引決定

Google 根據以下因素決定是否收錄頁面：

頁面是否有 noindex 指令
頁面內容是否具備足夠獨特性與價值
是否有 Canonical 標籤指向其他 URL
頁面是否存在技術問題（如 5xx 錯誤、重定向鏈）

Google 搜尋運作方式 — Google 搜尋分為三大主要階段，索引只屬於其中一步，已索引不代表會有排名。

影響索引的主要因素

robots.txt

robots.txt 告知搜尋引擎哪些頁面不應被爬取。若某頁在 robots.txt 中被封鎖（Disallow），Googlebot 便無法讀取其內容，更遑論索引。

注意： robots.txt 封鎖僅阻止爬取，不阻止索引。如果有其他外部連結指向被封鎖的頁面，Google 仍可能將其索引，只是無法讀取內容。

Noindex 標籤

在 HTML <head> 加入 <meta name="robots" content="noindex"> 或 HTTP header 設定 X-Robots-Tag: noindex，可明確指示 Google 不收錄該頁。這是 WordPress 「阻止搜尋引擎索引」選項的底層機制。

Canonical 標籤

當多個 URL 內容相近時，<link rel="canonical"> 標籤告訴 Google 哪個版本是「正本」。若 canonical 設定錯誤，可能導致重要頁面未被索引，或索引了錯誤的 URL 版本。

頁面質素與 E-E-A-T

Google 的 Helpful Content 系統（2023 年後與核心演算法整合）會評估頁面是否能真正幫助用戶。質素低、內容薄弱（Thin Content）或重複的頁面，即使技術上沒有問題，Google 也可能選擇不索引。

爬取預算

大型網站（數萬頁以上）需特別關注爬取預算。過多低價值頁面（如篩選頁、重複參數 URL）會消耗 Googlebot 的爬取配額，導致重要頁面延遲索引。

如何確認頁面是否被索引

1. Google Search Console（最準確）

Google Search Console 的「網址檢查」工具（URL Inspection）能直接顯示特定頁面的索引狀態，包括：

是否已在 Google 索引中
最後爬取時間
爬取時發現的問題

另外，你可以使索引覆蓋率（Page Indexing）報告去查閱網站整體的索引狀態及潛在問題。

2. site: 搜尋指令

在 Google 搜尋框輸入 site:yourdomain.com/page-url，若出現該頁即表示已被索引。

限制： site: 指令並非 100% 準確，Search Console 更為可靠。

什麼是索引？

Google 索引流程

1. URL 發現

2. 爬取排程

3. 內容處理與分析

4. 索引決定

影響索引的主要因素

robots.txt

Noindex 標籤

Canonical 標籤

頁面質素與 E-E-A-T

爬取預算

如何確認頁面是否被索引

1. Google Search Console（最準確）

2. site: 搜尋指令

相關SEO術語

robots.txt

Crawl budget

Sitemap網站地圖