AI 巨頭 Anthropic 近日正式更新其技術文檔,將旗下的網絡爬蟲(Web Crawlers)由單一標籤拆分為三大類別。
這一舉動模仿了 OpenAI 的策略,標誌着網站管理員與 SEO 從業員不需要再以「一刀切」的形式封鎖 AI。以前,如果你在 robots.txt 中簡單地封鎖了 ClaudeBot,你可能在無意中切斷了來自 AI 搜尋的流量。
Anthropic 三大爬蟲功能拆解:訓練 vs. 搜尋 vs. 用戶請求
Anthropic 目前將其爬蟲按功能細分為三個獨立的 User-Agent,各自負責不同的任務:
| 爬蟲名稱 (User-Agent) | 主要用途 | 封鎖後果 |
|---|---|---|
| ClaudeBot | 模型訓練:收集數據用於開發下一代 Claude 模型。 | 防止網站內容被納入 AI 的基礎知識庫。 |
| Claude-SearchBot | Claude 搜尋索引:為 Claude 的搜尋功能抓取資訊,當用戶在 Claude 中進行一般性搜尋時,系統會從這個預先建立的索引中提取資料。 | 影響網站能見度:網站可能無法出現在 Claude 的搜尋結果或引用來源中。 |
| Claude-User | 用戶主導:當用戶向 Claude 提問時觸發,用於提供即時的網頁分析或摘要。 | Claude 將無法即時訪問你的網頁來回答用戶問題。 |
Anthropic 爬蟲比較
在對待 robots.txt 的態度上,Anthropic 展示了與競爭對手不同的立場。Anthropic 明確表示其所有三種爬蟲(包括用戶觸發的 Claude-User)都會嚴格遵守 robots.txt 指令。相比之下,OpenAI 的官方技術檔案曾表示 robots.txt 規則未必適用於用戶主導的爬蟲(如ChatGPT-User )。
這項改變對 SEO 有甚麼影響?
在 2024 年初,許多網站為了保護版權,採取了「全面封鎖 AI」的策略。然而,根據最新的數據趨勢,這種策略可能為流量帶來影響:
1. 影響網站能見度
Anthropic 明確警告,封鎖 Claude-SearchBot 會降低網站在用戶搜尋結果中的準確性與排名。這與 Google 區分 Googlebot 與 Google-Extended(用於 Gemini 訓練)的邏輯如出一轍。
根據 BuzzStream 研究顯示,雖然 79% 的頂尖新聞網站封鎖了至少一個 AI 訓練爬蟲,但也有 71% 的網站封鎖了搜尋爬蟲。如果封鎖了搜尋爬蟲,可能無意中將自己從 AI 搜尋的引用來源中刪除,導致網站不會出現在 AI 的推薦清單中。因應現今用戶搜尋行為轉變,失去這部分流量可能會對網站的廣告收入或品牌曝光率構成負面影響。
2. AI 搜尋轉向「即時檢索」
根據 Hostinger 的分析,OpenAI 的搜尋爬蟲覆蓋率已從 4.7% 飆升至 55% 以上,而其訓練爬蟲的覆蓋率則從 84% 跌至 12%。
以前 AI 回答問題可能還會靠之前訓練好的「離線數據庫」。但現在像 Claude 或 Perplexity 這種 AI 搜尋,會在用戶提問的當下,即時派出 SearchBot 去抓取網路上最即時的資訊。因此,確保網站能被爬蟲即時讀取非常重要。
如何修改 Robots.txt
如果你希望網站在 Claude 的 AI 搜尋結果中保持競爭力,但又不希望內容被拿去訓練模型,你的 robots.txt 應採取差異化設定:
robots.txt
# 允許搜尋,但拒絕訓練
User-agent: Claude-SearchBot
Allow: /
User-agent: Claude-User
Allow: /
User-agent: ClaudeBot
Disallow: /關於作者
