robots.txt

robots.txt 是一個用來指引搜尋引擎機器人(如 Googlebot)如何抓取網站內容的文字檔案。它位於網站根目錄,例如 https://example.com/robots.txt,並透過「允許」或「禁止」的指令來控制哪些頁面或資料夾可以被搜尋引擎索引。

robots.txt 檔案應包含什麼內容?

robots.txt 是純文字格式,通常會包含以下幾種指令:

  1. User-agent:指定適用的搜尋引擎爬蟲(如 Googlebot、Bingbot)。使用 * 表示適用所有爬蟲。
  2. Disallow:用來阻止特定路徑的頁面被抓取。
  3. Allow: 允許某些特定頁面被抓取(主要用在更仔細的路徑控制)。
  4. Sitemap:提供網站的sitemap XML 檔案位置,幫助搜尋引擎發現所有重要網址。

robots.txt 例子

User-agent: *
Disallow: /search/
Disallow: /app/
Allow: /app/login
Sitemap: https://www.example.com/sitemap.xml

在這個例子裡面,robots.txt 禁止所有搜尋引擎抓取 /search/,並提供網站地圖的位置。

假設你的網站有一個應用程式部份 /app/,其中包含用戶儀表板、設定、私人資訊等頁面,而你不希望這些內容出現在搜尋引擎中,你可以使用 Disallow: /app/ 來封鎖。

但你希望 /app/login 登入頁能被索引,例如讓使用者能透過 Google 搜尋「[網站名稱] 登入」找到正確入口頁面,這時就使用 Allow: /app/login 指令來放行這個頁面。

甚麼時候使用 robots.txt 檔案?

robots.txt 檔案可以引導網站機器人(如搜尋引擎爬蟲)如何抓取網站上的頁面。以下是一些建議使用 robots.txt 的情境:

  • 防止重複內容被抓取:若網站有重複內容的頁面,而你不希望這些頁面被搜尋引擎索引,可以透過 robots.txt 阻止爬蟲抓取這些頁面。
  • 節省爬蟲預算(Crawl Budget):對於大型網站,使用 robots.txt 可以幫助節省搜尋引擎的爬蟲資源,避免搜尋引擎抓取無關或價值低的頁面。
  • 保護敏感資訊:若網站某些區域包含敏感資料(如內部報告或管理後台),可以使用 robots.txt 阻擋爬蟲進入。但請注意,這不應是唯一的保護手段,因為有些爬蟲可能不遵守 robots.txt 規則。
  • 阻擋內部搜尋結果頁面:若網站設有內部搜尋功能,建議透過 robots.txt 阻擋搜尋結果頁面被抓取,以避免這些低品質內容出現在搜尋結果中。
  • 排除測試或暫存環境:若你有測試站或暫存版本,不希望它們被搜尋引擎索引,可以透過 robots.txt 加以封鎖。
  • 防止某些檔案或資料夾被抓取:你可能會希望阻擋某些目錄、圖片或 PDF 文件被搜尋引擎抓取,這時就可以透過 robots.txt 加以指定。

請記住:robots.txt 只是「請求」搜尋引擎不要抓取某些頁面,不代表這些頁面一定不會被索引。若你想確保特定頁面不被索引,建議使用其他方法,例如設定密碼保護或使用 <meta name=”robots” content=”noindex”> 標籤。