robots.txt 是什麼？

robots.txt 是一個用來指引搜尋引擎機器人（如 Googlebot）如何抓取網站內容的文字檔案。它位於網站根目錄，例如 https://example.com/robots.txt，並透過「允許」或「禁止」的指令來控制哪些頁面或資料夾可以被搜尋引擎索引。

robots.txt 是純文字格式，通常會包含以下幾種指令：

User-agent: *
Disallow: /search/
Disallow: /app/
Allow: /app/login
Sitemap: https://www.example.com/sitemap.xml

在這個例子裡面，robots.txt 禁止所有搜尋引擎抓取 /search/，並提供網站地圖的位置。

假設你的網站有一個應用程式部份 /app/，其中包含用戶儀表板、設定、私人資訊等頁面，而你不希望這些內容出現在搜尋引擎中，你可以使用 Disallow: /app/ 來封鎖。

但你希望 /app/login 登入頁能被索引，例如讓使用者能透過 Google 搜尋「[網站名稱] 登入」找到正確入口頁面，這時就使用 Allow: /app/login 指令來放行這個頁面。

robots.txt 檔案可以引導網站機器人（如搜尋引擎爬蟲）如何抓取網站上的頁面。以下是一些建議使用 robots.txt 的情境：

防止重複內容被抓取：若網站有重複內容的頁面，而你不希望這些頁面被搜尋引擎索引，可以透過 robots.txt 阻止爬蟲抓取這些頁面。
節省爬蟲預算（Crawl Budget）：對於大型網站，使用 robots.txt 可以幫助節省搜尋引擎的爬蟲資源，避免搜尋引擎抓取無關或價值低的頁面。
保護敏感資訊：若網站某些區域包含敏感資料（如內部報告或管理後台），可以使用 robots.txt 阻擋爬蟲進入。但請注意，這不應是唯一的保護手段，因為有些爬蟲可能不遵守 robots.txt 規則。
阻擋內部搜尋結果頁面：若網站設有內部搜尋功能，建議透過 robots.txt 阻擋搜尋結果頁面被抓取，以避免這些低品質內容出現在搜尋結果中。
排除測試或暫存環境：若你有測試站或暫存版本，不希望它們被搜尋引擎索引，可以透過 robots.txt 加以封鎖。
防止某些檔案或資料夾被抓取：你可能會希望阻擋某些目錄、圖片或 PDF 文件被搜尋引擎抓取，這時就可以透過 robots.txt 加以指定。

請記住：robots.txt 只是「請求」搜尋引擎不要抓取某些頁面，不代表這些頁面一定不會被索引。若你想確保特定頁面不被索引，建議使用其他方法，例如設定密碼保護或使用 <meta name=”robots” content=”noindex”> 標籤。