如何使用 robots.txt 檔案阻止 AI 爬蟲機器人

作為內容創作者或部落格作者，您獨特的高品質內容是您的資產。但您是否注意到，一些生成式人工智慧平台（例如 OpenAI 和 CCBot）可能會在未經您同意的情況下使用您的工作來訓練他們的演算法？

您不必擔心！透過使用一個名為的簡單文件 機器人.txt，您可以阻止這些AI爬蟲訪問您的網站或部落格。

什麼是 robots.txt 檔案？

這 機器人.txt 文件是一種工具，允許網站所有者管理搜尋引擎爬蟲與其內容互動的方式。它使您能夠禁止特定機器抓取您的網站，從而確保更好地控制您的內容。

下面的語法顯示如何使用使用者代理程式阻止單一機器人：

使用者代理：{BOT-NAME-HERE} 不允許：/

下面顯示如何允許特定機器人使用使用者代理程式抓取您的網站：

使用者代理：{BOT-NAME-HERE} 允許：/

將 robots.txt 檔案放置在哪裡？

將文件上傳到您網站的根資料夾：

https://example.com/robots.txt https://blog.example.com/robots.txt

了解更多 `機器人.txt`

如果您準備好控制網站的可訪問性，請更深入地了解以下詳細信息 機器人.txt 有了這些有用的資源：

robots.txt簡介 by Google：了解基本原理 機器人.txt 工作原理以及如何為您的網站有效配置它。
什麼是 robots.txt？ | robots.txt 檔案的工作原理 來自 Cloudflare：目的和功能的綜合指南 機器人.txt 管理網路爬蟲存取。

如何使用 robots.txt 檔案阻止 AI 爬蟲機器人

文法:

使用者代理：{AI-Crawlers-Bot-Name-Here} 不允許：/

阻止 Google AI（Bard 和 Vertex AI 產生 API）

將以下兩行加入 robots.txt 中：

用戶代理：Google 擴充禁止：/

有關用戶代理和人工智慧機器人的附加資訊

有關管理爬蟲的更多信息，您可以查看 使用者代理列表 由 Google 抓取工具和抓取工具使用。這可以幫助您識別造訪您網站的合法 Google 機器人。

然而，值得注意的是：

Google 不提供 CIDR、IP 範圍或 ASN 詳細信息 其人工智慧機器人，使得透過網路伺服器防火牆直接阻止它們變得具有挑戰性。
結果，使用 機器人.txt 文件仍然是指導合規爬蟲和限制對內容的存取的最有效方法之一。

為了進行進階控制，監視伺服器日誌是否有異常活動並配置其他安全措施，例如速率限製或 IP 阻止，以補充您的 機器人.txt 指令。

使用 robots.txt 檔案阻止 OpenAI

將以下四行加入 robots.txt 中：

使用者代理：GPTBot 禁止：/ 使用者代理：ChatGPT-使用者禁止：/

OpenAI 使用兩種不同的使用者代理程式進行操作：一種用於網路爬行，另一種用於瀏覽，每個代理程式都與唯一的 CIDR 和 IP 位址範圍相關聯。配置防火牆規則來阻止這些需要對網路概念和對 Linux 伺服器的根級存取有深入的了解。

如果您不熟悉這些技術方面（例如管理 CIDR 範圍或配置防火牆），建議尋求 Linux 系統管理員的協助。請記住，OpenAI 的 IP 位址範圍可能會發生變化，這可能會將這一過程變成持續不斷的努力以跟上更新——一場貓捉老鼠的遊戲。

1：ChatGPT-User 由下列人員使用外掛在 ChatGPT 中

下面是一個列表 OpenAI 的爬蟲和取得器使用的使用者代理程式及其關聯的 CIDR 或 IP 位址範圍。要阻止 OpenAI 的插件 AI 機器人，您可以配置 Web 伺服器防火牆以限制來自特定 IP 範圍的訪問，例如 23.98.142.176/28.

以下是如何使用以下命令阻止 CIDR 或 IP 範圍的範例 烏夫沃 命令或 iptables 在您的伺服器上：

使用UFW：

sudo ufw 拒絕來自 23.98.142.176/28

使用 iptables：

sudo iptables -A 輸入 -s 23.98.142.176/28 -j 刪除

這些命令可防止來自指定 IP 範圍的任何流量存取您的伺服器。請務必定期檢查和更新您的防火牆規則，以適應 OpenAI IP 範圍的變更。如果您不熟悉設定防火牆，請考慮尋求 Linux 系統管理員的協助。

2：GPTBot由ChatGPT使用

下面是一個列表 OpenAI 爬蟲和獲取器使用的使用者代理的數量，以及關聯的 CIDR 或 IP 位址範圍。您可以使用下列任一方法直接在 Web 伺服器上封鎖這些範圍 烏夫沃 命令或 iptables.

以下是封鎖這些 CIDR 範圍的 shell 腳本範例：

用於阻止 OpenAI CIDR 範圍的 Shell 腳本

#!/bin/bash # 目的：阻止 OpenAI ChatGPT 機器人 CIDR # 測試環境：Debian 和 Ubuntu Linux # --------------------------- --------------------------------------- file="/tmp/out.txt.$$ " wget -q -O "$file" https://openai.com/gptbot-ranges.txt 2>/dev/null while IFS= read -r cidr do sudo ufw拒絕從$cidr到任何連接埠80的原始tcp sudo ufw拒絕從 $cidr 到任何連接埠 443 的原始 TCP 完成 < "$file" [ -f "$file" ] && rm -f "$file"

如果您不熟悉防火牆配置，請諮詢 Linux 系統管理員以取得協助。定期使用新範圍更新腳本，以跟上 OpenAI IP 清單的變更。

使用 robots.txt 檔案阻止 commoncrawl (CCBot)

將以下兩行加入 robots.txt 中：

使用者代理：CCBot 禁止：/

Common Crawl 是一個非營利基金會，經營一個名為 CCBot 的機器人，該機器人廣泛用於收集用於訓練人工智慧模型的資料。如果您想防止您的內容以這種方式被利用，那麼阻止 CCBot 也很重要。然而，與 Google 類似，Common Crawl 不提供 CIDR、IP 位址範圍或自治系統資訊 (ASN)，這些資訊可用於阻止其機器人通過 Web 伺服器防火牆。這種限制使得在網路層級限制他們的存取變得具有挑戰性。

使用 robots.txt 檔案阻止 Perplexity AI

另一個使用生成式人工智慧重寫內容的服務是 PerplexityBot。若要封鎖此機器人，您可以將以下規則新增至您的 機器人.txt file:

使用者代理：PerplexityBot 禁止：/

此外，PerplexityBot 也發布了其 IP 位址範圍，您可以使用 Web 應用程式防火牆 (WAF) 或 Web 伺服器防火牆來封鎖。這確保了額外的保護層，防止未經授權的存取您的內容。

阻止人為人工智慧（克勞德）

將以下行新增至您的 robots.txt 檔案：

使用者代理：anthropic-ai 禁止：/ 使用者代理程式：Claude-Web 禁止：/ 使用者代理：ClaudeBot 禁止：/

人工智慧機器人可以忽略我的嗎 `機器人.txt` 文件？

人工智慧機器人可以忽略我的嗎 機器人.txt 文件？

像 Google 和 OpenAI 這樣的知名組織通常會尊重 機器人.txt 協議並遵守您設定的規則。然而，一些設計不良或惡意的人工智慧機器人可能會選擇忽略你的 機器人.txt 完全文件，繞過這些限制並未經授權存取您的內容。

阻止人工智慧機器人使用您的數據是否符合道德？

圍繞人工智慧訓練資料的道德困境很複雜。雖然人工智慧經常被宣傳為造福人類的工具，促進醫學和科學等領域的進步，但許多人對 OpenAI、Google或微軟等公司的真實意圖表示懷疑。有些人認為，這些技術更注重利潤而不是利他主義，特別是當生成式人工智慧開始取代白領工作時。

值得注意的是，透過選項控制訪問 機器人.txt 僅在作者和公司在法庭上對這些做法提出訴訟後才可用。最終，保護您的工作成果是個人決定，權衡與人工智慧系統共享工作成果的潛在好處和風險非常重要。

Github 的 AI 機器人完整列表

吉圖布

訂閱更新

如何使用 robots.txt 檔案阻止 AI 爬蟲機器人

什麼是 robots.txt 檔案？

將 robots.txt 檔案放置在哪裡？

了解更多 機器人.txt

如何使用 robots.txt 檔案阻止 AI 爬蟲機器人

阻止 Google AI（Bard 和 Vertex AI 產生 API）

有關用戶代理和人工智慧機器人的附加資訊

使用 robots.txt 檔案阻止 OpenAI

1：ChatGPT-User 由下列人員使用 外掛 在 ChatGPT 中

2：GPTBot由ChatGPT使用

使用 robots.txt 檔案阻止 commoncrawl (CCBot)

使用 robots.txt 檔案阻止 Perplexity AI

阻止人為人工智慧（克勞德）

人工智慧機器人可以忽略我的嗎 機器人.txt 文件？

阻止人工智慧機器人使用您的數據是否符合道德？

Github 的 AI 機器人完整列表

了解更多 `機器人.txt`

1：ChatGPT-User 由下列人員使用外掛在 ChatGPT 中

人工智慧機器人可以忽略我的嗎 `機器人.txt` 文件？