你的独立站可能正对 ChatGPT 隐身：一份 AI 爬虫可达性自查

先说一个反常识的判断：

一个独立站可以 Google 排名不错、广告跑得正常、打开速度也快——但在 ChatGPT 和 Perplexity 的世界里，它根本不存在。

不是内容不行，也不是没做"GEO 优化"，而是一个几乎没人点开过的设置在作怪：AI 的爬虫，连网站的门都进不来。

我们给出海客户做 AI 可见性诊断时，这一条永远排在第一位——比结构化数据、比内容质量都靠前。爬虫进不来，后面所有优化都是空中楼阁。下面是完整的自查方法，照着把自己的站走一遍，大概十分钟。

2025 年 7 月 1 日，默认规则被改了一次

这一天，Cloudflare 宣布了一个决定：所有新接入的域名，默认屏蔽 AI 爬虫。站长可以手动放行，也可以加入它的"按次付费抓取"计划，向 AI 公司收费。

Cloudflare 把这次行动命名为 "Content Independence Day"。说它"改变互联网规则"并不夸张——全球超过 20% 的网站由 Cloudflare 承载，而在跨境独立站这个圈子，CF 的渗透率远不止 20%：免费 CDN、免费防护、解析方便，几乎是建站标配。

更隐蔽的是第二层：Bot Fight Mode。这个功能在免费版就默认提供，用机器学习识别并拦截"机器人流量"。问题在于，它不区分恶意采集脚本和合法 AI 爬虫——GPTBot、PerplexityBot、ClaudeBot 在它眼里和黑产爬虫是一类东西，一律拦截或丢一个验证页。

两层叠加，结果就是：大量独立站在老板毫不知情的情况下，对整个 AI 世界处于隐身状态。AI 爬虫上门 → 被防火墙挡在门外 → 模型对这个站一无所知 → 用户让 AI 推荐同类产品时，答案里只有竞品的名字。

为什么 2026 年这件事值得管

如果 AI 流量无足轻重，隐身就隐身了。但数据已经不支持"无足轻重"这个判断：

Adobe Digital Insights（2026 年 4 月）：2026 年 Q1，美国零售网站的 AI 来源流量同比增长 393%；更关键的是质量——3 月 AI 来源流量的转化率比非 AI 流量高 42%，而一年前（2025 年 3 月）这个数字还是低 38%。一年之内，这个渠道从"看热闹的"变成了"来下单的"。AI 来的访客停留时间长 48%，单次访问产生的收入高 37%。
Shopify（2026 年 Q1 商家数据）：来自 ChatGPT、Perplexity、Gemini 的引荐会话同比增长 8 倍以上，AI 来源订单数增长近 13 倍；从产品详情页进入的 AI 访客，转化率比自然搜索访客高约 50%，客单价高 14%，在 25 个商品品类里的 23 个跑赢。

也要诚实补一句：AI 引荐流量目前占网站总流量的比例平均只有 1% 左右，还是个小渠道。但转化质量已经反转、量在以倍数级增长、而大多数竞争对手还没动手——这三件事同时成立的渠道，过去十年只在早期的 Google Shopping 和早期的红人带货上出现过。

而所有这一切的前提只有一个：AI 得先进得了你的门。

十分钟自查：你的站对 AI 是开门还是闭门

第一步：查 robots.txt（2 分钟）

浏览器打开 你的域名/robots.txt，搜这几个关键词：GPTBot、OAI-SearchBot、ChatGPT-User、PerplexityBot、ClaudeBot、Google-Extended。

看到类似配置就要警惕：

User-agent: GPTBot
Disallow: /

很多建站服务商和"防采集"插件会一刀切地把 AI 爬虫全部 Disallow。这是 2023 年"防内容被白嫖"的旧思路，放在 2026 年，等于亲手把 AI 渠道焊死。

第二步：模拟 AI 爬虫实测（5 分钟，关键步骤）

robots.txt 只是"告示牌"，Cloudflare 这类防火墙才是"保安"——告示牌写着欢迎，保安照样能把人按住。所以必须实测。打开终端（Mac/Linux 直接用，Windows 用 PowerShell 或 WSL），跑两条命令对比。

先用正常浏览器身份请求：

curl -I -A "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0 Safari/537.36" https://你的域名.com

再用 GPTBot 的身份请求：

curl -I -A "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.2; +https://openai.com/gptbot" https://你的域名.com

把 UA 换成 OAI-SearchBot、PerplexityBot、ClaudeBot 再各跑一遍（完整 UA 字符串以各家官方爬虫文档为准）。

判读结果：

两条都返回 HTTP/2 200 → 这一层没问题；
浏览器 UA 返回 200，AI 爬虫 UA 返回 403、503，或一个 "Just a moment..." 验证页 → 你的站正在拒绝 AI。

第三步：进 Cloudflare 后台核对（3 分钟）

如果域名走 Cloudflare，登录后台依次检查：

Security → Bots：看 Block AI Bots / AI Crawl Control 相关开关。2025 年 7 月之后接入的域名，这里大概率默认是"屏蔽"；
Bot Fight Mode / Super Bot Fight Mode 是否开启——开启状态下，AI 爬虫会被无差别拦截；
Security → WAF：有没有历史遗留的自定义规则，按 UA 或 ASN 拦了爬虫。

一个必须说明的局限

上面的 curl 测试只能验证 UA 层的规则。Cloudflare 真正的拦截还有 IP 信誉和 JS 质询两层——真实的 GPTBot 从 OpenAI 官方公布的 IP 段发起请求，CF 会校验来源 IP。你在自己电脑上伪装 UA 测通过，不代表真实爬虫一定进得来。

终审证据只有一个：服务器日志（或 CF 的 Security Analytics）里，AI 爬虫真实请求的记录和返回码。这一层需要日志访问权限和一点经验，自己动手有难度。

修复思路：不是"全放行"，是"精细放行"

查出问题后，别从一个极端跳到另一个极端、把所有爬虫一股脑放进来。正确做法是区分训练爬虫和检索爬虫。

以 OpenAI 为例，它有三个爬虫，干的是三件完全不同的事：

爬虫	用途	屏蔽它的后果
`GPTBot`	抓内容训练模型	内容不进未来模型的"记忆"，但不直接影响搜索可见性
`OAI-SearchBot`	ChatGPT 搜索功能的索引	ChatGPT 搜不到你 = 推荐不了你
`ChatGPT-User`	用户对话中实时访问网页	用户让 ChatGPT 打开你的链接时，打不开

也就是说，哪怕你坚持"内容不给 AI 训练"，至少也要放行 OAI-SearchBot 和 ChatGPT-User，否则等于主动退出 AI 推荐这个渠道。Google 同理：Google-Extended 只控制 AI 训练，屏蔽它不影响传统排名。

一个兼顾内容保护和 AI 可见性的 robots.txt 思路（示例，按自己的策略调整）：

# 不给训练
User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

# 但保留 AI 搜索可见性
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

注意：robots.txt 改完只解决"告示牌"，Cloudflare 后台的 WAF / Bot 管理规则要同步调整，让"保安"放行对应爬虫。这一步因人而异——CF 套餐、建站平台（Shopify / WordPress / 自建）、现有规则集不同，配置方法都不一样，比 robots.txt 复杂得多，改错了可能把恶意爬虫一起放进来。

查完之后

按上面的方法走一遍，你会落到三种结果之一：门开着（很好，接下来该把 AI 流量的归因做对）；门关着（按上一节的思路修）；查不出来或不确定（最常见，尤其是日志级验证那一步）。

AI 可见性不是一个开关，而是一条链路：爬虫可达性 → 结构化数据 → 在 AI 答案里的真实出现率 → 流量归因。任何一环断了，前面的投入都看不到回报。这套诊断我们已经标准化，如果你想知道自己的站在 AI 世界里到底是开门还是闭门，聊聊你的站，或了解我们的 GEO / SEO 增长服务。

数据与事实来源：Cloudflare "Content Independence Day"（2025.7.1）官方公告；Adobe Digital Insights 2026 Q1 美国零售数据；Shopify 2026 Q1 commerce data；OpenAI 官方爬虫文档（openai.com/gptbot、openai.com/searchbot）；Perplexity、Anthropic 官方爬虫说明。UA 字符串会随版本更新，以官方文档为准。