你的独立站可能正对 ChatGPT 隐身:一份 AI 爬虫可达性自查
站可能 Google 排名不错、广告也正常,但在 ChatGPT、Perplexity 眼里并不存在——因为 AI 爬虫根本进不了门。2025 年 7 月 Cloudflare 改了默认规则,这篇给出十分钟自查方法与精细化放行方案。
先说一个反常识的判断:
一个独立站可以 Google 排名不错、广告跑得正常、打开速度也快——但在 ChatGPT 和 Perplexity 的世界里,它根本不存在。
不是内容不行,也不是没做"GEO 优化",而是一个几乎没人点开过的设置在作怪:AI 的爬虫,连网站的门都进不来。
我们给出海客户做 AI 可见性诊断时,这一条永远排在第一位——比结构化数据、比内容质量都靠前。爬虫进不来,后面所有优化都是空中楼阁。下面是完整的自查方法,照着把自己的站走一遍,大概十分钟。
2025 年 7 月 1 日,默认规则被改了一次
这一天,Cloudflare 宣布了一个决定:所有新接入的域名,默认屏蔽 AI 爬虫。站长可以手动放行,也可以加入它的"按次付费抓取"计划,向 AI 公司收费。
Cloudflare 把这次行动命名为 "Content Independence Day"。说它"改变互联网规则"并不夸张——全球超过 20% 的网站由 Cloudflare 承载,而在跨境独立站这个圈子,CF 的渗透率远不止 20%:免费 CDN、免费防护、解析方便,几乎是建站标配。
更隐蔽的是第二层:Bot Fight Mode。这个功能在免费版就默认提供,用机器学习识别并拦截"机器人流量"。问题在于,它不区分恶意采集脚本和合法 AI 爬虫——GPTBot、PerplexityBot、ClaudeBot 在它眼里和黑产爬虫是一类东西,一律拦截或丢一个验证页。
两层叠加,结果就是:大量独立站在老板毫不知情的情况下,对整个 AI 世界处于隐身状态。AI 爬虫上门 → 被防火墙挡在门外 → 模型对这个站一无所知 → 用户让 AI 推荐同类产品时,答案里只有竞品的名字。
为什么 2026 年这件事值得管
如果 AI 流量无足轻重,隐身就隐身了。但数据已经不支持"无足轻重"这个判断:
- Adobe Digital Insights(2026 年 4 月):2026 年 Q1,美国零售网站的 AI 来源流量同比增长 393%;更关键的是质量——3 月 AI 来源流量的转化率比非 AI 流量高 42%,而一年前(2025 年 3 月)这个数字还是低 38%。一年之内,这个渠道从"看热闹的"变成了"来下单的"。AI 来的访客停留时间长 48%,单次访问产生的收入高 37%。
- Shopify(2026 年 Q1 商家数据):来自 ChatGPT、Perplexity、Gemini 的引荐会话同比增长 8 倍以上,AI 来源订单数增长近 13 倍;从产品详情页进入的 AI 访客,转化率比自然搜索访客高约 50%,客单价高 14%,在 25 个商品品类里的 23 个跑赢。
也要诚实补一句:AI 引荐流量目前占网站总流量的比例平均只有 1% 左右,还是个小渠道。但转化质量已经反转、量在以倍数级增长、而大多数竞争对手还没动手——这三件事同时成立的渠道,过去十年只在早期的 Google Shopping 和早期的红人带货上出现过。
而所有这一切的前提只有一个:AI 得先进得了你的门。
十分钟自查:你的站对 AI 是开门还是闭门
第一步:查 robots.txt(2 分钟)
浏览器打开 你的域名/robots.txt,搜这几个关键词:GPTBot、OAI-SearchBot、ChatGPT-User、PerplexityBot、ClaudeBot、Google-Extended。
看到类似配置就要警惕:
User-agent: GPTBot
Disallow: /
很多建站服务商和"防采集"插件会一刀切地把 AI 爬虫全部 Disallow。这是 2023 年"防内容被白嫖"的旧思路,放在 2026 年,等于亲手把 AI 渠道焊死。
第二步:模拟 AI 爬虫实测(5 分钟,关键步骤)
robots.txt 只是"告示牌",Cloudflare 这类防火墙才是"保安"——告示牌写着欢迎,保安照样能把人按住。所以必须实测。打开终端(Mac/Linux 直接用,Windows 用 PowerShell 或 WSL),跑两条命令对比。
先用正常浏览器身份请求:
curl -I -A "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0 Safari/537.36" https://你的域名.com
再用 GPTBot 的身份请求:
curl -I -A "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.2; +https://openai.com/gptbot" https://你的域名.com
把 UA 换成 OAI-SearchBot、PerplexityBot、ClaudeBot 再各跑一遍(完整 UA 字符串以各家官方爬虫文档为准)。
判读结果:
- 两条都返回
HTTP/2 200→ 这一层没问题; - 浏览器 UA 返回 200,AI 爬虫 UA 返回
403、503,或一个 "Just a moment..." 验证页 → 你的站正在拒绝 AI。
第三步:进 Cloudflare 后台核对(3 分钟)
如果域名走 Cloudflare,登录后台依次检查:
- Security → Bots:看 Block AI Bots / AI Crawl Control 相关开关。2025 年 7 月之后接入的域名,这里大概率默认是"屏蔽";
- Bot Fight Mode / Super Bot Fight Mode 是否开启——开启状态下,AI 爬虫会被无差别拦截;
- Security → WAF:有没有历史遗留的自定义规则,按 UA 或 ASN 拦了爬虫。
一个必须说明的局限
上面的 curl 测试只能验证 UA 层的规则。Cloudflare 真正的拦截还有 IP 信誉和 JS 质询两层——真实的 GPTBot 从 OpenAI 官方公布的 IP 段发起请求,CF 会校验来源 IP。你在自己电脑上伪装 UA 测通过,不代表真实爬虫一定进得来。
终审证据只有一个:服务器日志(或 CF 的 Security Analytics)里,AI 爬虫真实请求的记录和返回码。这一层需要日志访问权限和一点经验,自己动手有难度。
修复思路:不是"全放行",是"精细放行"
查出问题后,别从一个极端跳到另一个极端、把所有爬虫一股脑放进来。正确做法是区分训练爬虫和检索爬虫。
以 OpenAI 为例,它有三个爬虫,干的是三件完全不同的事:
| 爬虫 | 用途 | 屏蔽它的后果 |
|---|---|---|
GPTBot | 抓内容训练模型 | 内容不进未来模型的"记忆",但不直接影响搜索可见性 |
OAI-SearchBot | ChatGPT 搜索功能的索引 | ChatGPT 搜不到你 = 推荐不了你 |
ChatGPT-User | 用户对话中实时访问网页 | 用户让 ChatGPT 打开你的链接时,打不开 |
也就是说,哪怕你坚持"内容不给 AI 训练",至少也要放行 OAI-SearchBot 和 ChatGPT-User,否则等于主动退出 AI 推荐这个渠道。Google 同理:Google-Extended 只控制 AI 训练,屏蔽它不影响传统排名。
一个兼顾内容保护和 AI 可见性的 robots.txt 思路(示例,按自己的策略调整):
# 不给训练
User-agent: GPTBot
Disallow: /
User-agent: CCBot
Disallow: /
# 但保留 AI 搜索可见性
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: PerplexityBot
Allow: /
注意:robots.txt 改完只解决"告示牌",Cloudflare 后台的 WAF / Bot 管理规则要同步调整,让"保安"放行对应爬虫。这一步因人而异——CF 套餐、建站平台(Shopify / WordPress / 自建)、现有规则集不同,配置方法都不一样,比 robots.txt 复杂得多,改错了可能把恶意爬虫一起放进来。
查完之后
按上面的方法走一遍,你会落到三种结果之一:门开着(很好,接下来该把 AI 流量的归因做对);门关着(按上一节的思路修);查不出来或不确定(最常见,尤其是日志级验证那一步)。
AI 可见性不是一个开关,而是一条链路:爬虫可达性 → 结构化数据 → 在 AI 答案里的真实出现率 → 流量归因。任何一环断了,前面的投入都看不到回报。这套诊断我们已经标准化,如果你想知道自己的站在 AI 世界里到底是开门还是闭门,聊聊你的站,或了解我们的 GEO / SEO 增长服务。
数据与事实来源:Cloudflare "Content Independence Day"(2025.7.1)官方公告;Adobe Digital Insights 2026 Q1 美国零售数据;Shopify 2026 Q1 commerce data;OpenAI 官方爬虫文档(openai.com/gptbot、openai.com/searchbot);Perplexity、Anthropic 官方爬虫说明。UA 字符串会随版本更新,以官方文档为准。