MockCube 托福 AI 模考 SaaS 已上线 —— 机构白标授权,低至 8800 元/年。
← back to insights
#GEO#AI可见性#独立站

你的独立站可能正对 ChatGPT 隐身:一份 AI 爬虫可达性自查

站可能 Google 排名不错、广告也正常,但在 ChatGPT、Perplexity 眼里并不存在——因为 AI 爬虫根本进不了门。2025 年 7 月 Cloudflare 改了默认规则,这篇给出十分钟自查方法与精细化放行方案。

先说一个反常识的判断:

一个独立站可以 Google 排名不错、广告跑得正常、打开速度也快——但在 ChatGPT 和 Perplexity 的世界里,它根本不存在。

不是内容不行,也不是没做"GEO 优化",而是一个几乎没人点开过的设置在作怪:AI 的爬虫,连网站的门都进不来。

我们给出海客户做 AI 可见性诊断时,这一条永远排在第一位——比结构化数据、比内容质量都靠前。爬虫进不来,后面所有优化都是空中楼阁。下面是完整的自查方法,照着把自己的站走一遍,大概十分钟。

2025 年 7 月 1 日,默认规则被改了一次

这一天,Cloudflare 宣布了一个决定:所有新接入的域名,默认屏蔽 AI 爬虫。站长可以手动放行,也可以加入它的"按次付费抓取"计划,向 AI 公司收费。

Cloudflare 把这次行动命名为 "Content Independence Day"。说它"改变互联网规则"并不夸张——全球超过 20% 的网站由 Cloudflare 承载,而在跨境独立站这个圈子,CF 的渗透率远不止 20%:免费 CDN、免费防护、解析方便,几乎是建站标配。

更隐蔽的是第二层:Bot Fight Mode。这个功能在免费版就默认提供,用机器学习识别并拦截"机器人流量"。问题在于,它不区分恶意采集脚本和合法 AI 爬虫——GPTBot、PerplexityBot、ClaudeBot 在它眼里和黑产爬虫是一类东西,一律拦截或丢一个验证页。

两层叠加,结果就是:大量独立站在老板毫不知情的情况下,对整个 AI 世界处于隐身状态。AI 爬虫上门 → 被防火墙挡在门外 → 模型对这个站一无所知 → 用户让 AI 推荐同类产品时,答案里只有竞品的名字。

为什么 2026 年这件事值得管

如果 AI 流量无足轻重,隐身就隐身了。但数据已经不支持"无足轻重"这个判断:

  • Adobe Digital Insights(2026 年 4 月):2026 年 Q1,美国零售网站的 AI 来源流量同比增长 393%;更关键的是质量——3 月 AI 来源流量的转化率比非 AI 流量高 42%,而一年前(2025 年 3 月)这个数字还是低 38%。一年之内,这个渠道从"看热闹的"变成了"来下单的"。AI 来的访客停留时间长 48%,单次访问产生的收入高 37%。
  • Shopify(2026 年 Q1 商家数据):来自 ChatGPT、Perplexity、Gemini 的引荐会话同比增长 8 倍以上,AI 来源订单数增长近 13 倍;从产品详情页进入的 AI 访客,转化率比自然搜索访客高约 50%,客单价高 14%,在 25 个商品品类里的 23 个跑赢。

也要诚实补一句:AI 引荐流量目前占网站总流量的比例平均只有 1% 左右,还是个小渠道。但转化质量已经反转、量在以倍数级增长、而大多数竞争对手还没动手——这三件事同时成立的渠道,过去十年只在早期的 Google Shopping 和早期的红人带货上出现过。

而所有这一切的前提只有一个:AI 得先进得了你的门。

十分钟自查:你的站对 AI 是开门还是闭门

第一步:查 robots.txt(2 分钟)

浏览器打开 你的域名/robots.txt,搜这几个关键词:GPTBotOAI-SearchBotChatGPT-UserPerplexityBotClaudeBotGoogle-Extended

看到类似配置就要警惕:

User-agent: GPTBot
Disallow: /

很多建站服务商和"防采集"插件会一刀切地把 AI 爬虫全部 Disallow。这是 2023 年"防内容被白嫖"的旧思路,放在 2026 年,等于亲手把 AI 渠道焊死。

第二步:模拟 AI 爬虫实测(5 分钟,关键步骤)

robots.txt 只是"告示牌",Cloudflare 这类防火墙才是"保安"——告示牌写着欢迎,保安照样能把人按住。所以必须实测。打开终端(Mac/Linux 直接用,Windows 用 PowerShell 或 WSL),跑两条命令对比。

先用正常浏览器身份请求:

curl -I -A "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0 Safari/537.36" https://你的域名.com

再用 GPTBot 的身份请求:

curl -I -A "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.2; +https://openai.com/gptbot" https://你的域名.com

把 UA 换成 OAI-SearchBotPerplexityBotClaudeBot 再各跑一遍(完整 UA 字符串以各家官方爬虫文档为准)。

判读结果:

  • 两条都返回 HTTP/2 200 → 这一层没问题;
  • 浏览器 UA 返回 200,AI 爬虫 UA 返回 403503,或一个 "Just a moment..." 验证页 → 你的站正在拒绝 AI。

第三步:进 Cloudflare 后台核对(3 分钟)

如果域名走 Cloudflare,登录后台依次检查:

  • Security → Bots:看 Block AI Bots / AI Crawl Control 相关开关。2025 年 7 月之后接入的域名,这里大概率默认是"屏蔽";
  • Bot Fight Mode / Super Bot Fight Mode 是否开启——开启状态下,AI 爬虫会被无差别拦截;
  • Security → WAF:有没有历史遗留的自定义规则,按 UA 或 ASN 拦了爬虫。

一个必须说明的局限

上面的 curl 测试只能验证 UA 层的规则。Cloudflare 真正的拦截还有 IP 信誉JS 质询两层——真实的 GPTBot 从 OpenAI 官方公布的 IP 段发起请求,CF 会校验来源 IP。你在自己电脑上伪装 UA 测通过,不代表真实爬虫一定进得来。

终审证据只有一个:服务器日志(或 CF 的 Security Analytics)里,AI 爬虫真实请求的记录和返回码。这一层需要日志访问权限和一点经验,自己动手有难度。

修复思路:不是"全放行",是"精细放行"

查出问题后,别从一个极端跳到另一个极端、把所有爬虫一股脑放进来。正确做法是区分训练爬虫检索爬虫

以 OpenAI 为例,它有三个爬虫,干的是三件完全不同的事:

爬虫用途屏蔽它的后果
GPTBot抓内容训练模型内容不进未来模型的"记忆",但不直接影响搜索可见性
OAI-SearchBotChatGPT 搜索功能的索引ChatGPT 搜不到你 = 推荐不了你
ChatGPT-User用户对话中实时访问网页用户让 ChatGPT 打开你的链接时,打不开

也就是说,哪怕你坚持"内容不给 AI 训练",至少也要放行 OAI-SearchBotChatGPT-User,否则等于主动退出 AI 推荐这个渠道。Google 同理:Google-Extended 只控制 AI 训练,屏蔽它不影响传统排名。

一个兼顾内容保护和 AI 可见性的 robots.txt 思路(示例,按自己的策略调整):

# 不给训练
User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

# 但保留 AI 搜索可见性
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

注意:robots.txt 改完只解决"告示牌",Cloudflare 后台的 WAF / Bot 管理规则要同步调整,让"保安"放行对应爬虫。这一步因人而异——CF 套餐、建站平台(Shopify / WordPress / 自建)、现有规则集不同,配置方法都不一样,比 robots.txt 复杂得多,改错了可能把恶意爬虫一起放进来。

查完之后

按上面的方法走一遍,你会落到三种结果之一:门开着(很好,接下来该把 AI 流量的归因做对);门关着(按上一节的思路修);查不出来或不确定(最常见,尤其是日志级验证那一步)。

AI 可见性不是一个开关,而是一条链路:爬虫可达性 → 结构化数据 → 在 AI 答案里的真实出现率 → 流量归因。任何一环断了,前面的投入都看不到回报。这套诊断我们已经标准化,如果你想知道自己的站在 AI 世界里到底是开门还是闭门,聊聊你的站,或了解我们的 GEO / SEO 增长服务


数据与事实来源:Cloudflare "Content Independence Day"(2025.7.1)官方公告;Adobe Digital Insights 2026 Q1 美国零售数据;Shopify 2026 Q1 commerce data;OpenAI 官方爬虫文档(openai.com/gptbot、openai.com/searchbot);Perplexity、Anthropic 官方爬虫说明。UA 字符串会随版本更新,以官方文档为准。