做SEO的同学有一个常见误区:网站上线了,内容写好了,Google就能抓到。

实际上,爬虫看到的页面和你在浏览器里看到的页面,可能截然不同。这不是小概率事件,而是现代网站架构下普遍存在的隐患。

为什么会有这个问题?

现代网站大多采用前后端分离架构,页面内容有两种生成方式:

渲染方式

内容在哪里生成

爬虫能否直接看到

SSR(服务端渲染)

服务器生成完整HTML后发出,内容直接在源码里

✅ 可以,第一次请求就拿到内容

CSR(客户端渲染)

服务器只返回空壳,内容由浏览器执行JS后生成

⚠️ 需要执行JS,部分爬虫做不到

SSR+CSR混合

核心框架SSR,动态内容CSR,边界模糊

取决于具体内容落在哪一侧


两类爬虫的工作方式完全不同

这是很多人没有意识到的关键差异。

SEO爬虫(Googlebot、Bingbot)

Googlebot能执行JavaScript,但采用"两阶段渲染"机制:

  1. 第一阶段:抓取原始HTML,建立初步索引

  2. 第二阶段:将页面放入渲染队列,用Chromium执行JS,更新索引

两个阶段之间存在延迟,有时长达数天。如果正文内容不在原始HTML里,第一阶段就是空的,第二阶段渲染能否成功还取决于页面JS是否有报错。

AI爬虫(GPTBot、ClaudeBot、PerplexityBot等)

AI爬虫基本不执行JavaScript,只抓取原始HTML。这意味着:

  • 如果页面内容靠JS渲染,AI爬虫拿到的就是空页面

  • FAQ、商品描述、文章正文,如果不在原始HTML里,AI搜索平台对这些内容一无所知

  • 随着ChatGPT、Perplexity等AI搜索使用量持续增长,这个问题对品牌曝光的影响越来越大


核心结论

SEO爬虫还有两阶段渲染作为保底,AI爬虫没有任何补救机制。原始HTML里有什么,它们就知道什么。


一个快速自查方法

不需要任何工具,30秒就能判断:

在Chrome里打开任意一个重要页面,Wins用户按 Ctrl+U(Mac用户按 Command+U),打开页面的原始源代码。

然后按 Ctrl+F,搜索代码页面上任意一段正文内容、FAQ文字,或者商品描述


搜索结果

说明

爬虫视角

✅ 搜索到了

内容在SSR里,原始HTML中存在

爬虫可以直接获取

❌ 没搜索到

内容依赖JS渲染,原始HTML中不存在

AI爬虫完全看不到,SEO爬虫也有风险


SEO有一条铁律:初始 HTML 必须具有完整的语义- Initial HTML must be fully meaningful。服务器第一次返回的HTML,就应该包含页面所有核心内容,不依赖JS填充。这是SEO和GEO共同的基础要求。


下一篇预告

只用Ctrl+U还不够精确。下一篇教你用一行命令,精确模拟任意爬虫的身份,验证它们到底能不能抓到你的内容。

相关文章:
服务器端渲染VS客户端渲染,哪个对SEO更友好?


点赞(3) 打赏

评论列表 共有 0 条评论

暂无评论

服务号

订阅号

备注【拉群】

商务洽谈

微信联系站长

发表
评论
立即
投稿
返回
顶部