1. 什么是 robots.txt?

robots.txt 是放在网站根目录下的一个文本文件,用来告诉搜索引擎蜘蛛(crawler/#robot)哪些页面或目录可以抓取,哪些需要屏蔽。

例如:

  • 允许所有搜索引擎抓取:

    User-agent: *
    Allow: /

  • 禁止所有搜索引擎抓取:

    User-agent: *
    Disallow: /


2. 常见的 robots.txt 设置方式

✅ 2.1 允许所有内容被抓取

适合内容型网站(电商,博客)

User-agent: *
Allow: /

✅ 2.2 禁止整个网站抓取

适合开发中、测试环境

User-agent: *
Disallow: /

✅ 2.3 屏蔽指定目录

适合屏蔽后台、敏感目录

User-agent: *
Disallow: /admin/
Disallow: /login/
Disallow: /cart/

✅ 2.4 针对特定搜索引擎设置

单独禁止 Googlebot 抓取某些目录

User-agent: Googlebot
Disallow: /private/

✅ 2.5 添加 sitemap 提示

告诉搜索引擎 sitemap.xml 的地址

User-agent: *
Allow: /
Sitemap: https://www.example.com/sitemap.xml


3. 如何修改 robots.txt

? 3.1 WordPress 网站

  • 方法一:安装 Yoast SEO 或 Rank Math 插件,在后台直接编辑 robots.txt;

  • 方法二:通过 FTP 或主机面板,进入网站根目录 /public_html/,找到 robots.txt 文件并手动修改。

? 3.2 Shopify / Wix / Squarespace

  • 一般系统自动生成,修改权限有限,可以通过 SEO 插件或主题设置调整。

? 3.3 自建独立站 (PHP/HTML)

  • 在网站根目录(例如 /var/www/html/)新建或修改 robots.txt 文件;

  • 保存后上传至服务器即可生效。


4. 修改 robots.txt 的注意事项

  1. 不要屏蔽重要页面:产品页、分类页必须允许抓取;

  2. 避免误屏蔽 CSS/JS:否则可能影响 Google 渲染;

  3. 调试工具:可以用 [Google Search Console → 抓取工具测试 robots.txt];

  4. 记得更新 sitemap:修改 robots.txt 后,最好提交 sitemap,帮助搜索引擎重新抓取。



点赞(1) 打赏

评论列表 共有 0 条评论

暂无评论

服务号

订阅号

备注【拉群】

商务洽谈

微信联系站长

发表
评论
立即
投稿
返回
顶部