robots.txt文件是一个应该存放在网站根目录里面的文本文件,该文件是用来正确引导搜索引擎抓取和收录页面的,用来告诉搜索引擎哪些页面可以收录而哪些不可以,所以正确编写robots.txt文件显得尤为重要。
WordPress博客程序默认是有自动生成robots.txt文件,但是文件很简单,只有三行代码:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
很显然WordPress自动生成的robots.txt文件有点草率,明显是不适应网站搜索引擎优化的,因此,为WordPress网站手动编写robots.txt文件应该成为建站的重要工作。
编写robots.txt必须要谨慎,否则一不小心输入错误,就会导致整个网站收录情况受到影响,得不偿失! 所以特别写来此文来论述一下robots.txt的正确写法
robots.txt的基本语法
要编写就要先了解,robots.txt也是有自己的规则的。
文件头部规则:
robots.txt文件的开头为User-agent:开头,用来指定搜索引擎蜘蛛,如果要针对百度搜索蜘蛛,可以输入
User-agent:Baiduspider
如果要对全体搜索引擎起作用,则输入
User-agent: *
Disallow规则:
Disallow: /abc 表示禁止访问收录abc.php、abc.html和abc文件夹下的所有文件。
Disallow: /abc/ 表示仅禁止访问abc文件夹下的所有文件,但是不限制abc.php、abc.html文件。
Allow规则:
Allow规则同Disallow。
*和$的使用规则:
*表示通配符
Disallow: /cgi-bin/*.htm
表示禁止收录cgi-bin文件夹下的所有htm后缀的文件。
Disallow: /*?replytocom=
表示禁止收录含有“replytocom=”字符的地址。
$用于通指禁止访问某后缀的文件
Disallow: /*.css$
表示禁止收录以css后缀的文件。
Sitemap规则:
Sitemap用来告诉搜索引擎网站地图的位置
Sitemap: http://www.uye8.com/sitemap.xml
针对WordPress网站的robots.txt的编写
WordPress的结构简单易懂,对WordPress的robots.txt编写还是比较简单的。
为了避免收录WordPress系统文件:
Disallow: /wp-admin/
Disallow: /wp-includes/ (这两条是WordPress自动生成的,一定要保留)
Disallow: /wp-content/plugins (禁止收录插件目录)
Disallow: /wp-content/themes (禁止收录模板目录)
Disallow: /wp-content/uploads (看个人喜好,如果希望网站的图片被收录,则可以去掉这条)
为了避免收录重复的内容:
Disallow: /feed
Disallow: /articles/*/feed (这两条用来禁止收录内容重复的feed源)
Disallow: /tag/ (用于禁止收录tag标签页)
Disallow: /category/ (用于禁止收录文章目录,因为此页面都是无意义的文章列表)
Disallow: /page/ (禁止收录翻页的页面)
Disallow: /*?replytocom= (禁止收录评论页面)
Disallow: /trackback (禁止收录trackback,如果关闭了此功能可以删掉)
Disallow: /*?* (禁止访问带?的页面,如果使用默认文章固定链接的千万不要添加这一句)
为了正确引导搜索引擎找到网址地图(如果有的话)
Sitemap: http://www.uye8.com/sitemap_baidu.xml
总结全部的robots.txt全文如下:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-content/uploads
Disallow: /feed
Disallow: /articles/*/feed
Disallow: /tag/
Disallow: /category/
Disallow: /page/
Disallow: /*?replytocom=
Disallow: /trackback
Disallow: /*?*
Sitemap: http://www.uye8.com/sitemap_baidu.xml
将代码编写在记事本上,然后保存为robots.txt,直接上传到网站的根目录就可以生效了,千万不要搞错放在了主题文件夹里面,检查方式可以直接在地址栏上输入“域名+robots.txt”,如果能正确访问就可以。
建议上传之后,最好用百度站长平台中的“网站分析”→“robots”检查一下语法是否正确,确保万无一失。
感谢你的赏识与认可
支付宝
微信支付
使用手机访问这篇文章
本文许可协议 © CC BY-NC-SA 4.0 转载请注明来源
- 上一篇: 刺激的混搭风-低配手机启动器SS启动器
- 下一篇: 网站换域名后不影响原链接的301跳转设置方法
好吧,学习一下,回头我也改改去!
涨姿势了 不过已经改好了 嘿嘿
我只是拒绝了replytocom
连标签,分类和页面都禁止了?
不错,不错。。。。
图片上的网址有点不配。。注意点
今天刚刚换的域名,正在重做logo
有增长见识了 呵呵 楼主多多更新
不错写的很详细嘛!
谢谢了
我的博客好像没有这个东西!
不错啊~我之前还纠结怎么写
还是要结合自己网站的实际目录来写哦
我转了哈
你看我的可对?
有几个重复了
重复了应该没关系吧
既然现在都正常收录了,没问题的,多了有备无患。
好的,谢谢了
Disallow: /wp-content/plugins Disallow: /wp-content/themes Disallow: /wp-content/uploads 这几个我干脆就直接写成 Disallow: /wp-content 了~~帮我看看我那个有没有问题吧~~最近改了几次,百度开始正常收录了。。。
正好我需要这个,留个爪印,改天把我的改了
我也要改改我的robots了
不错 很详细 兄弟