东莞折扣网
东莞广告联盟 东莞本土门户网站

WordPress站点的Robots.txt优化【东莞折扣网】

很多建站新手对robots.txt文件的重要作用不是很清楚,利用这篇文章普及一下WordPress站点robots.txt文件编写知识。

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

robots.txt文件是一个文本文件,使用任何一个常见的文本编辑器,比如Windows系统自带的Notepad,就可以创建和编辑它。robots.txt是一个协议,而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。百度官方建议,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。

WordPress会在站点根目录下自动生成robots.txt文件,原始内容如下:意思是告诉搜索引擎不要抓取后台程序文件。

 1.  User-agent: *
 2. Disallow: /wp-admin/
 3. Disallow: /wp-includes/

我们可以在浏览器中输入:http://你的域名/robots.txt来查看robots.txt的内容,这些设置对我们优化seo是不够的,以下是一些设置建议

一、文件写法

 1.    User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
 2. Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
 3. Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
 4. Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
 5. Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以“.htm”为后缀的URL(包含子目录)。
 6. Disallow: /*?* 禁止访问网站中所有的动态页面
 7. Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
 8. Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
 9. Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
 10. Allow: /tmp 这里定义是允许爬寻tmp的整个目录
 11. Allow: .htm$ 仅允许访问以“.htm”为后缀的URL。
 12. Allow: .gif$ 允许抓取网页和gif格式图片

二、文件用法

 1.  例1. 禁止所有搜索引擎访问网站的任何部分
 2. User-agent: *
 3. Disallow: /
 4. 实例分析:淘宝网的 Robots.txt文件
 5. User-agent: Baiduspider
 6. Disallow: /
 7. User-agent: baiduspider
 8. Disallow: /
 9. 很显然淘宝不允许百度的机器人访问其网站下其所有的目录。
 10. 例2. 允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt” file)
 11. User-agent: *
 12. Allow:
 13. 例3. 禁止某个搜索引擎的访问
 14. User-agent: BadBot
 15. Disallow: /
 16. 例4. 允许某个搜索引擎的访问
 17. User-agent: Baiduspider
 18. allow:/
 19. 例5.一个简单例子
 20. 在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。
 21. 需要注意的是对每一个目录必须分开声明,而不要写成 “Disallow: /cgi-bin/ /tmp/”。
 22. User-agent:后的*具有特殊的含义,代表“any robot”,
 23. 所以在该文件中不能有“Disallow: /tmp/*” or “Disallow:*.gif”这样的记录出现。
 24. User-agent: *
 25. Disallow: /cgi-bin/
 26. Disallow: /tmp/
 27. Disallow: /~joe/

三、wordpress中Robots.txt优化建议

 1.  User-agent: *  如果要对全体搜索引擎起作用,则输入
 2. Disallow: /wp-admin/
 3. Disallow: /wp-includes/ (这两条是WordPress自动生成的,一定要保留)
 4. Disallow: /wp-content/plugins (禁止收录插件目录)
 5. Disallow: /wp-content/themes  (禁止收录模板目录)
 6. Disallow: /wp-content/uploads (如果希望网站的图片被收录,则可以去掉这条)
 7. Disallow: /feed
 8. Disallow: /articles/*/feed  (这两条用来禁止收录内容重复的feed源)
 9. Disallow: /page/  (禁止收录翻页的页面)
 10. Disallow: /*?replytocom= (禁止收录评论页面)
 11. Disallow: /trackback (禁止收录trackback,如果关闭了此功能可以删掉)
 12. Disallow: /*?* (禁止访问带?的页面,如果使用默认文章固定链接的千万不要添加这一句)

四、在线生成工具和检测工具

1、站长工具

2、百度站长Robots.txt

五、总结

将代码编写在记事本上,然后保存为robots.txt,直接上传到网站的根目录就可以生效了,建议上传之后,最好用百度站长平台中的“网站分析”→“robots”检查一下语法是否正确,确保万无一失。

在书写写这些语句的时候尤其注意的一点是冒号(:)和( /) 之间要有一个空格符,如果这个空格没有加的话,是不能起到作用的,robots.txt文件一般放在网站的根目录下,而且命名必须是robots.txt。

rbotts.txt文件在屏蔽目录的时候,注意,这里如果是阻止抓取某目录的话目录名字一定要注意“/”,不带“/”表示的是阻止访问这个目录页面和目录下的页面,而带上“/”则表示进阻止目录下的内容页面,这两点要分清楚。

为了让搜索引擎更快的收录我们的内页,我们一般都会做一个百度地图或者谷歌地图,那么,Sitemap: +网站地图,这个命令就可以快速的引导搜索引擎蜘蛛来到你的地图页面对网站内页进行抓取。当网站的死链接过多处理非常麻烦的时候,我们可以利用robots来屏蔽这些页面,这样就可以避免网站因为死链接被百度降权。

 

东莞微信小程序——东莞首家专业服务商!
每天十万人关注的朋友圈、节省您的推广成本
户外广告资源整合/手机广告推广:户外广告寻盘,网络推广,东莞微信小程序开发,东莞广告联盟!
电话:13751333123(微信)号:dgzhekou

免费发布广告信息,请点击阅读原文”

赞(0) 打赏
未经允许不得转载:东莞折扣网 » WordPress站点的Robots.txt优化【东莞折扣网】
分享到: 更多 (0)
广告也精彩
广告也精彩
在线客服
在线客服
热线电话

美惠家商城 万江新村店

美惠家商城万江新村店

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

站点地图