robots.txt文件是一个放置在网站根目录的协议,它的主要作用是用来正确引导搜索引擎蜘蛛抓取和收录页面,告诉搜索引擎哪些页面可以收录而哪些不可以,关于robots.txt文件的写法,不同的网站程序有不同的写法,下面笔者就来说说WordPress网站的robots.txt文件写法。
在了解WordPress 网站的robots文件写法之前,先来了解下robots.txt 的基本写法
1. User-agent:
表示定义哪个搜索引擎,如User-agent:Baiduspider,定义百度蜘蛛。
2. Disallow:
表示禁止访问。
3. Allow:
表示运行访问。
通过以上三个命令,可以组合多种写法,允许哪个搜索引擎访问或禁止哪个页面。
4. *和$的使用规则:*表示通配符
例如:Disallow: /cgi-bin/*.htm
表示禁止收录cgi-bin文件夹下的所有htm后缀的文件。
或者
Disallow: /* post=
表示禁止收录含有“post=”字符的地址。
$用于通指禁止访问某后缀的文件
例如:Disallow: /*.css$
表示禁止收录以css后缀的文件。
5. Sitemap规则:Sitemap用来告诉搜索引擎网站地图的位置
网站哪些地方需要使用robots协议
1. 无用页面,很多网站都有“联系我们”、“关于我们”等页面,这些页面相对于搜索引擎优化来讲,作用不大,此时需要使用Disallow命令禁止这些页面被搜索引擎抓取。
2. 动态页面,屏蔽动态页面,有利于网站安全。且多个网址访问同一页面,会造成权重分散。因此,一般情况下,屏蔽动态页面,保留静态或伪静态页面。
3. 网站后台页面,网站后台也可以归类为无用页面,禁止收录有百益而无一害。
通过以上我们知道robots.txt文件的基本写法和哪些地方需要使用robots协议,那针对WordPress程序搭建的网站,robots.txt如何写呢?
禁止收录WordPress系统文件:
User-agent: *
Disallow: /wp-admin/Disallow: /wp-content/Disallow: /wp-includes/
禁止收录重复的内容、动态页面、以及trackback等垃圾信息:
Disallow: /*/comment-page-*Disallow: /* replytocom=*Disallow: /*/trackbackDisallow: /feedDisallow: /*/feedDisallow: /comments/feedDisallow: / s=*Disallow: /*/ s=*Disallow: /attachment/
综合上述的写法如下:
User-agent: *Disallow: /wp-admin/Disallow: /wp-content/Disallow: /wp-includes/Disallow: /*/comment-page-*Disallow: /* replytocom=*Disallow: /*/trackbackDisallow: /feedDisallow: /*/feedDisallow: /comments/feedDisallow: / s=*Disallow: /*/ s=*Disallow: /attachment/Sitemap: http://www.yliaosq.cn/sitemap.xml
最后将代码编写在记事本上,然后保存为robots.txt文件,通过FTP上传到网站的根目录就可以了;如需要检测robots协议是否正确生效,可以登陆百度站长平台进行Robots检测。
总结:关于WordPress网站的robots.txt文件写法,笔者在本文已做分享,当然以上的只是提供参考,robots.txt文件还需要根据你网站的实际情况去写。