官方运营-Sean丶♥        更新文章
来自:Windows设备 · 3 年前

北京seo教你玩机器人协议 #蜘蛛 #搜索引擎 #谷歌 #百度 #索引 #蜘蛛 #搜索引擎 #谷歌 #百度 #索引

北京seo教你玩机器人协议

北京seo教你玩机器人协议

什么是机器人协议机器人,也就是搜索引擎爬虫协议,是搜索引擎爬虫和网站之间的“桥梁”。该网站清楚地告诉搜索引擎爬虫哪些文件/目录可以被爬行,哪些文件/目录不能通过机器人文件中的声明规则被爬行。注意:如果网站中有你不想让搜索引擎爬虫抓取的东西,就必须创建robots.txt文件。如果你想让搜索引擎包含网站上的所有内容,你不需要创建robots.txt文件。通常,网站的robots.txt文件放在网站的根目录下,方便搜索引擎爬虫在第一时间抓取文件。Robots.txt文件格式1。机器人文件通常以一个或多个用户代理开始,然后是几个不允许或允许。2.用户代理:用于描述搜索引擎机器人的名称。3.如果有多个用户代理记录,这意味着多个机器人将受到“机器人. txt”的限制,并且至少需要一个用户代理记录。4.如果用户代理的值设置为*,它对任何机器人都有效,并且只能有一个像“用户代理:*”这样的记录。5.如果有“用户-代理:SomeBot”和几个“不允许”和“允许”行,则搜索引擎爬网程序名称“SomeBot”仅受“用户-代理:SomeBot”后的“不允许”和“允许”行的限制。6.Disallow:用于描述一组不想被访问的网址。7.该值可以是完整路径,也可以是路径的非空前缀。机器人将不会访问以“不允许”项目的值开始的网址。8.例如,“禁止:/帮助”规则意味着禁止机器人访问/help.html、/helpabc.html、/help/index.html等。9.例如,规则“Disallow:/help/”意味着允许机器人访问/help.html和/helpabc.html,但不能访问/help/index.html。“Disallow:”表示允许机器人访问网站的所有网址,并且在robots.txt文件中必须至少有一条“不允许”记录。11.如果网站根目录中的robots.txt不存在或为空文件,则网站对所有搜索引擎爬虫开放。12.Allow:用于描述一组您想要访问的网址。13.与“不允许”项目类似,该值可以是完整路径或路径前缀。以不允许项目的值开始的网址是允许机器人访问。14.例如,规则“Allow:/hibaidu”意味着允许机器人访问/hibaidu.htm、/hibaiducom.html和/hi Baidu com . html。默认情况下,网站的所有网址都是允许的,因此“允许”通常与“不允许”一起使用,以实现允许访问某些网页而禁止访问所有其他网址的功能。15.使用“*”和“$”:百度蜘蛛支持使用通配符“*”和“$”来模糊匹配网址。北京搜索引擎优化如何玩机器人协议1。禁止所有搜索引擎爬网程序访问网站的任何内容用户代理: *禁止:/
喜欢