robots协议如何正确的书写

04.13 17:14:32发布

SEO基础建站教程精华版将要接近尾声,我们还需要学习一个非常重要的设置,就是robosts协议的书写。当百度蜘蛛在爬取网站的时候,会先搜索读取网站根目录下的 robosts.txt 文件内容,按照上面的说明,有规矩的抓取网站的内容,这里先声明一个事实,并不是所有的搜索引擎都会遵守robosts协议,如果你网站部分信息非常的关键,建议大家可以直接屏蔽掉少数不常用的搜索引擎。下面就详细讲解一下robosts协议如何书写。


一、robosts协议注意事项


robots协议一般都是通过记事本的方式去书写的,书写格式有特定一些英文词汇,这里要非常注意几个问题。

第一:注意英文的大小写,绝对不能出错。

第二:注意输入法的切换,标点符号,一定都要使用英文的符号。

第三:书写完一条规则,要记得换行,一行一条。

robosts文件中任何一条出现以上错误,这一条协议规则就不会生效,这点要格外注意,以免酿成不必要的后果。

robosts协议书写规则


二、robosts协议格式词汇解析


User-agent:——用户代理,定义搜索引擎类型,该词汇只用于描述搜索引擎 robosts 的名字。

Disallow:——不希望被访问的一组URL,定义禁止抓取收录该地址。

Allow:——希望被访问的一组URL,定义允许抓取收录该地址。


robosts协议中使用特定符号

*——使用它可以代替该路径的字母,后面加* 就是这个文件拒绝,一般用于动态路径

$——结束符,在这里进行终结,一般用于动态路径。


读到这里,有些同学有了解一些robosts协议,书写的规则更是五花八门,然后把自己都绕糊涂了,也不知道自己书写的规则能不能生效,其实也没有复杂的,下面我们就详细的讲解一下。


我们都知道百度蜘蛛来抓取网站的内容,是根据网站的 URL链接来顺着爬取的。私塾班里面详细的讲解到,有关 URL路径的优化规则,在网站优化到中后期,起到了非常重要作用。URL路径可以分为三种:静态路径、动态路径、伪静态路径。有些程序 URL路径是静态的,有些程序 URL是动态路径。我们也可以通过一个简单的设置,将动态路径改为静态路径,这种设置叫做伪静态。三、那什么是动态路径,什么是动态路径?


动态路径是通过函数(? ¥ = & ),字母,数字组成的链接(如下图),关于动态路径的作用大家可以自行百度。

例如:http://seo200.cn/?p=123

动态路径的类型静态 URL路径是有 “/”组成的链接叫做静态路径,到单页面以 .html结尾,关于静态路径优化网站的好处大家可以自行百度,这里就不多做介绍了。

例如:http://seo200.cn/jianzhan/140.htlm

静态的url路径设置

URL路径大家都清楚了,路径是从首页到单页面,robosts协议也是要根据路径的抓取规则来书写。


robosts协议的书写规则


1.屏蔽搜索引擎

User-agent:*  (屏蔽所有的搜索引擎)

User-agent:Baiduspider (屏蔽百度搜索引擎)

这里要选择书写各个搜索引擎蜘蛛的英文全称,主要大小写以官方为准。


2.静态路径robosts书写

举个例子:http://seo200.cn/jianzhan/dedejz/151.html,在这个URL链接有两个目录:建站 》织梦建站》文章,那如果我想屏蔽掉这篇文章不要被搜索引擎抓取,robots

静态路径的格式Disallow:/jianjian/dedejz/151.html (允许抓抓取 jianzhan;dedejz栏目页面内容,不允许抓取151.html 这一篇文章

Disallow:/jianjian/dedejz/ (允许抓取 jianzhan;dedejz栏目页面内容,不允许抓取 dedejz 目录下所有文章

Disallow:/jianjian/dedejz (允许抓取 jianzhan栏目页面内容,不允许抓取dedecms栏目的内容

Disallow:/jianjian/ (允许抓取 jianzhan栏目页面,不允许抓取 jianjian以下的所有内容

Disallow:/jianjian 不允许抓取 jianzhan栏目页面,不允许抓取jianzhan以下的所有内容Disallow 和 Allow一般是搭配结合书写

Disallow:/jianjian/dedejz 

Allow:/jianjian/dedejz/151.html (允许抓取 jianzhan栏目页面,不允许抓取dedecms栏目页面,又允许抓取151.html这篇文章


Disallow:/jianjian

Allow:/jianjian/dedejz (不允许抓取 jianzhan的内容,允许抓取dedej栏目这个页面)


Disallow:/jianjian

Allow:/jianjian/dedejz /(不允许jianzhan栏目内容,允许抓取dedejz栏目下的所有文章)

大家试着慢慢去体会一下格式的含义的重要性,这里我为让大家更好的理解我是小范围往大范围书写的,你们在书写范围值一定要从大到小排列去书写。3.动态路径robosts书写

Disallow: /*.css$

Disallow: /*jpg.$   (屏蔽js和css书写格式)


你的动态链接是这样子,http://www.jiixangseo.com/?cat=1

Disallow: /?*


你的动态链接是这样子,http://www.jiixangseo.com/goods.php?id=284

Disallow: /*?*动态路径是非常有局限性的,robosts协议书写可以试着寻找一下动态链接的规则,在适当的字母或者函数,用“*”来代替。这里还是建议大家使用静态路径,大家快去根据自己网站内容,去书写robosts协议吧。


登录 后发表评论
0条评论
还没有人评论过~