robots协议的具体内容怎么书写语法？-燃灯SEO搜索学院

2条回答

吕布 - 吕布SEO

1楼 · 10.29 15:45:42.采纳回答

Robots.txt语法

你好同学要想正确的使用 robots，就要学会怎么写 robots，写法并不难，下面就跟大家说说 robots的写法和一些注意事项

常用符号

User-agent：定义搜索引擎的类型

Disallow：定义禁止搜索引擎收录的地址

Allow：定义允许搜索引擎收录的地址

*：匹配0 或多个任意字符

$：匹配行结束符

Robots语法解析

User-agent：是定义搜索引擎的。如果想定义所有搜索引擎请用 User-agent：*，如果想定义百度蜘蛛的话， User-agent： Baiduspider。淘宝网为例：

(www.taobao.om/robots. txt）

淘宝的robots

淘宝网屏蔽了百度蜘蛛对淘宝网站内页面的捉取。由于全球互联网上蜘蛛有近200多种搜索引擎蜘蛛，但你需要知道几个常见蜘蛛

百度蜘蛛： Baiduspider

谷歌机器人：Googlebot

雅虎的蜘蛛： Mozilla

微软bing的蜘蛛： msnbot

soso的蜘蛛： sosospider

Disallow：是禁止所有搜索引擎抓取的路径，注意：/表示根目录，代表网站所有目录，例如针对所有搜素引擎屏蔽这么一个路径www.xxxx.coml/help/index.html，那写法可以是路径下面这样：

User-agent：*

Disallow:/help/index.html

3、A1low：是允许的意思，但需要注意，他的使用一般都是结合Disallow他不能单独出现。意思是，禁止爬取那个内容。加上Alow后意思是，除了可以爬取这个外，其余的都禁止！

如果www.xxxxx.com/help/目录下有很多文件不想给蜘蛛抓取，只要其中的 index.html页面给抓取，写法如下

User-agent：*

Disallow：/help/

Allow：/help/index.html

或者

ragen

User-agent：*

Allow：/help/index.hrml

Disallow：/help/

robots是不想被百度索引到隐私文件一个协议图

4、*：匹配零或者多个任意字符。通配符的出现让 robots.txt代码更加精简，用更少的代码能够达到同样的效果。假如出现下面多个URL地址不想给蜘蛛抓取，他们又有相同的规律，那么我们就可以用*号来进行统一屏蔽

~~www.xxxx.com/books?34f343q=fskdjf4f34f~~

www.xxxx.com/books?34f343q=fskd4f34f

www.xxxx.com/books?34f343q=rer43r43

www.xxxx.com/books?3grer23q=fsksdfsd

Robots的写法可以如下

User-agent：*

Disallow：/books？*g=*

是不是很简单！

5、$：是结束符（所有以它结尾的都能够进行匹配。）通配符是整个 robots.txt里面的核心内容。

很多网站对于一些统一不想要蜘蛛捉取的内容就可以用到$。例如禁止 Baiduspider抓取网站上所有jpg图片

User-agent： Baiduspider

Disallow：/* jpgs$

总结写法规则就是这些了，你可以灵活的去组合。

TAG标签：

1人赞添加讨论(1) 举报

沐颜

2楼-- · 12.22 14:04:10

Robots.txt文件遵循特定的语法规则，用于指导搜索引擎蜘蛛的行为。

下面是robots.txt文件的常见语法和指令：

1. User-agent：指定适用的搜索引擎蜘蛛或用户代理名称。

"*"：适用于所有搜索引擎蜘蛛。

"Googlebot"：适用于Google搜索引擎蜘蛛。

"Baiduspider"：适用于百度搜索引擎蜘蛛。

可以使用多个User-agent指令来针对不同的搜索引擎蜘蛛设置不同的规则。

2. Disallow：指示搜索引擎蜘蛛不应访问或抓取的路径或文件。

"/"：表示网站根目录。

"/path/to/page.html"：指定具体的文件或路径。

可以使用多个Disallow指令来设置多个禁止访问的路径或文件。

3. Allow：指示搜索引擎蜘蛛可以访问或抓取的路径或文件。与Disallow相对应。

与Disallow一样，可以使用多个Allow指令来设置允许访问的路径或文件。

4. Sitemap：指定网站地图（sitemap）的URL地址，以帮助搜索引擎蜘蛛发现网站的页面。

"Sitemap: https://www.example.com/sitemap.xml"：指定sitemap.xml文件的URL。

以下是一个示例robots.txt文件的语法：

在上述示例中，User-agent指令适用于所有搜索引擎蜘蛛（"*"），然后使用Disallow指令禁止访问私有路径和cgi-bin目录，使用Allow指令允许访问公共路径和images目录。最后，使用Sitemap指令指定sitemap.xml的URL地址。

注意，robots.txt文件是对搜索引擎蜘蛛的一种指导性建议，不是强制性规则。大多数搜索引擎蜘蛛会尊重这些规则，但并不能保证所有爬虫都会遵守。因此，除了设置robots.txt规则之外，还应该采取其他措施来确保希望保护的内容不被访问和索引。

0人赞添加讨论(0) 举报

robots协议的具体内容怎么书写语法？

Robots.txt语法

常用符号

User-agent：定义搜索引擎的类型

Robots语法解析

一周热门更多>

相关问答

robots协议的具体内容怎么书写语法？

Robots.txt语法

常用符号

User-agent：定义搜索引擎的类型

Robots语法解析

一周热门 更多>

相关问答

采纳回答

编辑标签

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

付费偷看金额在0.1-10元之间

一周热门更多>