搜索引擎的工作原理

2021-02-03 23:36:09发布

2条回答
鹤轩 - 鹤轩SEO优化技术
2楼-- · 2021-07-14 16:48:19

1.工作原理

百度作为中国最大的搜索引擎,有一套自己的算法。而百度蜘蛛就是通过这套算法来抓取相应的网站,并对这些网站进行判断。

2.分类

百度经过多年的更新,面对不同的网站也给出了不同的蜘蛛分类,让这些蜘蛛有效地去判断网站的价值。而百度蜘蛛一般分为3类:高级蜘蛛、中级蜘蛛和初级蜘蛛。每种蜘蛛就像我们人的职位一样,对网站进行不同的分工。

(1)高级蜘蛛:这种蜘蛛只会去爬行一些权重高的网站。我们经常会发现,为什么在其他大型网站发外链都会秒收,而自己的网站却不收录。原因就是高级蜘蛛在爬行网站的时候有各种优先权,如来访率高、爬行深度高、收录快和排名好等。

(2)中级蜘蛛:这种蜘蛛会通过一些网站的友情链接及外链进入一个新的网站,然后会对新的网站再次进行判断,如新的网站内容是否优质、原创,并删除一些劣质的内容。

(3)初级蜘蛛:初级蜘蛛就像一个小门槛,要求不高,审核频率也不高。其只会针对一些新站进行过滤,经过一段时间之后再来判断是否值得放出来。出现这种情况的主要原因是新网站太多,但是好的新网站却很少。互联网提供的是优质的内容,过不了审核期的新网站自然不会放出来。这种情况一般叫做沙盒期,这也是很多新网站无法坚持下去的原因。

3.禁止爬行

百度蜘蛛是一个勤劳的“工作者”,但是有的时候我们又不想它太勤劳了。尤其是一些新网站,很多新手站长没有确定好自己网站的定位,会不停地修改网站的关键词。而这种情况就会导致百度蜘蛛无法对网站准确地定位,久而久之网站就会被其抛弃了。

解决这种情况的办法有两种:一种是通过本地搭建的虚拟服务器,做好网站程序,并填充了相应的网站内容之后再进行上传,这样从本地开始就针对网站进行全方位的优化,包括代码、图片和文字等;另一种是通过屏蔽百度蜘蛛的代码,将整个网站全体屏蔽到robots.txt文件中。

4.抓取时间

百度蜘蛛的抓取时间,决定了网站更新的内容是否能快速收录。

例如,周一更新的频率比较高,最好是在早上的8点~10点进行更新;周二可以作为周一的铺垫,进行持续更新;周三百度会对所有的关键词进行洗牌,也就是说这个时候将决定你的关键词是否有机会更加靠前;周四百度会对周三抓取到的数据进行定位,然后排名。而剩下来的几天,保证持续更新就好。

当然我们需要了解的是,百度在不断地更新和变动,我们需要通过长时间的分析才能判断出百度蜘蛛的抓取时间。如果所采用的方法不奏效,就需要再次分析判断了。

5.收录规则

作为新手站长,一般都会非常关心自己的网站收录情况,而百度在2017年更新算法之后,同样将收录的时间做了调整,由之前的1~2个月,缩短到现在的1~2周。

6.模拟

百度蜘蛛的模拟是为了让SEO更加透明化而给的一个定义,我们可以通过一些平台所提供的模拟工具,来了解百度蜘蛛的工作情况,如百度站长平台、搜外网等。

猜心 - 猜心SEO
3楼-- · 2021-02-03 23:40:17

搜索引擎的工作原理


如果只熟悉搜索引擎,却不知道搜索引擎的工作原理,那就不是真正认识搜索引擎。掌握搜索引擎工作原理的相关内容,其重要程度不亚于上面提到的问题。

搜索引擎远不像下图所示的那样简单。每一条搜索结果从产生到被搜索引擎展现给计算机用户,都需要经过爬行和索引、检索和排名、评估网页内容这三个过程。下面对这些过程分别进行介绍。


爬行和索引


搜索引擎的爬行和索引,就好像我们选择食物。例如,想吃海鲜,需要有已经抓来的海鲜可供食用,这可以理解为爬行。其次每个人会选择不同的海鲜,需要用户挑选,为了方便挑选,提取了一些关键字,这就是索引了。同样地,搜索引擎在完成爬行和索引这一系列工作的过程中,也需要完成类似的工作。但是,它们这个抓取的执行者是一种被称为“蜘蛛”的程序。不要上当,此“蜘蛛”非彼蜘蛛也。下面介绍搜索引擎蜘蛛及其相关内容。


什么是搜索引擎蜘蛛


关于搜索引擎蜘蛛,需要通过几个概念来了解它。


首先,搜索引擎蜘蛛可以归类为程序的一种,是搜索引擎的一个自动应用程序。程序形式通过模仿蜘蛛织网后的爬行、遍历爬行而展开。其次,通过搜索引擎系统的计算,来决定对哪些网站施行抓取,以及抓取的内容和频率值。搜索引擎的计算过程会参考某个网站在历史中的表现,比如内容是否足够优质,是否存在对用户不友好的设置(例如采用“欺骗”手段,将用户转移到其他网页),是否存在过度的搜索引擎优化行为等。爬行和抓取是搜索引擎工作的第一步,它完成真正意义上的数据收集任务。

下面,认识爬行与遍历爬行。爬行是搜索引擎的一种行为,遍历爬行是搜索引擎的一种爬行方法。通过遍历爬行,实现蜘蛛在网上遍历的目的。


2.过程:爬行和索引

我们去一个目的地,需要通过走路或者坐车等方式。同理,蜘蛛从一个网站去往另一个网站,这就是爬行。如果想知道蜘蛛,可通过代码发现。方法是在日志文件中搜索“spider”这个词,如果搜索到下列内容,说明有蜘蛛在网站爬行。


⑴google蜘蛛:googlebot。⑵百度蜘蛛:baiduspider。⑶yahoo蜘蛛:slurp。⑷soso蜘蛛:sosospider。⑸msn蜘蛛:msnbot。⑹有道蜘蛛:YodaoBot和OutfoxBot。⑺搜狗蜘蛛:sougouspider。

下面认识索引,它和爬行最大的区别就是,索引不是一个特定URL,而是页面中的很多个URL。假如,蜘蛛爬行过程中抓取的网页若有重复内容,将不会被重复索引。


3.如何进行抓取

蜘蛛先抓取内容,然后再根据抓取的内容予以索引,这是蜘蛛工作的意义。网站更新后,产生了新的内容。这时,搜索引擎蜘蛛会通过互联网中某个指向该页面的链接进行访问和抓取,如果没有设置任何外部链接指向网站中的新增内容,蜘蛛将不会给予抓取处理。因此,及时更新网站的内容和有较广泛的外部链接非常重要。把这些信息都抓取到搜索引擎的服务器上,然后建立索引库。举例说明,我们可以把搜索引擎蜘蛛当作一个用户,这个用户来访问我们的网站,然后再把我们网站的内容保存到自己的电脑上!下图所示的是蜘蛛抓取的流程图。


检索和排名


在检索和排名这一阶段,需要完成过滤和建立索引的工作,具体内容包括以下几方面。


1.过滤

如果说,所谓的蜘蛛爬行是“撒网捕鱼”,那么接下来我们需要做的就是,将捕上来的东西进行归类,因为在网里的不一定都是能吃的鱼,也有可能是废渣(如一些明显的欺骗用户的网页、死链接、空白内容页面等),这就又是一项浩大的工程。其实,对于搜索引擎来说,它的过滤工作就是处理搜索引擎蜘蛛抓取回来的网页,我们可将其看作类似的“过滤网”。


2.建立索引

所谓的建立索引,是搜索引擎对网页的tagtitle、metadescripiton、网页外链及描述、抓取记录等添加标记的行为。这个过程中,还将对网页中的关键词信息进行识别和储存,这样做的目的在于匹配用户可能会搜索的内容。


3.输出结果

搜索引擎通过分析用户输入的关键词,参照得出的结果,在索引的结果中,查找出用户需要的网页。然后,把用户需要的内容,以一定的方式展示出来,也是最终搜索引擎花如此多的时间的目的。下图所示内容就是用百度搜索引擎搜索“计算机”一词之后,所给出的结果。


评估网页内容


放在互联网上的一个网站,需要有好的网页质量,才能被更多的用户浏览。怎样的网页才是搜索引擎认为好的,用户认为好的?搜索引擎和用户对评估网页有各自的标准。下面分别进行介绍。


1.搜索引擎评估网页内容

搜索引擎对网页中的内容给予不同的权重。但是,想要获得高权重,内容的质量一定得经得住搜索引擎爬取过程中的分析,最终搜索引擎才会决定是否给予页面高权重。分析页面内容,搜索引擎会从以下几方面考虑。


⑴页面内容与查询的语义关系是否匹配

用户进行查询时会输入关键词,搜索引擎通过这些输入的内容,来判断该内容是否可以出现在用户的查询结果中。搜索引擎通过分析页面中的词、词组,来掌握页面的内容,并建立相互之间的关系,从而掌握页面内容是否与用户的查询有关系。


⑵通过判断内容的价值

搜索引擎用于爬取页面的蜘蛛,会忽略代码里的很多内容,但是蜘蛛最感兴趣的却是代码里的文字内容。所以,页面的文字部分,是比较容易讨得搜索引擎喜欢的东西。下图所示的是网页的源代码,蜘蛛对于框选的文字,会比其他代码更有兴趣。


2.用户评估网页内容

用户会根据搜索结果是否能够帮助找到想要的信息,来评价网页的内容。这里将用户的评估标准总结为如下几部分。


⑴相关性

相关性是指网页的内容与用户的搜索相匹配。例如,用户想知道“阈”字怎么发音,通过搜索,搜索引擎会给出搜索结果。如左下图和右下图所示,都是用户能够获取的结果,但很明显右下图的相关性没有左下图的高。


⑵有效性

有效性,是指内容要对用户起到有效帮助。例如,通过搜索查找软件,实现软件的下载安装。该任务是用户在互联网上经常用到的。但是,在搜索的过程中,是否能够找到安全的可供下载的软件资源呢?用户可能经常会碰到,点击进入网站,然后被要求注册才能进行操作的事情。

又或者,用户想要下载软件,但被要求付费。这些有权限限制、需要检查资源是不是能够有效实现下载的结果,都无法真正满足用户的需求。


⑶全面性

全面性,是指内容要尽可能的全面一些。例如,用户在搜索某一新闻事件的时候,单个的页面往往无法满足用户需求,因为不能够全面地发布新闻事件。这时,如果通过一个专题的形式,就可能提高页面的质量,使内容变得更加丰富。


⑷及时性

及时性,是指网页的内容要最新、最快的。例如,用户搜索“招聘”信息,然后用户获取的是一个月前或者一年前发布的信息,又或者是已经过了招聘期限的信息,这样的内容就等于是无用信息了。所以,内容的及时性很重要。


⑸权威性

权威性,是指网页的内容由相关专家或者网站发布,更能让用户有不同的感觉。例如,同样是一个新闻事件,在大的网站比如新浪网进行新闻发布,与在个人的博客上发布,前者更具有权威性。


⑹便捷性

便捷性,是指用户浏览网页内容的过程中,看到内容所花费的时间和成本越少,越便捷。例如,同样的内容,一个网页可以在第一屏就让用户进行浏览,另一个需要用户进行点击或者在其他的位置才能看,用户肯定会选择能够直接看到的。

一周热门 更多>

相关问答