搜索引擎的工作原理

2021-02-03 23:36:09发布

1条回答
猜心 - 猜心SEO
2楼-- · 2021-02-03 23:40:17

搜索引擎的工作原理


如果只熟悉搜索引擎,却不知道搜索引擎的工作原理,那就不是真正认识搜索引擎。掌握搜索引擎工作原理的相关内容,其重要程度不亚于上面提到的问题。

搜索引擎远不像下图所示的那样简单。每一条搜索结果从产生到被搜索引擎展现给计算机用户,都需要经过爬行和索引、检索和排名、评估网页内容这三个过程。下面对这些过程分别进行介绍。


爬行和索引


搜索引擎的爬行和索引,就好像我们选择食物。例如,想吃海鲜,需要有已经抓来的海鲜可供食用,这可以理解为爬行。其次每个人会选择不同的海鲜,需要用户挑选,为了方便挑选,提取了一些关键字,这就是索引了。同样地,搜索引擎在完成爬行和索引这一系列工作的过程中,也需要完成类似的工作。但是,它们这个抓取的执行者是一种被称为“蜘蛛”的程序。不要上当,此“蜘蛛”非彼蜘蛛也。下面介绍搜索引擎蜘蛛及其相关内容。


什么是搜索引擎蜘蛛


关于搜索引擎蜘蛛,需要通过几个概念来了解它。


首先,搜索引擎蜘蛛可以归类为程序的一种,是搜索引擎的一个自动应用程序。程序形式通过模仿蜘蛛织网后的爬行、遍历爬行而展开。其次,通过搜索引擎系统的计算,来决定对哪些网站施行抓取,以及抓取的内容和频率值。搜索引擎的计算过程会参考某个网站在历史中的表现,比如内容是否足够优质,是否存在对用户不友好的设置(例如采用“欺骗”手段,将用户转移到其他网页),是否存在过度的搜索引擎优化行为等。爬行和抓取是搜索引擎工作的第一步,它完成真正意义上的数据收集任务。

下面,认识爬行与遍历爬行。爬行是搜索引擎的一种行为,遍历爬行是搜索引擎的一种爬行方法。通过遍历爬行,实现蜘蛛在网上遍历的目的。


2.过程:爬行和索引

我们去一个目的地,需要通过走路或者坐车等方式。同理,蜘蛛从一个网站去往另一个网站,这就是爬行。如果想知道蜘蛛,可通过代码发现。方法是在日志文件中搜索“spider”这个词,如果搜索到下列内容,说明有蜘蛛在网站爬行。


⑴google蜘蛛:googlebot。⑵百度蜘蛛:baiduspider。⑶yahoo蜘蛛:slurp。⑷soso蜘蛛:sosospider。⑸msn蜘蛛:msnbot。⑹有道蜘蛛:YodaoBot和OutfoxBot。⑺搜狗蜘蛛:sougouspider。

下面认识索引,它和爬行最大的区别就是,索引不是一个特定URL,而是页面中的很多个URL。假如,蜘蛛爬行过程中抓取的网页若有重复内容,将不会被重复索引。


3.如何进行抓取

蜘蛛先抓取内容,然后再根据抓取的内容予以索引,这是蜘蛛工作的意义。网站更新后,产生了新的内容。这时,搜索引擎蜘蛛会通过互联网中某个指向该页面的链接进行访问和抓取,如果没有设置任何外部链接指向网站中的新增内容,蜘蛛将不会给予抓取处理。因此,及时更新网站的内容和有较广泛的外部链接非常重要。把这些信息都抓取到搜索引擎的服务器上,然后建立索引库。举例说明,我们可以把搜索引擎蜘蛛当作一个用户,这个用户来访问我们的网站,然后再把我们网站的内容保存到自己的电脑上!下图所示的是蜘蛛抓取的流程图。


检索和排名


在检索和排名这一阶段,需要完成过滤和建立索引的工作,具体内容包括以下几方面。


1.过滤

如果说,所谓的蜘蛛爬行是“撒网捕鱼”,那么接下来我们需要做的就是,将捕上来的东西进行归类,因为在网里的不一定都是能吃的鱼,也有可能是废渣(如一些明显的欺骗用户的网页、死链接、空白内容页面等),这就又是一项浩大的工程。其实,对于搜索引擎来说,它的过滤工作就是处理搜索引擎蜘蛛抓取回来的网页,我们可将其看作类似的“过滤网”。


2.建立索引

所谓的建立索引,是搜索引擎对网页的tagtitle、metadescripiton、网页外链及描述、抓取记录等添加标记的行为。这个过程中,还将对网页中的关键词信息进行识别和储存,这样做的目的在于匹配用户可能会搜索的内容。


3.输出结果

搜索引擎通过分析用户输入的关键词,参照得出的结果,在索引的结果中,查找出用户需要的网页。然后,把用户需要的内容,以一定的方式展示出来,也是最终搜索引擎花如此多的时间的目的。下图所示内容就是用百度搜索引擎搜索“计算机”一词之后,所给出的结果。


评估网页内容


放在互联网上的一个网站,需要有好的网页质量,才能被更多的用户浏览。怎样的网页才是搜索引擎认为好的,用户认为好的?搜索引擎和用户对评估网页有各自的标准。下面分别进行介绍。


1.搜索引擎评估网页内容

搜索引擎对网页中的内容给予不同的权重。但是,想要获得高权重,内容的质量一定得经得住搜索引擎爬取过程中的分析,最终搜索引擎才会决定是否给予页面高权重。分析页面内容,搜索引擎会从以下几方面考虑。


⑴页面内容与查询的语义关系是否匹配

用户进行查询时会输入关键词,搜索引擎通过这些输入的内容,来判断该内容是否可以出现在用户的查询结果中。搜索引擎通过分析页面中的词、词组,来掌握页面的内容,并建立相互之间的关系,从而掌握页面内容是否与用户的查询有关系。


⑵通过判断内容的价值

搜索引擎用于爬取页面的蜘蛛,会忽略代码里的很多内容,但是蜘蛛最感兴趣的却是代码里的文字内容。所以,页面的文字部分,是比较容易讨得搜索引擎喜欢的东西。下图所示的是网页的源代码,蜘蛛对于框选的文字,会比其他代码更有兴趣。


2.用户评估网页内容

用户会根据搜索结果是否能够帮助找到想要的信息,来评价网页的内容。这里将用户的评估标准总结为如下几部分。


⑴相关性

相关性是指网页的内容与用户的搜索相匹配。例如,用户想知道“阈”字怎么发音,通过搜索,搜索引擎会给出搜索结果。如左下图和右下图所示,都是用户能够获取的结果,但很明显右下图的相关性没有左下图的高。


⑵有效性

有效性,是指内容要对用户起到有效帮助。例如,通过搜索查找软件,实现软件的下载安装。该任务是用户在互联网上经常用到的。但是,在搜索的过程中,是否能够找到安全的可供下载的软件资源呢?用户可能经常会碰到,点击进入网站,然后被要求注册才能进行操作的事情。

又或者,用户想要下载软件,但被要求付费。这些有权限限制、需要检查资源是不是能够有效实现下载的结果,都无法真正满足用户的需求。


⑶全面性

全面性,是指内容要尽可能的全面一些。例如,用户在搜索某一新闻事件的时候,单个的页面往往无法满足用户需求,因为不能够全面地发布新闻事件。这时,如果通过一个专题的形式,就可能提高页面的质量,使内容变得更加丰富。


⑷及时性

及时性,是指网页的内容要最新、最快的。例如,用户搜索“招聘”信息,然后用户获取的是一个月前或者一年前发布的信息,又或者是已经过了招聘期限的信息,这样的内容就等于是无用信息了。所以,内容的及时性很重要。


⑸权威性

权威性,是指网页的内容由相关专家或者网站发布,更能让用户有不同的感觉。例如,同样是一个新闻事件,在大的网站比如新浪网进行新闻发布,与在个人的博客上发布,前者更具有权威性。


⑹便捷性

便捷性,是指用户浏览网页内容的过程中,看到内容所花费的时间和成本越少,越便捷。例如,同样的内容,一个网页可以在第一屏就让用户进行浏览,另一个需要用户进行点击或者在其他的位置才能看,用户肯定会选择能够直接看到的。

相关问答