如何确定搜索引擎用户意图

2021-02-04 22:36:48发布

1条回答
念梦 - 念梦SEO
2楼-- · 2021-02-05 22:10:35

如今商业搜索引擎主要依靠信息检索(IR)的技术。这项技术自从20世纪中期就已经存在了,当时检索系统运行于图书馆、调研中心以及政府实验基地。在搜索系统发展的前期,IR科学家认为搜索功能主要由两个重要的部分组成:相关性和重要性(我们在本章的前面部分已经定义)。为了衡量这些因素,搜索引擎进行了文档分析(包括对文档中概念的语义分析)以及链接(或者引证)分析。


文档分析和语义连通性


在文档分析中,搜索引擎会查看搜索术语是否出现在文档的重要区域——标题、元数据、标题标签以及文本正文中。它们也会基于对文档的分析试图自动衡量文档的价值,以及其他元素。

仅仅通过文档分析的评判对搜索引擎来说仍然不够,因此它同样还会关注语义连通性。语义连通性指的是字词之间的正常联系。例如你看到一个字aloha,你可能会联想到Hawaii,而肯定不会是Florida。搜索引擎积极地创建它自己的辞典和词典来帮助它确定哪些术语和哪些主题是相关联的。通过简单地扫描其网络内容庞大的数据库,可以使用模糊集理论以及某些特定的等式来链接术语并且开始更像人类一样地理解网页和网站。


专业的SEO实操人员不需要使用语义连通性衡量工具来优化网站,但是对那些想要获取所有优势的高级实操人员来说,使用语义连同衡量方法在以下几部分会有所裨益:


·衡量定位哪些关键词短语;

·衡量在关于某个话题的页面应该涵盖哪些关键词;

·衡量其他具有较高排名的网站和页面的文本关系;

·查找提供“相关”主体链接的页面。


尽管技术性很高,但SEO专家仅仅需要了解获取有价值信息的几条原则。要牢记尽管IR的世界有成百上千的技术术语,而且很难理解,但SEO初学者都能分解并进一步理解。

IR领域常见的搜索类型主要分为如下几种。


近似搜索

近似搜索利用搜索短语的顺序来查找相关的文档。例如,当你搜索“SweetGerman mustard”(德国甜芥末)时,你仅仅指明了一个近似搜索。即使除了引用,搜索术语的相关性对搜索引擎来说仍然很关键,但是现在显示的文档不能完全按照搜索短语的顺序相匹配,例如Sweet Mustard German。


模糊逻辑

糊逻辑指的是不区分对错的逻辑。举个常见的例子,评价某天是不是晴天(is50%cloud cover a sunny day?)。在搜索中,模糊逻辑一般用于误拼。


布尔搜索法

这是使用布尔搜索术语AND、OR以及NOT进行的搜索。这种类型的逻辑用来扩展或者限制搜索中查找的文档信息。


术语权重

术语权重指的是针对某项查询,某个特定搜索术语的重要性。目的是为了给某些特定的术语更多的权重从而产生很好的搜索结果。例如,在查询词中出现the这个词在选择结果时的权重很小,因为它几乎出现在所有的英文文档中。它没有什么特殊的地方,并且在选择文档时没有什么帮助。

IR模型(搜索引擎)使用模糊集理论(由Lotfi Zadeh博士在1969年创建的模糊逻辑的一个分支)发现两个词之间的语义连通性。相比用辞典和字典来确定两个词是否互相关联,一个IR系统可以使用它庞大的内容数据库来解答其中的关系。


尽管这个过程听起来很复杂,基础理念却很简单。搜索引擎需要依靠机器逻辑(真/假、是/非,等等)。机器逻辑比人类有更多优势,但是它的思维方式和人类不一样,对人类来说一些本能的信息机器却很难理解。例如,橘子和香蕉都是水果,但是橘子和香蕉不都是圆形的。对人类来说这是直觉性的知识。


要一个机器理解这个概念并且理解类似的其他概念,语义连通性就是关键。网络上大量的和人相关的学问都能被系统的索引收录并且分析,从而人工地创建人类建立的各种联系信息。这样,通过扫描成千上万的香蕉和橘子出现在索引中的情况,知道圆形和香蕉并没有很大的相关性,但是橘子和圆形就有相关性,机器就能知道橘子是圆形的并且香蕉不是圆的。


这就是使用模糊逻辑的地方,使用模糊集理论通过衡量术语一起出现的频率以及场景,可帮助电脑确定术语之间的联系。


例如,搜索引擎会识别到公园旅游一般会包含观看野生动物,可能是旅游的一部分。

要想看到这个实例,可在谷歌中搜索“zoo trips”(公园旅游)。注意返回的搜索结果中的黑体字,在后面的段落中都是以斜体显示的。在索引中,谷歌设置“相关的”术语为黑体字并且识别哪些术语出现的频率比较高(一起出现、在同一页面或者是相近词)。


搜索公司投资研究这些技术好几年了。在2013年9月,谷歌默默地让世界知道它重新改写了它的引擎并且命名为“Hummingbird”(蜂鸟)。这项改写在很大程度上提高了识别事物之间联系的能力。

例如,如果你使用谷歌的语音搜索(点击搜索框右边的麦克风按钮)并且询问“Who is TomBrady?”它会用一个搜索结果来回答你的问题,而且会用音频告诉你他是一个“国家橄榄球联赛的新英格兰爱国者队美国橄榄球四分卫”。


下面显示了谷歌对Tom Brady的各个方面搜索结果。例如,


·他有一份职业:四分卫、踢美式足球(和除美国和加拿大之外的国家指的足球明显不同)。

·他所在的球队:新英格兰爱国者队。

·新英格兰爱国者队属于:美国国家橄榄球联盟。


现在的搜索比2012年时复杂得多。你还可以更进一步。例如,如果你使用语音搜索功能询问“Who is his wife?”它也会对这个问题作出解答(如图2-22所示)。

注意在第二条查询条目中我们没有说Tom Brady的名字,谷歌记住了会话的情景,那个“his”指的就是Tom Brady。你可以继续提问诸如像“Does he havechildren”这样的问题。谷歌也会对此进行解答。


从SEO的角度来说,这个用途让我们见识了搜索引擎可以识别网络上的词语、话题之间的联系。随着语义联通性成为搜索引擎算法里面更大的一部分,你可以把重点放在网站和页面的主题以及链接上。将来搜索引擎应该能够根据主题和想法来识别某个网站中不合适的内容、链接以及页面。

一周热门 更多>

相关问答

嘿,我来帮您!
嘿,我来帮您!