如何确保搜索引擎能够访问你的网站?

2021-02-25 16:09:30发布

1条回答
一叶老师
1楼 · 2021-02-25 19:50:08.采纳回答

SEO设计过程的第一步是确保你的网站能够被搜索引擎发现并爬行。说起来容易,但做起来却很难,因为有许多热门网站设计和运行架构是爬虫无法理解的。


可索引的内容

要想在搜索引擎中获得好的排名,那么你的网站内容,也就是呈现给网站访客的材料,必须是HTML文本格式。例如,图片和Flash文件尽管能被搜索引擎爬行,但搜索引擎却很难分析这些内容。因此这些文件便不适合向搜索引擎传递页面相关性的信号。


搜索引擎很难识别图片的相关性,这是因为GIF、JPEG或PNG格式的图片文件内含有极少的文本输入字段(也就是文件名、标题及alt属性)。因此,我们强烈建议你在这些字段中准确详细地对图片进行标注,仅仅一个图片是无法为网页在相关搜索请求中获得较高排名的;图片识别技术不断进步,所以在不久的将来,处理能力的局限性可能会妨碍搜索引擎在网络搜索中广泛运用这种分析方法。


除了文本之外,谷歌允许用户使用图片作为搜索请求进行搜索(不过,用户可以输入文本对该搜索请求进行补充说明),上传一张图片,从桌面拖曳一张图片,输入图片网址或在浏览器(安装有插件的Firefox及Chrome浏览器)内右击图片,用户通常都能在网页中找到该图片的其他位置以进行参考和研究,同时还会找到与该图片的色调和内容相似的其他图片。这虽然不能立即改变图片在SEO中的局面,但最起码它给了我们一个提示,让我们知道谷歌如何扩充图片内容的通用相关性指示符。


对于Flash文件,尽管可以爬取具体的.swf文件(最常见的Flash文件扩展名)并且建立索引,而且当用户在运行一个.swf文件搜索文件名中包含的具体的词汇或短语时,经常也会碰到.swf文件,但在通用查询中,很少会返回一个Flash文件或者一个全部由Flash构建的网站作为一个高度相关的搜索结果,这是因为缺少“可读性”的内容。这并不是说,使用Flash创建的网站本来就缺乏相关性,或者我们无法成功地优化一个使用Flash的网站,而是从我们的经验来看,HTML格式的文件是较好的选择。


可爬行的链接架构

正如我们在第2章中讲到的,搜索引擎会使用网页中的链接来帮助它们发现其他的网页或网站。出于这个原因,我们强烈建议你拿出时间来创建一个能被爬虫顺利爬行的内链架构。许多网站会犯一些致命性的错误,它们会隐藏或模糊其导航结构,限制了爬虫的读取能力,从而导致网页无法出现在搜索引擎的索引中,图6-1解释了这个问题是如何出现的。


谷歌爬虫已经到达了页面A,并看到了页面B和E的链接,但尽管页面C和D可能是网站中比较重要的页面,爬虫却无法访问这些页面(尽管知道了这些页面的存在),这主要是因为缺少到达这些页面的、直接可爬行的链接点。在谷歌看来,这类页面便等同于不存在。如果爬虫无法在第一时间到达页面,那么再好的内容、再好的关键词选择、再好的营销策略都是无济于事的。

下面是一些页面可能无法被读取的常见原因,帮助我们重温了第2章的讨论:


使用提交格式的链接

搜索爬虫几乎不会去尝试“提交”格式,因此仅通过某种格式才能访问的内容或链接对搜索引擎是不可见的,甚至一些简单的格式也会起到反作用,如用户注册、搜索框或某些下拉列表。

使用难以解析的JavaScript的链接


如果在链接中使用JavaScript,那么你可能会发现搜索引擎既不爬行,也不在意这些嵌入链接。2014年6月,谷歌宣布能够爬行JavaScript和CSS。谷歌目前不仅能够解析一些JavaScript,而且能够访问一些JavaScript链接。基于这一改变,谷歌能够爬行你的JavaScript和CSS文件。要预览谷歌如何解析你的网站,你可以点击Search Console->Crawl->Fetch as google,输入你想要预览的网址,选择“Fetch and Render”。


Java或其他插件中的链接

通常来讲,搜索引擎不会查看嵌入在Java和插件中的链接。


Flash中的插件

从理论上来讲,搜索引擎能够发现Flash内的链接,但是并不会过分依赖这个发现功能。


PowerPoint和PDF文件中的链接

搜索引擎有时会显示在Powerpoint文件或PDFA文件中看到的链接,这些链接被看作是与嵌入在HTML文件中的链接相似的。


指向robots标签、rel="nofollow"或robots.txt限制页面的链接

robots.txt文件提供了一种能够阻止网络爬虫爬行网站页面的方法,在链接中使用nofollow属性或者在包含链接的页面中添加content="nofollow"属性的元robotsnofollow tag,指示搜索引擎不要通过链接越过链接权限(我们将在6.10节“内容推送和搜索爬虫控制”部分详细讨论这个概念)。由于一些霸道的SEO从业者过度操控,链接中nofollow属性的有效性已大打折扣,更多这方面的内容请参见谷歌Matt Cutts的博客


“网页排名实践”。

链接所在的页面含有成千上万个链接

之前,谷歌曾建议每个页面最多包含100个链接,若超出这个数值,它便会停止从该页面爬行其他的链接,但是随着时间的推移,这个建议也渐渐过时了,我们更多时候会将其看作一个通过页面排名的策略性指导意见,如果一个页面内包含200个链接,那么任何一个链接都不会获得较高的网页排名。通过限制链接的数量来设法控制网页排名,这通常是个不错的主意。有些工具能够统计每个页面活跃的链接数量,如Screaming Frog。


在框架或内嵌框架中的链接

从严格意义上来讲,在框架和内嵌框架中的链接都能够被爬行,但框架和内嵌框架在组织机制和追踪方面给搜索引擎带来了结构性的问题。除非你是一位资深用户,非常清楚搜索引擎在技术层面是如何索引和追踪框架内的链接的,否则最好不要将链接放在框架内,以免出现不能被爬行的问题。我们将在6.2节“创建最佳的信息架构”中详细讨论框架和内嵌框架。

TAG标签:

一周热门 更多>

相关问答

嘿,我来帮您!
嘿,我来帮您!