搜索引擎seo优化重中之重

前言

网络爬虫抓取网站时,我们实际上可以通过相关文件去引导它来主动抓取。 简单来说呢,搜索引擎蜘蛛会通过网络地址可了解您网站上的信息。 但是如果想要它对你进行深入的了解, 他们就需要浏览您站点中的代码和目录中的指定文件。

 1. robots.txt

当搜索引擎Spider爬取网络链接的时候,首先要做的是读取robots.txt文件。 对于功能并不是那么单一的网站,robots.txt文件必不可少。
使用robots.txt文件引导搜索引擎蜘蛛的主要方法有两种。以下是对于robots文件的简介:
禁止命令: 这将指示蜘蛛忽略不爬取指定的URL文件,文件扩展名甚至整个网站的一部分。尽管           disallow指令阻止了Spider抓取您网站的特定部分,但并不一定阻止页面被索引并显示在搜索结果中。毕竟爬虫只是算法,它没有那么智能。

允许指令:相对于禁止命令,它允许蜘蛛优先爬取指定位置

以下是本网站的robots.txt文件

   User-agent: *
   Disallow: /wp-admin/
   Allow: /wp-admin/admin-ajax.php
   Sitemap: http://www.ltchao.top/sitemap.xml

2.XML网站地图

XML站点地图可帮助蜘蛛了解站点的基本结构。 请注意,蜘蛛会使用站点地图作为线索,而不是权威指南来学习如何为网站建立索引。 漫游器还将考虑其他因素(例如您的内部链接结构)来确定您的网站是关于什么的。 使用可扩展标记语言(XML)网站地图最重要的是确保发送到搜索引擎的消息与robots.txt文件一致。 请勿将被robots.txt阻止的文件的内容发送到搜索引擎; 考虑到网站的预算不断攀升,我们绝对不能在这里犯错误。 第二个重要的事情是确保XML网站地图仅包含规范的URL,因为Baidu / Google会将XML网站地图视为规范的信号。

 

3.URL规范化

如果站点上有重复的内容(我们应避免重复的内容),则rel =“ canonical”链接元素会告诉Spider哪个URL应该被视为主要版本。 如果您不使用规范标签,则会导致网站上的页面具有不同的URL,但搜索引擎会包含相同的内容,这将使搜索引擎错误地认为网站上存在很多重复的页面,从而减少了 网站评估。

  4.合理的分页

正确设置链接元素rel 的 next和 prev非常重要。 假设网站有100种不同的模型可供选择。 在主类别页面上,用户可以查看前10个产品,每个产品都有一个产品名称和一个缩略图。 然后,他们可以单击“下一步”以查看接下来的10个结果,依此类推。
这些页面中的每一个页面都将具有相同或非常相似的标题,元描述和页面内容,因此,主类别页面的标题应具有rel =“ next”在每个后续页面上添加rel =“ next”和rel =“ prev”链接元素会告诉搜寻器您要将这些页面用作序列。 或者,如果我们对此内容具有“查看全部”页面,则可以将所有分页页面上的“查看全部”页面标准化,然后完全跳过rel = prev / next。直接跳转到用户输入的指定页面。但是这样子也有一个 缺点那就是, 如果页面加载时间太长,搜索访问者的跳出率会很高,这不是一件好事。所以合理的分页是在不同的常见下设置的,不能一概而论,脱离了场景谈优化就是在耍流氓。以下是常见的分页方式供大家参考

 

5.常见编码问题

错误的编码有时会无意间创建“无限空间”或“蜘蛛陷阱”。 诸如指向相同内容的无尽URL或以多种方式提供相同信息的页面之类的问题,或具有不同日期的无限制日历的日历之类的问题,可能会导致蜘蛛卡在循环中,从而迅速耗尽您的抓取预算。 另一种表示方式是,在404错误页面的超文本传输​​协议安全(HTTP)标头中错误地提供200状态代码。 因此,正确的页面状态代码也非常重要,还可以节省爬网预算。 当蜘蛛遇到大量精简或重复的内容时,它最终将放弃,这可能意味着它永远不会获得最佳内容,并会在索引中生成一堆无用的页面。

6.嵌入式内容

搜索引擎蜘蛛通常会遇到JavaScript,框架,Flash以及异步JavaScript和XML(AJAX)的问题。 尽管百度/谷歌在抓取Javascript和AJAX等格式方面做得越来越好,但是使用HTML是最安全的。 一个常见的例子是使用无限滚动网站。 尽管它可以提高可用性,但可能会使搜索引擎难以正确地对内容进行爬网和编制索引。 但是 如果您希望Spider有效地抓取网站内容,则最好使事情变得简单。即使每个文章或产品页面都以滚动格式显示,也要确保每个文章或产品页面都有唯一的URL,并通过传统的链接结构进行连接。

 


学课资源 » 搜索引擎seo优化重中之重

发表评论