北京SEO百度排名优化_刷百度排名行业领先-小度SEO一站式SEO服务,帮助企业网站快速排名,快速上首页!| 网站地图
首页
主页 > SEO技术 > 利用robot引导搜索引擎蜘蛛抓取网站(增加网站曝光率)

利用robot引导搜索引擎蜘蛛抓取网站(增加网站曝光率)

首页 2020-02-19 15:05 SEO技术 89 ℃


引导蜘蛛抓取网站
利用robot引导搜索引擎蜘蛛抓取网站
 
robots.txt文件可以用于各种各样的事情。
例如从让搜索引擎知道去哪里找到你的网站站点地图、告诉他们哪些页面不需要抓取,以管理网站爬行预算。
搜索引擎会定期检查网站的robots.txt文件,看看是否有任何抓取网站的说明。我们称这些特别的说明为“指令”。
如果没有robots.txt文件或者没有适用的指令,搜索引擎将抓取整个网站。
生成太多这些页面,谷歌蜘蛛如果去爬行的话,将消耗大量爬行预算,以至于一些重要的页面可能就不能被收录了。
使用robots.txt文件来帮助管理网站抓取预算,确保搜索引擎尽可能高效地(尤其是大型网站)抓取重要网页而不是浪费时间去抓取登录,注册或支付页面等页面。
从搜索引擎优化SEO的角度来看,robots.txt文件起着至关重要的作用。它告诉搜索引擎他们如何最好地抓取你的网站。
使用robots.txt文件可以阻止搜索引擎访问网站的某些部分,防止重复内容,并为搜索引擎提供有关如何更有效地抓取你网站的有用提示。
在对robots.txt进行更改时要小心:因为设置失误可能会使搜索引擎无法访问网站的大部分内容。
 
在Googlebot,Bingbot等机器人抓取网页之前,它会首先检查是否存在robots.txt文件,如果存在,则通常会遵循该文件中找到的路线。

你可以通过robots.txt文件控制以下事情:

阻止访问网站的某个部分(开发和登台环境等)
保持网站内部搜索结果页面不被抓取,编入索引或显示在搜索结果中
指定站点地图或站点地图的位置
通过阻止访问低价值页面来优化抓取预算(登录,支付页面,购物车等)
防止将网站上的某些文件(图像,PDF等)编入索引

检查您是否有robots.txt文件

如果你不熟悉robots.txt文件,或者不确定你的网站是否有该文件,可以快速查看。
方法:
将 /robots.txt 添加到首页URL的末尾。
示例:www.yoursite.com/robots.txt
如果没有显示任何内容,那么说明你的站点没有robots.txt文件。那就应该设置一个了。

如何创建robots.txt文件

创建robots.txt文件是一个相当简单的过程:
新建文本文档 ——>重命名为robots.txt(所有文件必须小写)——> 编写规则 ——>用FTP把文件上(放到根目录下)传到空间
下面的文章是谷歌官方介绍,将向你robots.txt文件的创建过程,可以帮助你轻松建立你自己的robots.txt文件:
https://support.google.com/webmasters/answer/6062596?hl=zh-Hans
注意:
robots.txt自身是一个文本文件。它必须位于域名的根目录中并 被命名为"robots.txt"。位于子目录中的 robots.txt 文件无效,因为爬虫只在域名的根目录中查找此文件。
例如,http://www.example.com/robots.txt 是有效位置,http://www.example.com/mysite/robots.txt 则不是。
 
如果你用WordPress建站,可以用virtual robots、yoast、all in one seo等插件创建和设置。
位置规则和文件名
 
robots.txt文件应始终放在root网站的位置(在主机的顶级目录中)并带有文件名robots.txt,例如:https://www.example.com/robots.txt。
请注意,robots.txt文件的URL与其他任何URL一样,区分大小写。
如果在默认位置找不到robots.txt文件,搜索引擎会认为没有指令。
文件必须命名为 robots.txt。
网站只能有 1 个 robots.txt 文件。
robots.txt 文件必须位于它所应用到的网站主机的根目录下。例如,要控制对 http://www.example.com/ 下所有网址的抓取,就必须将 robots.txt 文件放在根目录下(即 http://www.example.com/robots.txt),而不能放在子目录下(例如 http://example.com/pages/robots.txt)。
robots.txt 文件可应用到子网域(例如 http://website.example.com/robots.txt)或非标准端口(例如 http://example.com:8181/robots.txt)。
语法
robots.txt 必须是 ASCII 或 UTF-8 文本文件。不允许包含其他字符。
robots.txt 文件由一条或多条规则组成。
每条规则由多条指令(说明)组成,每条指令各占一行。

每条规则包含以下信息:

此规则的适用对象(即User-agent)
代理可以访问的目录或文件,和/或
代理无法访问的目录或文件。
系统会按照从上到下的顺序处理这些规则,而且一个用户代理只能匹配 1 个规则集(即与相应用户代理匹配的首条最具体的规则)。
系统的默认假设是:用户代理可以抓取所有未被 Disallow: 规则禁止访问的网页或目录。
规则区分大小写。例如,Disallow: /file.asp 适用于 http://www.example.com/file.asp,但不适用于 http://www.example.com/FILE.asp。
 
 


原标题:利用robot引导搜索引擎蜘蛛抓取网站(增加网站曝光率)

tag标签: 百度搜索引擎 提高网站收录 网站地图

搜索
网站分类
tag标签
 

15361814538

需要搜索引擎优化服务,请联系客服:

微信二维码

添加QQ,提升网站排名:加好友