其实我有想过,开篇就讲解蜘蛛爬行日志的问题是不是有点太难了,因为很多人根本不知道搜索引擎蜘蛛是什么。但是,反过来一想,这篇文章完全可以针对seo已经入门的同学们,那么,我也就不犹豫大家基础的问题了,今天就手把手教你们分析搜索引擎蜘蛛爬行日志。
学过SEO的人都知道,搜索引擎在收录网站的过程中比如会先利用爬虫去你的网站抓取你网站里面的页面以及内容,为你的网站建立一个索引,然后在根据一系列的算法判断你网站页面及内容的质量度,最终来决定网站的收录情况和优化排名的情况。
在讲解分析搜索引擎蜘蛛爬行日志之前,我提到几个要点是你必须具备的基础知识:
1、什么叫搜索引擎?
2、什么是爬虫?
3、蜘蛛爬行网站的日志都存放在哪里?
4、不同的搜索引擎,爬虫的IP地址或者IP段有哪些?
5、robots.txt的应用。
6、什么是SEO?
如果你不具备以上的基础,请自行百度查询,网上有大把的答案,这里就不做赘述了,首先我们来说说分析搜索引擎蜘蛛爬行日志的目的:
1、分析搜索引擎蜘蛛爬行日志可以得知,有哪些搜索引擎爬虫来爬过你的网站。
2、不同的搜索引擎蜘蛛访问你网站的频次是怎样的的。
3、权重蜘蛛是否来过你的网站?
4、网站是否存在404页面?
5、网站服务器是否稳定,在未知的时间段是否有宕机的情况出现?
6、通过对搜索引擎蜘蛛爬行日志的分析,对网站的优化方案及时作出调整加以改进。
当然了,以上6点只是一个简单的概括,我这里说的不一定完整,首先我们来讲解一下不同的搜索引擎蜘蛛的标识:
1、百度蜘蛛:
当你在日志看到这样的标识:(compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)这就是百度蜘蛛。
2、搜狗蜘蛛
Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07),出现这样一串东东,说明搜狗蜘蛛来过你的网站。
3、奇虎360搜索蜘蛛
Chrome/50.4.2661.102 Safari/537.36; 360Spider,这就是360搜索引擎蜘蛛。
4、神马搜索蜘蛛
Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36,这是神马搜索蜘蛛爬行的痕迹。
5、谷歌蜘蛛
(compatible; Googlebot/2.1; +http://www.google.com/bot.html)这串字符代表谷歌蜘蛛爬过你的网站。
那么关于爬虫的特征我就先说这五个主流的搜索引擎,其他的我就不在这里一一介绍了,下面我来讲解下常见的蜘蛛爬行状态码:
1、200状态码
当然,200状态码分为很多种,我这里只介绍其中的一种,这个200代表服务器成功返回网页,一般来说2XX类的状态码是指请求已经完成,没有出现错误。
2、301状态码
301相信很多人都知道,这是重定向的意思,主要是蜘蛛爬行到一个页面,被强行跳转到了别的页面,就会出现301。
3、404状态码
404其实也不用多说,这就是页面不存在,或者页面无法访问,也就是传说中的死链接,这个就要注意了。
4、503状态码
出现503,基本就是你的服务器出了问题,因为蜘蛛无法访问,官方的解释是服务器暂时不可用。
5、302状态码
其实我没有必要专门解释302状态码,因为3XX类的状态码就是连接被重定向,或者资源移动过。
对于一名SEO优化工作者来说,分析蜘蛛爬行日志是必备的一项技能,你不仅要认识搜索引擎蜘蛛,你还需要知道返回状态码的具体含义,这样一来,你就完全可以通过分析蜘蛛爬行日志来了解你网站流量的访问情况了。
搜索引擎蜘蛛爬行日志的存放位置:
因为服务器环境的不同,导致了搜索引擎蜘蛛日志存放的位置也有差异,在windows IIS服务器下面,一般日志存放在wwwlogs文件夹下面,当然这个是可以手工指定的。
然后就是linux系统下面的apache和nginx存放日志的位置,这个会因为管理员的习惯不一样,存放的路径和命名都会存在比较大的差异,如果没做过日志分割,日志文件会非常的大,有的则是按时间分割存贮的。
当然了,你记不住这些知识点也是没关系的,因为网上有很多现成的分析搜索引擎蜘蛛的工具,用这些工具会大幅的提升你的工作效率。通过日志文件我们不仅可以做好SEO,也可以通过日志分析出网站存在的漏洞。那么关于搜索引擎蜘蛛爬行日志的分析今天就讲到这里,如果你有疑问,可以在下方留言,我们一起讨论,一起交流!
评论0