作为一个合格的SEO优化人员,想让我们的网站更加符合搜索引擎的规范,就必须了解搜索引擎是如何工作的,这也是每一个SEO优化人员的基本功,下面我们就来详细解释一下搜索引擎是如何工作的。
一、抓取
这个步骤就像大海里捞鱼,搜索引擎像一个大鱼网通过抓取的方式不断获得我们网站的各个元素。
1.抓取程序(蜘蛛)
既然抓取就需要工具,搜索引擎抓取页面的工具被我们俗称为蜘蛛,他是一个搜索引擎开发的软件系统,搜索引擎通过这些抓取程序每天不间断的对我们的网站进行抓取,为了区分开来,不同的搜索引擎他的抓取程序的名字是不一样的。
百度蜘蛛:BaiduSpider
谷歌机器人:Googlebot
360蜘蛛:360Spider
这是几个大的搜索引擎的蜘蛛的名字,其他搜索引擎抓取程序的名字自己查询一下即可。
2.如何让抓取程序来抓取
我们肯定希望我们的网站都能够被搜索引擎尽快的抓取,首先搜索引擎的抓取程序是通过链接对我们的网站进行抓取的,我们网站一般都是通过做外部链接的方式来让蜘蛛更好的抓取我们的网站,蜘蛛通过链接爬取到我们的页面的时候他还会通过该页面上面的链接进行继续爬取。
我们还可以通过提交链接的方式来让蜘蛛抓取我们的页面,各大搜索引擎都提供了提交入口,我们想让蜘蛛抓取我们的哪个页面我们去提交即可。
当然还有的网站蜘蛛主动上门来抓取的,互联网上的高质量的内容是非常稀缺的,当你的网站有高质量的内容的时候,蜘蛛就会主动上门并且定期的来抓取你网站的内容,以更新他自己的数据库。
3.怎么知道蜘蛛是否抓取了我们的网站
有两种方式能够看到蜘蛛是否抓取了我们的网站
第一、百度站长平台的抓取频率
推荐大家加入百度站长平台,里面的很多功能对SEO优化都有很大的帮助
第二、服务器日志
服务器日志更能够直观的反映出蜘蛛对于我们网站哪个页面在什么时间通过什么方式抓取的,我们需要会看服务器日志,当然我们也可以通过日志分析工具进行分析。
4.影响蜘蛛抓取页面的因素
我们知道了蜘蛛通过什么方式抓取我们的页面也知道了怎么看蜘蛛的抓取轨迹,那么什么因素能够影响蜘蛛的抓取呢,主要因素有两个,路径过长和中文路径。
A.路径过长
过长的路径会影响蜘蛛对于这个链接所在的页面的抓取,所以我们在设置路径的时候尽量简洁明了,动态路径的话要做好伪静态,尽量避免不必要的参数出现在路径里。
B.中文路径
很多网站的程序会生成一些中文的路径,他们觉得这样会很利于用户对于该路径下的内容的了解,但是中文路径对于蜘蛛的爬取影响是非常大的,所以我们要避免中文路径。
二、过滤
1.为什么过滤
搜素引擎通过捞鱼的方式抓取来的页面是鱼龙混杂的,我们知道在互联网上会充斥着各种无价值的页面、死链接页面、欺骗页面等等,搜索引擎为了节省抓取程序的服务器资源同时为了节省搜索引擎的工作时间,要对所抓取的页面进行过滤。
2.影响过滤的因素
首先搜索引擎对于JS代码、FLASH、iframe框架都是无法识别的,所以在关键内容我们要尽量不用或者少用这三个因素,其次是图片对于图片我们要做好ALT标签,因为他是通过ALT标签对图片进行识别的。
其次页面质量对于搜索引擎的过滤也是很有影响的,我们应该尽量提高自己的页面质量也便保证搜索引擎不把我们的页面过滤掉。
三、收录
在我们的网站页面经过了前两部的抓取和过滤之后,搜索引擎就会把我们的页面纳入到他的索引库里面,这就是我们经常说的收录,也就是具体呈现到我们面前的一个个页面。
我们可以通过SITE加域名还有百度站长平台的索引量查询这两个方式来查看我们的收录量或者索引量。
四、排序
当搜索引擎对我们的页面建立了索引并且纳入他的数据库之后,搜索引擎会根据自身的一个算法机制对于这些页面进行一个排序,我们每一个SEO不断研究的也正是如何能够让自己的网站获得更好的排序,拥有一个好的排名是综合因素的结果,我们需要做好每一个细节。
总结
我们详解介绍了搜索引擎工作的四个步骤,包括抓取、过滤、收录还有排序,这四个步骤每一步都非常的重要他们之间的联系也是非常的紧密的,只有我们对每一步进行详细了解并且把我们网站按照搜索引擎的规则做好,最后我们才可能获得搜索引擎的亲睐。