搜索引擎是如何工作的?这一话题一定困扰了很多SEO的工作人员。从SEO理论来讲了解搜索引擎的工作原理是进入SEO的第一步,因为只有了解了搜索引擎才能更好的去运用。下面我们一张图来浅析一下搜索引擎的工作原理。
1、 由图可以看出:搜索引擎首先通过程序释放网络蜘蛛(spider),spider会先去检查开放目录DMOZ上登录网站网址进行访问,并根据收录的网站的外部链接找到更多的网站。然后会根据网站的权重高低和更新频率来安排spider的搜索频率,当然权重越高、更新越频繁的站点会获得更多spider的抓取。对于以前的新站,google会进行sandbox处理,现在只要新站没有太大的SEO作弊嫌疑以及违规内容的话,还是可以逃过沙盒的。
2、关于页面的抓取。对于站内的连接就是我们所说的内链接,google会根据网站的pr值,然后计算出相应的搜索深度。在这期间会检查收入的页面中获取的URL是否更新,有则收录新的网址,无则关闭spider。而Baidu和yahoo也会则根据自己的算法来收录访问深度内的网址。还有,Google会对于提交了sitemap的网站,抓取深层次的页面。
3、搜索引擎开始读取spider收集的网址库,然后按照网址收录的优先规则调度爬虫crawler。
4、搜索引擎开始释放crawler抓取网址页面,然后在搜索用户搜索搜索关键词时,根据收录网站为中文网站根据分词技术进行关键字索引,按照页面的权重进行排位。
5、进行反作弊spam kill和dance(google)。反作弊会引起搜索收录减少,有时候会发现原本收录的内页突然没有了,就有可能是被反作弊降权了。 |