广东福建浙江江苏上海北京山东辽宁江西河南四川湖北湖南广西安徽黑龙江天津重庆吉林河北贵州甘肃山西云南新疆宁夏海南陕西西藏青海内蒙古

新闻中心

SEO优化网页收录搜索引擎Spider的工作原理
发布时间:2021-06-02 09:01:20

收录原理

网页在互联网中是如何被搜索引擎蜘蛛爬取,然后又如何进入搜索引擎的索引库并前端被用户搜索到,按一定的规律进行结果排序的呢?其中,非常受SEO关注的是页被收录的整个过程。了解搜索引擎的收录原理,对SEO人员更好地优化页面是不可或的,充分地掌握收录原理对实现网站页面被收录的比例提高大有裨益。


搜索引擎Spider的工作原理

收录的第一个环节就是抓取,即搜索引擎的蜘蛛(Spider)到互联网去抓取网页的程。抓取网页是收录工作的上游,通过搜索引擎蜘蛛的抓取、保存和持续的更新,实现互联网网页的动态更新。每个互联网公司都有自己的抓取蜘蛛,比如百度蜘蛛、谷歌蜘蛛搜狗蜘蛛等。对于百度来说,常见的蜘蛛蜘蛛通过对页面的抓取和更新,实现对互联网所有页面进行URL+页面库的维护。


Spider抓取系统包括链接存储系统、链接选取系统、DNS解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。BaiduSpider就是通过这种系统的通力合作完成对互联网页面的抓取工作。




百度蜘蛛的运行原理分为以下两个部分。


1)通过百度蜘蛛下载回来的网页放到补充数据区,通过各种程序计算过后才放到检索区,才会形成稳定的排名,所以说只要下载回来的东西都可以通过指令找到,补充数据是不稳定的,有可能在各种计算的过程中被删除掉,检索区的数据排名是相对比较稳定的,百度目前是缓存机制和补充数据相结合的,正在向补充数据转变,这也是目前百度收录困难的原因,也是很多站点今天被删除了明天又放出来的原因。


2)百度深度优先和权重优先,百度蜘蛛抓取页面的时候从起始站点(种子站点指的是一些门户站点)开始,广度优先是为了抓取更多的网址,深度优先是为了抓取高质量的网页,这个策略是由调度来计算和分配的,百度蜘蛛只负责抓取,权重优先是指反向连接较多的页面的优先抓取,这也是调度的一种策略,一般情况下网页抓取抓到40%是正常范围,60%算很好,100%是不可能的,当然抓取的越多越好。


在蜘蛛的实际抓取过程中,因为网页内容的复杂性(文本、Flash、视频等)和技术实现的多样性(纯静态、动态加载等),为了更高效地利用Spider资源,搜索引擎公司会采用不同的抓取策略。作为SEO人员,可以参考搜素引擎公司抓取测略的描述,采用最大化的SEO优化方法。

上一篇:销售产品为目标的网站针对交易型搜索做的优化       下一篇:SEO优化提高网页的收录需要做的工作

提供全国各地网站建设服务

上海北京深圳广州天津南京大连杭州沈阳成都东莞济南佛山无锡长沙武汉宁波长春苏州青岛珠海大庆福州厦门常州郑州烟台西安合肥南宁重庆东营昆明威海中山南昌绍兴太原惠州温州徐州扬州淄博镇江鞍山保定银川南通洛阳嘉兴台州桂林贵阳兰州盘锦漳州黄石唐山潍坊湘潭肇庆吉林江门海口株洲泉州泰州包头柳州德州韶关宝鸡金华盐城新乡十堰廊坊玉溪济宁沧州芜湖湖州梧州泰安安阳辽阳舟山梅州常德三明连云港哈尔滨秦皇岛马鞍山石家庄呼和浩特

 
备案系统认证 举报不良网站 我们的支付方式 AAA级信用
广州万户网络信息科技有限公司 旗下网站建设品牌:万户网 www.ttn8.com 版权所有 ©2000-2019 All Rights Reserved
网站备案编号:粤ICP备15049595号 地址:广州市番禺区大石街北联围仔工业路2号E座305
电话:020-85421558   传真:020-88140140   邮编:510515