- 六月16日
-
1、Baidu spider抓取失败对流量的影响
首先说明,spider的抓取失败分为两种:百度自身系统问题、外界站长问题。
这里主要是和各位站长的交流,所以着重说下“外界站长问题”导致的抓取失败,并且影响到站点从百度获得的流量问题。
目前百度spider 系统中能够统计到的失败分为几种:
UA/IP封禁
对于百度的ua 或者IP 进行封禁,会导致百度不能成功抓取您的站点,从而不能成功抓取新网页,以及将之前已经抓到的页面判定为死链,并会进行清理,这样最终导致站点获得的流量减少。此外,还会有一些冒充百度spider的抓取和采集,可以使用DNS反查方式来确定抓取来源的ip是否属于百度,防止误封禁。
参考资料:Baiduspider常见问题解答 http://www.baidu.com/search/spider_chinese.html压力过大的偶然封禁
首先,我们会根据站点的规模,访问量等信息,建立一个合理的站点抓取压力。但是会有一些例外,在压力控制不好的情况下,服务器会根据自身负荷进行保护性的偶然封禁,对于这样的情况,如果压力过大,请在返回码中尽量不要使用404,建议返回503(其含义是“Service Unavailable”)。这样百度spider会过段时间再来尝试抓取这个链接,如果那个时间站点空闲,那它就会被成功抓取了。
站点服务不稳定&更换服务
尽量的保证您的网站稳定,如果需要暂时换服务,需要暂时让旧服务能够使用一段时间,并且做301 跳转,尽量减少改版带来的流量损失。虽然百度spider现在对301跳转的响应周期较长,但我们还是推荐大家这么做。
除了以上介绍的典型封禁,还有一些其他非典型的,比如:refer、ua作弊、js等,这些封禁都会导致百度失败,从而把已经抓到的页面进行删除,或者不能成功抓取新页面,这样会直接影响到网站的流量。
最后,希望站长尽量保持站点的稳定,对于暂时不想被百度抓取的页面,使用正确的返回码告知百度,如果确实不想被百度抓取或者索引,可以写robots信息告知。
此外,我们也会尽最大可能去抓取所有正常站点的内容,并且做好对站点压力的控制。
2、如何判断Baiduspider的真假?
目前中文互联网上有少量spider冒充Baiduspider抓取网页,周六madcon会上,发现很多同学不知道如何判断Baiduspider的真假,再次说明一下:
中文互联网上,Baiduspider ip的hostname以 *.baidu.com的格式命名,非 *.baidu.com即为冒充,建议您使用DNS反查方式来确定抓取来源的ip是否属于百度。
例如,在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。
$ host 123.125.66.120
120.66.125.123.in-addr.arpa domain name pointer
baiduspider-123-125-66-120.crawl.baidu.com.
在windows平台下,可以用nslookup命令反解ip来判断是否来自Baiduspider的抓取。
点击“开始”-“运行”-“cmd”-“输入nslookup IP地址”-“回车”
C:\Documents and Settings\wangtao>nslookup 123.125.66.120
Name: baiduspider-123-125-66-120.crawl.baidu.com
Address: 123.125.66.120
详请参考:
http://www.baidu.com/search/spider_chinese.html
PS:Baiduspider绝对不会以匿名的方式抓取网页。
3、关于网站服务器更换的说明
由于dns刷新等多种原因,服务器切换不是无缝的。更换服务器需要谨慎对待,建议更换服务器的站长,参照百度搜索引擎优化指南所建议的步骤:
开通新的空间,并将网站完整的迁移到新空间,并保持流畅访问。
将域名的服务器指向更新为新空间的ip。
保证旧空间能持续访问一段时间。
关注新空间的访问日志,等Baiduspider的抓取完全迁移到新空间后,停止旧空间的服务。
4、百度站长平台数据:三成大网站存30%垃圾信息
从门户时代到搜索时代,再到社交时代,互联网越来越开放。在伴随SNS的出现,UGC“UserGeneratedContent”(用户原创内容)创造了大量的信息,人工筛选发布信息不再是主流,主动权转移到了用户手中。近日,百度站长平台监测到,web2.0网站每天新出现的网页中有10%是垃圾信息。而其中对搜索引擎用户影响最大的中高端网站中,竟也有三成网站每天会产生30%的垃圾信息。这已经极大损害了搜索引擎对站点优质内容的收录,更加影响用户在搜索时的体验。。在web2.0时代,站长如何“净化”网站,给予用户更好的体验从而获得流量,是亟待解决的问题。
Web2.0时代站长“亚历山大”
“web2.0网站每天新出现的网页中,有10%是垃圾信息,尤其是在以UGC内容为主导的社交类网站上,譬如社交类电子商务网站大量出现后,产生的垃圾信息对用户的体验造成干扰,恶意链接甚至带来利益的损害,也不利于百度对网站的优质内容进行抓取。”百度站长平台负责人表示,web2.0网站的垃圾信息比例正在迅速攀升,其中有近三成的中高端UGC网站,产生的垃圾信息达到了近3成的比例。
一位国内知名社交网站负责人向记者透露:一方面是UGC平台越来越多样化;另一方面,总会有人利用这些UGC平台来做营销,甚至作弊。同时不断涌现出各种群发器、发贴机,批量自动的完成内容发表。作弊者可利用的手段越来越多,可以说无孔不入:任何疏于防范的地方,都可能被作弊者利用。
“当垃圾内容达到30%的比例时,可能会明显影响搜索引擎的评价。垃圾比例越高,被惩罚的可能性就越大。”百度站长平台负责人坦言,站长最关心的还是流量,一旦垃圾信息的管理不善,会影响站点被搜索引擎收录,将大大影响流量的获取。
站长们面临的不仅是垃圾信息的威胁,如何优化网站质量,日常的监测也相当繁琐。
据了解,站长们对站点的监测包括:站点每天新增的页面里,广告贴、垃圾贴的比例,分布在哪里;每天新增的注册用户,异常比例有多少;是否存在自动发贴机的页面,是否需要强壮的验证码机制来预防;哪些让用户贡献内容的功能是必需的,必需的功能点是否做好了应对作弊的准备;激励用户多贡献内容的机制,是否有利于提高页面质量,是否有促进垃圾群发的风险。
但以上的工作,仅凭借站长一己之力难以面面俱到。据百度站长平台负责人介绍,站长在关注网站内容反作弊的同时,还应该关注可能被搜索引擎判断为作弊的情况。但是仅仅删除垃圾内容是达不到反作弊效果的,因为垃圾内容死链可能仍在百度搜索结果里展现,对搜索引擎和网站用户都造成伤害。只有在加大内容监控力度的同时,对已存在的垃圾内容进行删除,并设置为404页面,将404死链通过百度站长平台进行提交,才能减少作弊用户产生的垃圾内容对网站造成的负面影响
三大工具优化网站质量
“一般的第三方网站缺乏专门的技术力量来进行监控或者日志分析,更多还是依赖于百度站长平台的工具。”一位混迹互联网十年的“老兵”告诉记者,百度站长平台与站长的关系正日渐磨合,陆续推出管理站点的工具,要学会活用。
记者从百度站长平台了解到,于2011年底上线以来,陆续推出站点索引量查询、站点抓取异常、死链工具三大工具,致力通过三个方面:快、好、准,来提升网站的权重,获取更多流量。
“百度的蜘蛛不喜欢访问404页面,也不希望网页访问速度慢,甚至抓取的时候出错,访问体验在百度的网站权重评价体系中是极为重要的一环,但是现实问题是,删除很久的网页依然出现在百度的搜索结果中,不利于站长对访问速度以及出错页面的监控。”面对这一问题,百度站长平台最新上线的死链工具,能够让站长把网站需要删除的页面告诉百度。百度站长平台负责人表示,使用百度站长平台的死链工具,可帮助站长提高百度蜘蛛抓取高质量页面的比例,在关注网站自身内容运营的同时,思考如何将高质量页面带来的流量进行合理转化。此外,通过“站点抓取异常”工具,站长可以在无需额外部署技术力量或者分析日志的情况下,了解百度蜘蛛对其网站的抓取情况,以便更好地优化这位百度蜘蛛的访问体验。
而站点索引量查询功能,可以查询网站在百度网页搜索中的网页索引量数据,区别于site语法的查询数值,更精准,更具可参照性。据百度站长平台负责人介绍,站点中有多少页面可以作为搜索候选结果,就是一个网站的索引量。站点内容页面需要经过搜索引擎的抓取和层层筛选后,方可在搜索结果中展现给用户。页面通过系统筛选,并被作为搜索候选结果的过程,即为建立索引。
“百度站长平台上线的三大工具,对于整治垃圾信息,净化站长环境,提高网站口碑和促进自身品牌建设,将起到立竿见影的效果。”这位站长告诉记者。
原创优读网-重庆seo,来源:http://www.seoread.org/post/baidu-zhanzhang.html