doodle博客日志初步分析

这是doodle博客日志下载成功的续篇,日志下载到本地后,就该对日志进行分析了,首先分析的就应该是搜索引擎的蜘蛛(爬虫、机器人)了。
假定所有的蜘蛛都遵守robots.txt协议,所以他们会先读取robots.txt,会出现下面类似下面的日志记录
211.39.150.195 - - [03/Oct/2012:23:23:30 -0700] “GET /robots.txt HTTP/1.1” 200 290 - “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
这是我用某软件的概要分析结果(不太准确)
蜘蛛名      访问次数      总停留时间(小时)      总抓取量      占比 %
1      谷歌蜘蛛      71      5.657      391      59.695
2      BaiDu Spider      23      8.108      174      26.565
3      Sogou Spider      27      1.944      48      7.328
4      Alexa crawler      4      0.023      13      1.985
5      msnbot/      3      0.000      11      1.679
6      W3C HTML-Code Validator      3      0.033      8      1.221
7      雅虎蜘蛛      1      0.001      5      0.763
8      Google Feedfetcher      1      0.000      3      0.458
9      Googlebot-Image      1      0.171      2      0.305
     总计      134      15.936      655      100.000

所以,我又用使用robots.txt进行匹配搜索,剔除明显的人为访问行为后,有下面这些useragent访问记录

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
谷歌蜘蛛

Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727)
未知,ip为美国费城的

Sogou web spider/4.0
搜狗蜘蛛
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
yandex蜘蛛

Sogou web spider/4.0\xac*
搜狗蜘蛛,不知道这个和上面的有什么不同

ia_archiver (+http://www.alexa.com/site/help/webmasters; crawler@alexa.com)
alexa蜘蛛

msnbot/2.0b (+http://search.msn.com/msnbot.htm)
msn蜘蛛
Sogou web spider/4.0\xab*
Mozilla/5.0 (compatible; AhrefsBot/4.0; +http://ahrefs.com/robot/)
ahrefs蜘蛛

SurcentroBot
不知道是谁家的
Mozilla/5.0 (compatible; Ezooms/1.0; ezooms.bot@gmail.com)
ezooms蜘蛛
Twitterbot/1.0
推特蜘蛛
Mozilla/5.0 (compatible; Butterfly/1.0; +http://labs.topsy.com/butterfly/) Gecko/2009032608 Firefox/3.0.8
topsy.com公司的蜘蛛,这是他们的介绍:
Searches content published on Twitter and the web, sorted by relevance or date.
是一家搜索推特及相关内容的公司

Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
bing蜘蛛
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
雅虎蜘蛛
PagesInventory (robot http://www.pagesinvenotry.com)
pagesinvenotry蜘蛛

Mozilla/5.0 (Windows; U; Windows NT 6.0; en-GB; rv:1.0; trendictionbot0.5.0; trendiction search; http://www.trendiction.de/bot; please let us know of any problems; web at trendiction.com) Gecko/20071127 Firefox/3.0.0.11
trendiction.com蜘蛛,这是他们的介绍
Online Media and Social Media data crawling for simple integration into media monitoring systems or market research studies.
也是收集社会媒体数据的
Mozilla/5.0 (compatible; woriobot +http://worio.com)
这个也不知道
Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.6; en-US; rv:1.9.2) Gecko/20100115 Firefox/3.6 (FlipboardProxy/1.1; +http://flipboard.com/browserproxy)
flipboard.com蜘蛛,这是他们介绍Your Social Magazine. Available for iPad, iPhone & Android
是为移动设备提供聚合信息的

Mozilla/4.0
未知

Mozilla/5.0 ()
未知

Mozilla/5.0 (compatible; MJ12bot/v1.4.3; http://www.majestic12.co.uk/bot.php?+)
majestic12.co.uk蜘蛛,这是他们介绍
Distributed Computing Project aimed towards building the largest search engine index on the Internet using Distributed Crawlers.
分布式搜索引擎?

当然,我们还不能忘记那些流氓蜘蛛,比如说soso蜘蛛,这货从来不鸟robots.txt,所以再以bot,spider,crawl为关键词进行搜索,有下面这些流氓
Baiduspider-image+(+http://www.baidu.com/search/spider.htm)
MetaURI API/2.0 +metauri.com
UnwindFetchor/1.0 (+http://www.gnip.com/)
NING/1.0
JS-Kit URL Resolver, http://js-kit.com/
LinkedInBot/1.0 (compatible; Mozilla/5.0; Jakarta Commons-HttpClient/3.1 +http://www.linkedin.com)
Mozilla/5.0 (compatible; redditbot/1.0; +http://www.reddit.com/feedback)
AddThis.com robot tech.support@clearspring.com
R6_CommentReader(www.radian6.com/crawler)
Mozilla/5.0 (compatible; JikeSpider; +http://shoulu.jike.com/spider.html)
Mozilla/5.0(compatible; Sosospider/2.0; +http://help.soso.com/webspider.htm)
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)