通过博客搬家同步博客

这篇是通过邮件转发来同步博客的后续文章。

报告一下实验结果吧。

点点太坑爹,邮件转发的文章超链接和图片都被除去了,起不到一点效果(tumblr不这样,学要学像一点嘛)。

人人网可以通过导入rss来同步,但是有一些问题:
1、RSS同步不是即时的,人人往往至少要等第二天才能更新(这个并不是什么大的问题)。
2、并不能完全导入,比如我的博客www.tianrunlin.com和blog.tianrunlin.com一共有55篇文章导入,成功的却只有9篇(如果一直这样,那就是个问题)。目前只发现人人这一个入口,接下来就是将人人人网博客导入到其他网站。

通过邮件转发来同步博客

做个实验

因为搜索引擎对那些门户博客权重比较高,就拿我上篇博客谷歌博客blogger如何完成百度站长工具验证来说吧,那篇文章被人转发到网易博客,结果搜索文章标题的时候,那篇博客反而排在我的前面。略微不爽啊,不过如果能帮助别人也算好事一件吧。这可以算搜索引擎的一个不足吧,因为计算排名时它不仅要考虑文章是否原创,还要考虑博客权重因素。结果往往就造成了某篇原创博客被门户转载后排名反而落在门户后面。同时要我也发现,如果门户在转发的时候,保留原文的超链接(不是文字链接),可以在一定程度缓解这个问题。

三种不同类型的代理

按照不同的分类标准,代理可以划分不同的类型。如果按照匿名程度来划分的话,代理可以分为透明代理、普通匿名代理、超级匿名代理这三种类型,下面是对它们的详细讲解。

一、没有使用代理服务器的情况:
REMOTE_ADDR = 您的 IP
HTTP_VIA = 没数值或不显示
HTTP_X_FORWARDED_FOR = 没数值或不显示

谷歌不再向小企业免费提供Google Apps

谷歌今天表示,将不再向小型企业免费提供Google Apps办公软件。10人或10人以下的企业或机构若需使用,每人每年需支付50美元。

  Google Apps服务项目包括电子邮件,文字、图表处理和演示工具,此前只对10人以上的企业收费。这次调整后,10人或10人以下的小企业也要付费才能使用,收费标准和大企业一致。

  谷歌表示,个人用户仍然能够免费使用Google Apps的大多数产品,譬如Gmail电子邮件服务。现在已在使用免费版Google Apps的企业用户也可以继续使用,但不能享受高级版的新增功能。这意味着,现存的免费企业用户在升级新版本Google Apps需要开始付费。

  谷歌今天早些时候宣布,全球已有超过500万家企业或机构在使用Google Apps。谷歌对Google Apps采取了逐步扩充收费范围的策略,在2011年底之前,50人或50人以下的企业享有免费使用权。

  广告一直是谷歌的核心业务,但该公司从来没有放弃拓展企业市场,并希望企业业务能够成为该公司的重要收入来源之一。今年6月,谷歌高级副总裁兼首席商务官尼科什·阿罗拉(Nikesh Arora)曾表示,企业业务是谷歌未来的“增长引擎”
看来谷歌财务压力大了啊

莫言谈审查制度

莫言表示:“获奖是我个人的事。诺贝尔奖从来都是颁给一个作家的,不是颁给国家的。”他也说道,希望自己获奖”会引起中国读者对文学的兴趣”,希望“能对中国文学的发展起到积极的推动作用”。
然而在10月12日回答路透社记者提出有关LiuXB的问题时,莫言出乎意料地说:“我希望他(LiuXB)能尽快获得自由”。

doodle博客日志初步分析

这是doodle博客日志下载成功的续篇,日志下载到本地后,就该对日志进行分析了,首先分析的就应该是搜索引擎的蜘蛛(爬虫、机器人)了。
假定所有的蜘蛛都遵守robots.txt协议,所以他们会先读取robots.txt,会出现下面类似下面的日志记录
211.39.150.195 - - [03/Oct/2012:23:23:30 -0700] “GET /robots.txt HTTP/1.1” 200 290 - “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
这是我用某软件的概要分析结果(不太准确)
蜘蛛名      访问次数      总停留时间(小时)      总抓取量      占比 %
1      谷歌蜘蛛      71      5.657      391      59.695
2      BaiDu Spider      23      8.108      174      26.565
3      Sogou Spider      27      1.944      48      7.328
4      Alexa crawler      4      0.023      13      1.985
5      msnbot/      3      0.000      11      1.679
6      W3C HTML-Code Validator      3      0.033      8      1.221
7      雅虎蜘蛛      1      0.001      5      0.763
8      Google Feedfetcher      1      0.000      3      0.458
9      Googlebot-Image      1      0.171      2      0.305
     总计      134      15.936      655      100.000

所以,我又用使用robots.txt进行匹配搜索,剔除明显的人为访问行为后,有下面这些useragent访问记录

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
谷歌蜘蛛

Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727)
未知,ip为美国费城的

Sogou web spider/4.0
搜狗蜘蛛
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
yandex蜘蛛

Sogou web spider/4.0\xac*
搜狗蜘蛛,不知道这个和上面的有什么不同

ia_archiver (+http://www.alexa.com/site/help/webmasters; crawler@alexa.com)
alexa蜘蛛

msnbot/2.0b (+http://search.msn.com/msnbot.htm)
msn蜘蛛
Sogou web spider/4.0\xab*
Mozilla/5.0 (compatible; AhrefsBot/4.0; +http://ahrefs.com/robot/)
ahrefs蜘蛛

SurcentroBot
不知道是谁家的
Mozilla/5.0 (compatible; Ezooms/1.0; ezooms.bot@gmail.com)
ezooms蜘蛛
Twitterbot/1.0
推特蜘蛛
Mozilla/5.0 (compatible; Butterfly/1.0; +http://labs.topsy.com/butterfly/) Gecko/2009032608 Firefox/3.0.8
topsy.com公司的蜘蛛,这是他们的介绍:
Searches content published on Twitter and the web, sorted by relevance or date.
是一家搜索推特及相关内容的公司

Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
bing蜘蛛
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
雅虎蜘蛛
PagesInventory (robot http://www.pagesinvenotry.com)
pagesinvenotry蜘蛛

Mozilla/5.0 (Windows; U; Windows NT 6.0; en-GB; rv:1.0; trendictionbot0.5.0; trendiction search; http://www.trendiction.de/bot; please let us know of any problems; web at trendiction.com) Gecko/20071127 Firefox/3.0.0.11
trendiction.com蜘蛛,这是他们的介绍
Online Media and Social Media data crawling for simple integration into media monitoring systems or market research studies.
也是收集社会媒体数据的
Mozilla/5.0 (compatible; woriobot +http://worio.com)
这个也不知道
Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.6; en-US; rv:1.9.2) Gecko/20100115 Firefox/3.6 (FlipboardProxy/1.1; +http://flipboard.com/browserproxy)
flipboard.com蜘蛛,这是他们介绍Your Social Magazine. Available for iPad, iPhone & Android
是为移动设备提供聚合信息的

Mozilla/4.0
未知

Mozilla/5.0 ()
未知

Mozilla/5.0 (compatible; MJ12bot/v1.4.3; http://www.majestic12.co.uk/bot.php?+)
majestic12.co.uk蜘蛛,这是他们介绍
Distributed Computing Project aimed towards building the largest search engine index on the Internet using Distributed Crawlers.
分布式搜索引擎?

当然,我们还不能忘记那些流氓蜘蛛,比如说soso蜘蛛,这货从来不鸟robots.txt,所以再以bot,spider,crawl为关键词进行搜索,有下面这些流氓
Baiduspider-image+(+http://www.baidu.com/search/spider.htm)
MetaURI API/2.0 +metauri.com
UnwindFetchor/1.0 (+http://www.gnip.com/)
NING/1.0
JS-Kit URL Resolver, http://js-kit.com/
LinkedInBot/1.0 (compatible; Mozilla/5.0; Jakarta Commons-HttpClient/3.1 +http://www.linkedin.com)
Mozilla/5.0 (compatible; redditbot/1.0; +http://www.reddit.com/feedback)
AddThis.com robot tech.support@clearspring.com
R6_CommentReader(www.radian6.com/crawler)
Mozilla/5.0 (compatible; JikeSpider; +http://shoulu.jike.com/spider.html)
Mozilla/5.0(compatible; Sosospider/2.0; +http://help.soso.com/webspider.htm)
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)