按月份归档:五月 2013

谷歌的活动推荐引擎Schemer

https://www.schemer.com/home

你打算做啥?在哪里?大家一起玩?想去爬山没有伙伴?在这里说一说,也许也有同样的人。不如结伴而行?

这么好的产品居然没发展起来。1年多了,国内居然没人山寨一个?

这个应用根据用户的计划,推荐相关的用户。大家一起来。哎,可惜了。这么好的东西。

如果把它和g+打通,或者也许google早打通了。

你打算做什么?你读什么文章?活动计划引擎+我的推荐阅读引擎会怎样?大家拭目以待。

致我们终将逝去的青春(观后感)

最后我还是看了。或者这部让我逻辑思维很乱很乱的电影。

但是泪都流出来了。那里面郑薇问陈孝正的台词,薇薇也问过我。“没有爱情你会死吗?”“我是不是任何时候都能联系到你?”薇薇,在得知女神要和我约会后问我。随后她便流泪了。 阅读全文 ……

致青春看之前

一部赵薇导演的《致我们逝去的青春》引起了全球的回忆青春热潮。一部电影,让我们思念过去。我没有看过这部电影。听说票房很高。电影的内容我不知道,我只知道这名字就应该吸引了很多票房了。
失业2个月了。又到了该交房租的日子了。每当到了没钱的时候才知道钱是那么重要。最近也不是没有收获,至少能明白自己到底想要什么了。也知道自己不想要什么。 阅读全文 ……

伪分布式安装部署CDH4.2.1与Impala

http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH4/latest/CDH4-Quick-Start/cdh4qs_topic_3_3.html
http://www.cloudera.com/content/cloudera-content/cloudera-docs/Impala/latest/Installing-and-Using-Impala/Installing-and-Using-Impala.html

From Zero to Impala in Minutes

什么是Impala?
Cloudera发布了实时查询开源项目Impala,根据多款产品实测表明,它比原来基于MapReduce的Hive SQL查询速度提升3~90倍。Impala是Google Dremel的模仿,但在SQL功能上青出于蓝胜于蓝。

1. 安装JDK
$ sudo yum install jdk-6u41-linux-amd64.rpm

阅读全文 ……

Googlezon 与 2014

{Googlezon 与 2014}

http://hutu.me/

还有人记得 EPIC 2014 这部 8 分钟的 Flash 短片么? 2004 年, Robin Sloan 与 Matt Thompson 发布了一部关于未来信息世界的短片,预测互联网对媒体的冲击。在当时引起了极大的关注。

 

今天重新看了这部短片,顺便回顾一下当年的预测偏差到底有多大。

阅读全文 ……

googlezon

影片地址:http://mccd.udc.es/orihuela/epic/ols-master.swf
原版地址:http://www.robinsloan.com/epic/本片作者非常大胆的预言Google将与Amazon合并、传统­新闻媒体将衰败式微、Googlezon将击败微软Newsbo­tster,然后推出 EPIC独霸天下,非常的有趣!让人感到这­世界运转越来越快,媒体生态变化迅速,没有高瞻远瞩和创新思维与­灵活反应,大概就没有机会长存了。

阅读全文 ……

放下矜持

http://www.zhihu.com/collection/20153217

发个小清新:
09年在巴黎,地铁里。我和老婆在车上昏昏欲睡。
一个文青范儿眼镜娘突然在车厢里站起来,说:“我有几段话,想读给大家听。”
然后就举起一本类似诗集似的书,开始用情地读。我听不懂,但是看她的神态,好像很幸福。
这剧情真够文艺的,当时我就想,这也就是在巴黎。

然后剧情急转直下:
女文青读着读着似乎自己把自己感动了,越读越慢,还有轻捂嘴的动作。
这时,车到站了。女文青拿起书包,把书塞进去,说了句“谢谢”转身就下了车。
我以为故事就这么完了。

结果坐我对面的男青年(脸型瘦削,下巴有小胡子,白人)突然站起来从车门飞奔了出去,喊到“请等等”,一把拉住了女文青。
拥吻。
车动。出站。车厢里的掌声。
这tmd才真的是巴黎。

后来很长时间我脑中的那对情侣都挥之不去。给我的感触是:爱情突如其来,莫名其妙,你所需要做的一切就仅仅是放下矜持。

网页正文提取算法介绍

http://www.cnblogs.com/phoenixnudt/articles/2382140.html

查找发现了两个比较好的网页正文提取算法:

  1. 国内:哈工大的《基于行块分布函数的通用网页正文抽取》该算法开源网址为http://code.google.com/p/cx-extractor/,效果为亲测,文章中呈准确率95%以上,对1000个网页抽取耗时21.29秒。看了文章感觉不错,无需html解析,效率应该会高些。
  2. 国外:大名鼎鼎的arc90实验室的Readability,该算法已经商业化实现了firefox,chrome插件,及flipboard,并且已经集成进了safari浏览器。未详细测试,大致测试感觉准确率应该至少在90%以上。该算法需要解析DOM树,因此稍执行效率稍微慢一些。大致过程为,先解析DOM树,所有标签小写。然后去除所有“script”标签内容,再通过一对正则表达式的配合提取。具体算法还未看。其插件中包含算法JAVASCRIPT源码。有热心人士已将其用c#和php实现,源码地址如下:
    1. 官方网站http://www.readability.com/
    2. c#实现一:https://github.com/marek-stoj/NReadability(亲测,效果不错)
    3. c#实现二:http://code.google.com/p/nreadability/(未亲测)
    4. php实现一: http://code.fivefilters.org/p/php-readability/(未亲测)
    5. php实现二:https://github.com/feelinglucky/php-readability(未亲测)作者主页:http://www.gracecode.com/archives/3061/
    6. node.js版:https://github.com/arrix/node-readability/(未亲测)
    7. 测试地址 http://graceco.de/readability/