5月 « 2013 « 子游媒体

一部赵薇导演的《致我们逝去的青春》引起了全球的回忆青春热潮。一部电影，让我们思念过去。我没有看过这部电影。听说票房很高。电影的内容我不知道，我只知道这名字就应该吸引了很多票房了。
失业2个月了。又到了该交房租的日子了。每当到了没钱的时候才知道钱是那么重要。最近也不是没有收获，至少能明白自己到底想要什么了。也知道自己不想要什么。阅读全文 ……

http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH4/latest/CDH4-Quick-Start/cdh4qs_topic_3_3.html
http://www.cloudera.com/content/cloudera-content/cloudera-docs/Impala/latest/Installing-and-Using-Impala/Installing-and-Using-Impala.html

From Zero to Impala in Minutes

什么是Impala？
Cloudera发布了实时查询开源项目Impala，根据多款产品实测表明，它比原来基于MapReduce的Hive SQL查询速度提升3～90倍。Impala是Google Dremel的模仿，但在SQL功能上青出于蓝胜于蓝。

1. 安装JDK
$ sudo yum install jdk-6u41-linux-amd64.rpm

阅读全文 ……

Googlezon 与 2014

admin 发布于 2013年5月12日

没有评论

{Googlezon 与 2014}

http://hutu.me/

还有人记得 EPIC 2014 这部 8 分钟的 Flash 短片么? 2004 年， Robin Sloan 与 Matt Thompson 发布了一部关于未来信息世界的短片，预测互联网对媒体的冲击。在当时引起了极大的关注。

今天重新看了这部短片，顺便回顾一下当年的预测偏差到底有多大。

阅读全文 ……

googlezon

admin 发布于 2013年5月12日

没有评论

影片地址：http://mccd.udc.es/orihuela/epic/ols-master.swf
原版地址：http://www.robinsloan.com/epic/本片作者非常大胆的预言Google将与Amazon合并、传统新闻媒体将衰败式微、Googlezon将击败微软Newsbotster，然后推出 EPIC独霸天下，非常的有趣！让人感到这世界运转越来越快，媒体生态变化迅速，没有高瞻远瞩和创新思维与灵活反应，大概就没有机会长存了。

阅读全文 ……

放下矜持

admin 发布于 2013年5月11日

没有评论

http://www.zhihu.com/collection/20153217

发个小清新：
09年在巴黎，地铁里。我和老婆在车上昏昏欲睡。
一个文青范儿眼镜娘突然在车厢里站起来，说：“我有几段话，想读给大家听。”
然后就举起一本类似诗集似的书，开始用情地读。我听不懂，但是看她的神态，好像很幸福。
这剧情真够文艺的，当时我就想，这也就是在巴黎。

然后剧情急转直下：
女文青读着读着似乎自己把自己感动了，越读越慢，还有轻捂嘴的动作。
这时，车到站了。女文青拿起书包，把书塞进去，说了句“谢谢”转身就下了车。
我以为故事就这么完了。

结果坐我对面的男青年（脸型瘦削，下巴有小胡子，白人）突然站起来从车门飞奔了出去，喊到“请等等”，一把拉住了女文青。
拥吻。
车动。出站。车厢里的掌声。
这tmd才真的是巴黎。

后来很长时间我脑中的那对情侣都挥之不去。给我的感触是：爱情突如其来，莫名其妙，你所需要做的一切就仅仅是放下矜持。

新型内容发布平台Medium

admin 发布于 2013年5月10日

没有评论

http://www.36kr.com/p/202490.html

http://baike.baidu.cn/view/269583.htm

google 工作原理

admin 发布于 2013年5月10日

没有评论

网页正文提取算法介绍

admin 发布于 2013年5月9日

没有评论

http://www.cnblogs.com/phoenixnudt/articles/2382140.html

查找发现了两个比较好的网页正文提取算法：

国内：哈工大的《基于行块分布函数的通用网页正文抽取》该算法开源网址为http://code.google.com/p/cx-extractor/，效果为亲测，文章中呈准确率95%以上，对1000个网页抽取耗时21.29秒。看了文章感觉不错，无需html解析，效率应该会高些。
国外：大名鼎鼎的arc90实验室的Readability，该算法已经商业化实现了firefox,chrome插件，及flipboard，并且已经集成进了safari浏览器。未详细测试，大致测试感觉准确率应该至少在90%以上。该算法需要解析DOM树，因此稍执行效率稍微慢一些。大致过程为，先解析DOM树，所有标签小写。然后去除所有“script”标签内容，再通过一对正则表达式的配合提取。具体算法还未看。其插件中包含算法JAVASCRIPT源码。有热心人士已将其用c#和php实现，源码地址如下:
1. 官方网站http://www.readability.com/
2. c#实现一：https://github.com/marek-stoj/NReadability（亲测，效果不错）
3. c#实现二：http://code.google.com/p/nreadability/（未亲测）
4. php实现一:　http://code.fivefilters.org/p/php-readability/(未亲测)
5. php实现二:https://github.com/feelinglucky/php-readability(未亲测)作者主页:http://www.gracecode.com/archives/3061/
6. node.js版：https://github.com/arrix/node-readability/（未亲测）
7. 测试地址 http://graceco.de/readability/

子游媒体

孤独者的自言自语

谷歌的活动推荐引擎Schemer

致我们终将逝去的青春（观后感）

致青春看之前

伪分布式安装部署CDH4.2.1与Impala

Googlezon 与 2014

googlezon

放下矜持

新型内容发布平台Medium

google 工作原理

网页正文提取算法介绍