Googlezon 与 2014

{Googlezon 与 2014}

http://hutu.me/

还有人记得 EPIC 2014 这部 8 分钟的 Flash 短片么? 2004 年, Robin Sloan 与 Matt Thompson 发布了一部关于未来信息世界的短片,预测互联网对媒体的冲击。在当时引起了极大的关注。

 

今天重新看了这部短片,顺便回顾一下当年的预测偏差到底有多大。

阅读全文 ……

googlezon

影片地址:http://mccd.udc.es/orihuela/epic/ols-master.swf
原版地址:http://www.robinsloan.com/epic/本片作者非常大胆的预言Google将与Amazon合并、传统­新闻媒体将衰败式微、Googlezon将击败微软Newsbo­tster,然后推出 EPIC独霸天下,非常的有趣!让人感到这­世界运转越来越快,媒体生态变化迅速,没有高瞻远瞩和创新思维与­灵活反应,大概就没有机会长存了。

阅读全文 ……

放下矜持

http://www.zhihu.com/collection/20153217

发个小清新:
09年在巴黎,地铁里。我和老婆在车上昏昏欲睡。
一个文青范儿眼镜娘突然在车厢里站起来,说:“我有几段话,想读给大家听。”
然后就举起一本类似诗集似的书,开始用情地读。我听不懂,但是看她的神态,好像很幸福。
这剧情真够文艺的,当时我就想,这也就是在巴黎。

然后剧情急转直下:
女文青读着读着似乎自己把自己感动了,越读越慢,还有轻捂嘴的动作。
这时,车到站了。女文青拿起书包,把书塞进去,说了句“谢谢”转身就下了车。
我以为故事就这么完了。

结果坐我对面的男青年(脸型瘦削,下巴有小胡子,白人)突然站起来从车门飞奔了出去,喊到“请等等”,一把拉住了女文青。
拥吻。
车动。出站。车厢里的掌声。
这tmd才真的是巴黎。

后来很长时间我脑中的那对情侣都挥之不去。给我的感触是:爱情突如其来,莫名其妙,你所需要做的一切就仅仅是放下矜持。

网页正文提取算法介绍

http://www.cnblogs.com/phoenixnudt/articles/2382140.html

查找发现了两个比较好的网页正文提取算法:

  1. 国内:哈工大的《基于行块分布函数的通用网页正文抽取》该算法开源网址为http://code.google.com/p/cx-extractor/,效果为亲测,文章中呈准确率95%以上,对1000个网页抽取耗时21.29秒。看了文章感觉不错,无需html解析,效率应该会高些。
  2. 国外:大名鼎鼎的arc90实验室的Readability,该算法已经商业化实现了firefox,chrome插件,及flipboard,并且已经集成进了safari浏览器。未详细测试,大致测试感觉准确率应该至少在90%以上。该算法需要解析DOM树,因此稍执行效率稍微慢一些。大致过程为,先解析DOM树,所有标签小写。然后去除所有“script”标签内容,再通过一对正则表达式的配合提取。具体算法还未看。其插件中包含算法JAVASCRIPT源码。有热心人士已将其用c#和php实现,源码地址如下:
    1. 官方网站http://www.readability.com/
    2. c#实现一:https://github.com/marek-stoj/NReadability(亲测,效果不错)
    3. c#实现二:http://code.google.com/p/nreadability/(未亲测)
    4. php实现一: http://code.fivefilters.org/p/php-readability/(未亲测)
    5. php实现二:https://github.com/feelinglucky/php-readability(未亲测)作者主页:http://www.gracecode.com/archives/3061/
    6. node.js版:https://github.com/arrix/node-readability/(未亲测)
    7. 测试地址 http://graceco.de/readability/

招兵买马

linux运维一名
必备条件:
1会玩亚马逊云计算,
2必备的linux知识,
3会Python,shell

后端开发1名。
必备条件:
1熟悉JAVA,Python等
2熟悉Yahoo S4 和twitter storm
3熟悉rest api开发
4熟悉webservice

算法工程师1名
1熟悉机器学习常规算法,
2了解常规的数据挖掘技术
3能够做好推荐系统算法模型
4学习能力要强
5了解deep learning
6懂博弈术加分

hbase dba一名
必备条件:
1熟悉hadoop
2熟悉hbase
3会jvm调优
4必要的Linux知识
5必要的JAVA知识

nlp工程师
待定

爬虫工程师
1了解搜索引擎原理
2熟悉JAVA,Python,go
3熟悉多线程

前端工程师1名
1熟悉js css等,
2了解HTML5
3能够做好前端设计。
4能兼职用户体验。

5熟悉angular.js最好

以上职位必备条件
无党派人士,爱好这一行。
身体健康,心里健康。
谦虚谨慎优先
如果你对以上东西都有了解,或者不借助搜索,了解以上名词,又是个大专生,请联系我。

阅读产品期望

1.不需要专职编辑。

2.没有认为干涉排名

3.没人内容审核,也不接受政府等第三方机构审核

4.机器自动摘要,摘要采用wiki方式人人都能编辑。

5.垃圾点评会由于算法而自动埋没。

6.根据用户爱好,自动推荐文章 点评等

7.算法为王。一切都由算法说了算。站长也不能幕后操作。

 

因为有爬虫,而且算法为王 所以像 google。因为有注册用户,推荐好友,推荐文章,所以像facebook。因为都是文章摘要,所以像twitter。因为人人都可以编辑摘要,所以像wiki。因为有社会化评论,所以像disqus。因为可以分享链接所以像reddit。因为推荐文章所以像prismatic。

其实它只是可以和别人一起评论的阅读器而已。越说越像g+了。

 

景愿

为大家看文章提供推荐,大家一起评论,发现彼此感兴趣的。加个好友。那么投缘,一起看个电影,吃个饭,然后来一发。