分类归档:产品

谷歌的活动推荐引擎Schemer

https://www.schemer.com/home

你打算做啥?在哪里?大家一起玩?想去爬山没有伙伴?在这里说一说,也许也有同样的人。不如结伴而行?

这么好的产品居然没发展起来。1年多了,国内居然没人山寨一个?

这个应用根据用户的计划,推荐相关的用户。大家一起来。哎,可惜了。这么好的东西。

如果把它和g+打通,或者也许google早打通了。

你打算做什么?你读什么文章?活动计划引擎+我的推荐阅读引擎会怎样?大家拭目以待。

Googlezon 与 2014

{Googlezon 与 2014}

http://hutu.me/

还有人记得 EPIC 2014 这部 8 分钟的 Flash 短片么? 2004 年, Robin Sloan 与 Matt Thompson 发布了一部关于未来信息世界的短片,预测互联网对媒体的冲击。在当时引起了极大的关注。

 

今天重新看了这部短片,顺便回顾一下当年的预测偏差到底有多大。

阅读全文 ……

googlezon

影片地址:http://mccd.udc.es/orihuela/epic/ols-master.swf
原版地址:http://www.robinsloan.com/epic/本片作者非常大胆的预言Google将与Amazon合并、传统­新闻媒体将衰败式微、Googlezon将击败微软Newsbo­tster,然后推出 EPIC独霸天下,非常的有趣!让人感到这­世界运转越来越快,媒体生态变化迅速,没有高瞻远瞩和创新思维与­灵活反应,大概就没有机会长存了。

阅读全文 ……

网页正文提取算法介绍

http://www.cnblogs.com/phoenixnudt/articles/2382140.html

查找发现了两个比较好的网页正文提取算法:

  1. 国内:哈工大的《基于行块分布函数的通用网页正文抽取》该算法开源网址为http://code.google.com/p/cx-extractor/,效果为亲测,文章中呈准确率95%以上,对1000个网页抽取耗时21.29秒。看了文章感觉不错,无需html解析,效率应该会高些。
  2. 国外:大名鼎鼎的arc90实验室的Readability,该算法已经商业化实现了firefox,chrome插件,及flipboard,并且已经集成进了safari浏览器。未详细测试,大致测试感觉准确率应该至少在90%以上。该算法需要解析DOM树,因此稍执行效率稍微慢一些。大致过程为,先解析DOM树,所有标签小写。然后去除所有“script”标签内容,再通过一对正则表达式的配合提取。具体算法还未看。其插件中包含算法JAVASCRIPT源码。有热心人士已将其用c#和php实现,源码地址如下:
    1. 官方网站http://www.readability.com/
    2. c#实现一:https://github.com/marek-stoj/NReadability(亲测,效果不错)
    3. c#实现二:http://code.google.com/p/nreadability/(未亲测)
    4. php实现一: http://code.fivefilters.org/p/php-readability/(未亲测)
    5. php实现二:https://github.com/feelinglucky/php-readability(未亲测)作者主页:http://www.gracecode.com/archives/3061/
    6. node.js版:https://github.com/arrix/node-readability/(未亲测)
    7. 测试地址 http://graceco.de/readability/

阅读产品期望

1.不需要专职编辑。

2.没有认为干涉排名

3.没人内容审核,也不接受政府等第三方机构审核

4.机器自动摘要,摘要采用wiki方式人人都能编辑。

5.垃圾点评会由于算法而自动埋没。

6.根据用户爱好,自动推荐文章 点评等

7.算法为王。一切都由算法说了算。站长也不能幕后操作。

 

因为有爬虫,而且算法为王 所以像 google。因为有注册用户,推荐好友,推荐文章,所以像facebook。因为都是文章摘要,所以像twitter。因为人人都可以编辑摘要,所以像wiki。因为有社会化评论,所以像disqus。因为可以分享链接所以像reddit。因为推荐文章所以像prismatic。

其实它只是可以和别人一起评论的阅读器而已。越说越像g+了。

 

景愿

为大家看文章提供推荐,大家一起评论,发现彼此感兴趣的。加个好友。那么投缘,一起看个电影,吃个饭,然后来一发。