我用蜘蛛,爬网络上的新闻,博客,rss等。但是新闻,博客文章等大部分都是转来转去的。(天下文章一大抄)。
我想做阅读器,过滤掉各种重复的,根据用户爱好,推荐给用户更好的,更优质的文章。
推荐引擎已经在电子商务 (E-commerce,例如 Amazon,当当网 ) 和一些基于 social 的社会化站点 ( 包括音乐,电影和图书分享,例如豆瓣,Mtime 等 ) 都取得很大的成功。
我想讲这种技术运用到文章推荐上来。实现我的阅读器。
推荐机制主要有一下几种,基于人口统计学的推荐,基于内容的推荐,基于协同过滤的推荐,混合的推荐机制。很显然我的阅读器采用基于内容的推荐比较好。
但是文章的内容复杂,机器也很难理解文章的含义,对采集的文章分类也比较困难,这有涉及到自然语言处理(nlp)的问题。
这类的推荐系统,可以采用apache mahout (java语言实现)开发,比较方便。
这种推荐方式会依赖数据量。
但是又听说,deep leaning比较好,采用神经网络的方式,神经网络经过训练后会有很好的效果。而且,不必依赖大量的数据,用户等。不会因为这些问题导致推荐出现错误。
一个人开发比较慢,blackglory也想做,我想和他合作,他不会java。对于用什么语言的问题我们产生了很大分期。
问:我还要不要和blackglory做基友了?
发表回复