分类归档:推荐系统

Netflix公布个性化和推荐系统架构

http://www.infoq.com/cn/news/2013/04/netflix-ml-architecture

Netflix的推荐和个性化功能向来精准,前不久,他们公布了自己在这方面的系统架构。

我们需要具备使用复杂机器学习算法的能力,这些算法要可以适应高度复杂性,可以处理大量数据。我们还要能够提供灵活、敏捷创新的架构,新的方法可以很容易在其基础上开发和插入。而且,我们需要我们的推荐结果足够新,能快速响应新的数据和用户行为。找到这些要求之间恰当的平衡并不容易,需要深思熟虑的需求分析,细心的技术选择,战略性的推荐算法分解,最终才能为客户达成最佳的结果。

Prismatic:用机器学习分析用户兴趣只需10秒钟

关于Prismatic,首先有几个事情要说明下。他们的创业队伍很小,仅仅由4个计算机科学家构成,其中的三个都是年轻有为的斯坦福以及伯克利博士。他们是在用智慧解决信息超载这个问题,然而这些博士也同时担任着程序员的角色:开发网站、iOS程序、大数据以及机器学习需要的后台程序。Prismatic系统架构的亮点是如和使用机器学习实时地解决社交媒体流的处理问题。由于商业机密的原因,他没有透露他们的机器学习技术,但是我们可以通过架构看个大概。Prismatic创始人之一Bradford Cross把Prismatic的系统简洁地描述为:“它是一个提供大规模、实时以及动态的个性化信息排名、分类以及分组功能的综合系统。”接下来就把这个系统的架构展现给大家。

Prismatic主要功能是发现我们的兴趣,为我们推荐阅读

http://www.csdn.net/article/2013-01-03/2813185-Prismatic/1

开发一套把妹系统

乙:听说你们根据程序员们的需要,开发一套把妹系统?
甲:是啊,我们在开发之前进行了大量的需求分析,并且根据我们的分析,发现程序员找妹子确实是难事,我们设计了一个十分先进的”把妹系统“。我们的架构师是这样说的:
给程序员自己用的东西一定要最先进的架构,怎么也要是云计算的。做就做的规范,把设计模式拿来,什么builder,factory,adapter呀,bridge呀,能用的全都用上,弄几百台深蓝做集群,支持十亿用户同时在线。一定要请最好的,最牛的程序员,把Google,百度的程序员请来,写爬虫,从全网络抓取数据。一定要全网络,一个妹子也任何痕迹都不要落下。数据量上来,用户上来,一定要做好数据挖掘,做到实时推荐。推荐模块一定要亚马逊的人来做,而且一定要由twitter团队的人用Twitter Storm要做到实时的,不然妹子就被别人抢了。不要以为推荐就完了,还要专业的程序,用最牛的机器学习来模拟追妹子的测试,一点要分析妹子的社交网络,一点要用graphlab,不我们要自己开发一套平台,生成最好的,最有效的把妹策略。而且还要上移动端,什么android,ios,米狗都要开发,有必要也要做个自己的系统,要兼容android,google glass和ios。这样还能采集妹子的地理位置,这样能充分的,实时的把握妹子动向。妹子到哪了,吃什么了,跟什么人来往了,发什么twitter了,尽在眼下。同行用的都是hadoop,openstack。你要是用普通的分布式,你都不好意思和人家打招呼。
打开我们的网站,浏览器里还要做一帮小精灵,爆可爱那种,一口一个”may i help you sir“,一口地道的西雅图腔,倍(儿)有面子。
你说这样的系统,怎么也要花个十万八万的吧?
十万八万?那是电费!!
注册会员都要八万起!
你还别嫌贵,还不打折。
你得研究宅男心理,拿投资人的钱拉力搞研究,根本不在乎多花那么点钱。什么叫研究你知道吗?
就是技术只要最牛的,不要最好的。

一个真实的推荐系统

 我给大家说一个真实的推荐系统,
今天我没加班,回家去超市买点点心。
一起我在上一个公司,就不加班,没晚上我都去买点心。
今天那个妹子问我,怎么好久没来了?
我说加班!!
然后要了枣泥的点心2块。

她说,这边有豆沙的,要不要来两个?
我果断要2个。

因为天天买,所以在她的大脑里产生了大量数据,
根据我喜欢的口味,比如枣泥馅,推荐给我豆沙馅的(新品)。

豆沙馅,和枣泥馅有一个共同的特点,都是甜的。这就叫聚集。
因为妹子是卖糕点的,所以会接触有很多顾客。其他顾客,买枣泥馅的,可能也买了豆沙馅的。所以,妹子就推荐给我了。这叫协同过滤。
其实亚马逊也是这样的。没啥新鲜的东西。只不过他们计算机多而已。

下一代个性化推荐系统

文/王守崑

本文结合技术及社会需求发展的大背景,讲述了当前推荐系统的价值及所面临的挑战,并指出了下一代个性化推荐系统的设计思路及需要注意的问题。

作为个性化推荐系统核心的协同过滤(Collabora-tive Filtering)算法,是Goldberg等人在1992年的一篇学术论文中最早提出的。他们在这篇文章中提出一种方法,在一个新闻组中,根据 用户下载的新闻计算他们之间在口味上的相似程度,并利用这种相似程度为他们进一步推荐相关的新闻。这也是最早期的个性化推荐系统的雏形。

20世纪90年代中后期,随着电子商务的兴起,个性化推荐系统迎来了第一波高潮,几乎每个大型电子商务网站都把个性化推荐作为重要的营销手段之一。更有文献表 明早期Amazon的35%销售增量都来自它的推荐系统。Amazon的几位科学家和工程师在2000年发表的一篇关于“基于条目的协同过滤”的论文也成为了个性化推荐领域最基础的文献之一,是学术研究与工业实践相结合的典范。之后越来越多的研究者和企业界的工程师投入到了个性化推荐系统的实践中。 阅读全文 ……