首页 > 案例 > 互联网和电子商务 > 大数据在天猫产品上的应用
2014
03-21

大数据在天猫产品上的应用

主持人:接下去的有请我们导购链路的高级专家杨铮,他是一个老淘宝,他之前是做安全、企架,在整个阿里也是有很多的成绩,我们现在欢迎我们高级算法专家杨铮。

杨铮:

我今天从导购的角度上讲我们产品部这边做了哪些相关的东西。今天的话主要会从业务范畴上介绍一下,技术这边所对应的业务,然后介绍一下技术架构,然后我们今年要做什么事情。

首先讲一下天猫的定位,大家都是比较了解天猫的,我想问一下在座的你们眼中的天猫是什么样子的?
听众:有调性的。
听众:里面都是大卖家。
听众:要付钱才能开店。
杨铮:我总结一下,你们三个讲的都是卖家或者从品牌的角度去看,有调性,没有从消费者的角度去看,其实我们天猫的定位,不仅是一个汇集国际和国内知名品牌的购物平台,同时它还是一个能够满足不同消费者购物体验,或者能够让每个消费者都能够在天宝上进行快乐购物的。
截至2013年底,摊薄已经汇集了8万商家,10多万品牌,服务将近5亿的消费者,然后我们还创造了一个属于中国网民的购物狂欢节,就是“双11”。我不知道大家记不记得“双11”令人激动的一些数字。我在这里介绍一下,“双11”的话前6分钟07秒,成交了10亿,38分钟05秒,成交了50亿。前1一小时成交的文胸,叠在一起相当于三个珠穆朗玛峰。
大家可以想像,然后到下午1点钟的时候,我们的成交已经超过了2012年的190亿。整个“双11”的话,成交了350亿。面对这么大的交易量,尤其做数据的同学可能会想,这个日常的数据有多大的量呢?这一天数据有这么大,我们平时数据量有多么大呢?天猫这边,我们每天产生的数据有80多个T,就是说我们的分析要基于这80多个T,如果再加上其他业务的,因为阿里集团数据是打通的,很多数据都要去关联的分析。大家可以想像,我们日常的分析要链接多少数据?目前,我们每天导购数据分析任务大概每天有1万多个业务在跑。面对这么海量的数据,我们在上面如何能够做到精准、稳定又能快速地响应业务多变的需求?
这就是我们导购团队做的工作,主要从三个方面讲,主要从人、店、货。人是我们的消费者,只有了解了我们的消费者,才能知道消费者的需求是什么,才能满足消费者的需求。就像刚才邱宝军老师讲的,我们需要从大数据背后去挖掘用户可能不知道的一些需求,这一块主要集中在用户的行为偏好、行为轨迹,就像刚才举的那个案例,通过数据来预测,他女儿怀孕了,我们这块儿也在做,我们现在已经在实施了。像“宝宝计划”这块,我们通过消费者的一些购买行为,发现他是不是有小孩,他的小孩现在有多大?处在哪个阶段,然后给出相应的一些推荐。
这是消费者这块,还有店,就是商家。这块我们的工作主要集中在两个部分,一个是招商,这个招商是基于消费者的需求,发现需要什么样的商家进来?然后需要商家提供什么样的货品进来。第二个方面,这些商家进来之后,怎么样帮助他们成长?尤其有些商家都是基于传统品牌进来的,但是没有接触过互联网,不知道怎么玩,我们需要通过数据化的产品教他们怎么玩。这是我们在店这方面做的工作。
还有货,一方面我们要让小二需要什么样的货满足消费者的需求?以及我们缺什么样的货?这些必须都要清楚。还有产品库,刚才刘明老师讲的这块,接下来我也会介绍一下。然后我们导购主要的工作是集中在人和货的匹配上,这是大家提的比较多的。这块主要有三个方面的工作,一个是通过搜索,一个是个性化的推荐,还有营销活动,做到精准的人和货的匹配。
现在介绍一下导购,在介绍导购之前我介绍一下团队工作建设。为什么要讲这个呢?之前刘明讲的目录预测,跟我们产品库有点像,之前淘宝是没有产品库这个概念的,商品上传信息比较乱,包括填的一些产品的信息等等都是非常乱的。如果我们做精确导购的话,如果这部分做不好就很难推到用户喜好的商品。这些主要是基于全网商品的信息,包括天猫扩展的属性,来建立天猫的库,包括产品库、品牌库等等,也包括外部B2C怎么样通过淘宝库到天猫的产品库,两个库的组合,主要是分析的一些方法和算法来帮助实现,比如说预测,图片的甄别,这个图片是不是挂错了等等,这块跟ebay做的差不多。但是好象ebay图片没有做,不过这块我们开始做了。但是没有他们做的那么深入,他们Deep Learning已经做起来了,我们还没有。这样才能支持商家产品的,以至于我们做到导购方面的工作。
接下来我们讲一下导购方面的工作、个性化推荐以及我们的日常活动。目前我们个性化推荐不仅覆盖了PC,现在无线端也开始做了。推荐的对象包括品牌,我们会根据你对品牌的偏好,计算你可能喜欢什么样的品牌?当你来到这个平台上,通过PC购物的时候,通过手机购物的时候,推算你喜欢什么样的品牌。活动的推荐,现在我们活动的时候大家可能的都是一样,接下来我们会做一些个性化的活动,每个人进去看到的活动都是不一样的。推荐的形式,商品到商品,用户到商品以及个性化。我们现在推荐的话大概有40多个应用去推荐,覆盖了天猫30%以上的流量。去年“双11”的时候,当天服务的用户超过了整体用户的45%以上。推荐这块我们刚做了3年的时间,后面还有很多应用覆盖上还要继续努力。
推家的整个框架上是这样,首先我们会根据用户历史的信息,计算用户长期或者中长期的偏好,比如说行为的偏好、商品偏好和品牌的偏好。再根据用户实时的信息,来计算这个用户来天猫是为了逛还是为了买还是为了看信息,计算他们实时的意图。这两个结合到一起匹配,这个“匹配”就是刚才讲的人和货的匹配,人需求的匹配,然后再做出相应的推荐。这块我们的算法,大概每天有8千万的调用,每天3000多个Job在在跑。
跟大家介绍下活动的个性化推荐的案例,之前的话我们活动所有人进去都是一样的,现在要做的个性化活动要解决这个问题,就是每个人进去是不一样的。我们通过这个个性化尝试,我们跟之前对比,成交上有很大的提升,有50%的提升,转化率上有40%的提升。这对于天猫成交量这么大的盘子来讲,是一个很可观的。就像刚才周老师讲的,你如果做10%的提升可能就是很了不得的。
还有是母婴类目的案例。我们会根据他过去的一些历史行为,去计算这个用户的一些信息。因为刚开始没有做的时候,很多这种用户信息我们是没有的,比如说他宝宝的年龄是什么阶段的?性别是什么样的?之前很多信息我们是拿不到的,不像我们成年消费者,我们可能会从你的身份证信息、你填写的其他信息测算出来,但是宝宝是没有的。我们从一些信息测算出他是不是有孩子的,是不是怀孕了,现在处在什么样的阶段来计算出消费者的信息。然后再匹配我们的消费模型,让消费者进来的时候给你做一些相关的推荐。这个做了以后,点击率跟之前相比,已经有4倍的提升。
然后是搜索,搜索这块,像邱宝军老师讲,这块主要是由算法驱动的。你不要小看小小的搜索框,然后里面会涉及到词的、相关性的、商品的、用户的、图片的等等各方面信息的计算。我们这边的话,有十来个同学来做这一块的算法。
这是搜索的一个技术架构,首先是一个搜集框,然后有PC的、有无线的,然后数据层,数据层的话,一个是计算历史的一些信息,计算用户的一些长期的偏好、行为的偏好。然后根据实时的设置,来计算他搜索的意图。离线模型的话,搜索这块,光天猫搜索就有二十多个模型在跑。实时主要是计算他个性化的需求,和一些分析,匹配我们一些历史的偏好信息,进行搜索的排序,进行结果的展现。
最后讲一下这个活动。活动这一块的话大家都知道,淘宝的活动特别多,基本上你进入淘宝天猫这边,基本上都可以看到活动,大大小小的活动。有网站级别的,比如说双11,比如说现在的三八节,还有年货节,网站级别的。还有行业级别的,像情人结、母亲节,行业级别的。还有做一些主题性的活动的,比如说前段时间《来自星星的你》比较火,他们就做了一些跟《来自星星的你》相关的主体性活动,比如说服饰这块做的。这么多活动,活动有一个流程。从招商,招商以后商家报名,报名以后选品,报商品以后选品。选品以后做活动的预热,预热以后上线,上线以后再到后面的付款。这个活动很复杂,如果每一块都靠我们小二去做,这是不太可能实现的。因为每天报名的商家,报名的商品都是大量的数据,这块我们主要是通过数据化的产品来帮助小二来进行自动化和半自动化,目前我们是做了一个半自动化,然后开放一些数据。
接下来我会挑几个关键的流程上去讲一下我们怎么帮助小二来做活动。首先是招商,招商这块我们是做的盘货工具。通过一个盘货工具,让小二知道这次活动主题是什么?这个主题活动有那些商家有?哪些商家有哪些货?通过这个盘货工具让小二清楚地知道我做这个活动,可以带来什么?有什么样的商家参加,这些商家可能会提供什么样的货?这样就可以大致预测这个活动会不会成功?盘货这块,不光是这样,还有海选。商家报货品过来,我们一开始不限商家,告诉商家都可以报名,然后商家就会提供自己的商品过来。报过来这么多的商品,让商品结合我们的盘货工具,让小二做一个筛选。
这个是我们的选品,选品结合流量预测、商品预测包括价格模型,每个商品会被预测在接下来的活动中有多大的销量,然后小二就可以进行一个选品。
然后是活动的预热。活动的预热,天猫这边每次大的活动都会有一定时间的预热,“双11”,像现在的三八节,预热的话我们会根据报上来的这些商品,在预热的资源位上它日常的表现,比如说用户的关注度。关注度包括加入购物车的、收藏的等等这些信息,去判断这个商品在接下来的活动中会不会热销?如果放在第一位的不会热销,我们可能会根据预热的表现进行一个重新排位。这样我们就可以实现资源最大化的利用、产出最大化的优化。
再有就是活动的监测,这是在活动过程中的监测。这就涉及到我要实时监控每个资源位活动流量情况是什么样的,这个商品可不可能会脱销?如果脱销的话会不会引进新的商家或者产品进来等等。就是把整个活动流程能够通过数据化产品串联起来。这块我们的目标是选品包括招商的自动化,目前我们只能做到半自动化。大家知道淘宝的产品非常多,活动的类型也非常多,我们不能依靠一套方法和算法去解决小二的业务需求。我们现在尝试着通过半自动化解决一些问题,然后根据前面的一些沉淀逐步的走向自动化。
这三部分是我们导购这边在做的相关的工作,主要是介绍一下我们的一些业务,里面算法的东西就不深入介绍了,刚才周涛老师和刘明老师都讲的非常深了,我这边就不做详细介绍了。我只是从架构上介绍一下天猫导购是一个什么样的架构。
技术架构这边,主要讲一下我们的数据架构。数据架构这块首先是数据源,我们这边的数据源非常多,首先是阿里内部的,阿里内部有很多业务,天猫的、淘宝的、无线的、1688的、支付宝的、小微的等等这些数据,同时我们还跟外部的公司合作,拿到外部的一些数据,比如像气象图的数据,我们会根据天气的情况进行一些推荐,根据天气的情况推进你穿衣相关的东西,包括刚才提到的宝宝的一些信息的,我们也会跟外部的公司合作。然后通过hadoop集群和Spark集群等,然后我们建立各种主题的数据提示。如果今天上午一位老师讲的一样,数据量不是越大越好,如果是说我们面临那么大的数据,从中找不到对我们业务有用的数据出来,等于还不如少一点好,因为它浪费了我们的存储、浪费了我们的人力、浪费了我们的资源。我们如何能够快速地支持我们那么多的业务呢?我们首先要有一个很好的数据,我们要把我们的数据整理好,因为很多数据都是非结构的数据,有噪声的数据,我们需要把这些数据处理好,这样就会支持我们快速的分析,然后我们会建立一个数据提示,会建立商品、会员等等各种数据提示,然后进行快速的分析,这就是我们的数据产品。
这边的话我们会有一些开源的算法,来去支持我们挖掘相关的工作。同时也会基于实时的一些数据,像搜索、推荐,然后去计算用户的一些偏好。然后去支持,通过服务,去支持我们前端的三种类型的应用,从小二、从消费者、从商家,三个角度上的应用。这是我们整体的技术架构。
接下来再谈一下我们2014年的发展方向。首先从业务上去看,刚才几位老师也讲了移动互联网这块,移动电商这块,O2O这块。阿里的同学都知道,我们去年就开始All in无线。无线这块的正交,去年“双11”的交易数据,前1小时交易额就已经超过了10亿,这是很可怕的数据。如果我们做推荐也好、活动也好,还是按PC的思路去做,这可能是不行的。因为无线这边和PC的消费行为是完全不一样的,无线用户在使用无线终端的时候,时间会非常碎片化。可能我上班的路上等个红灯的时候,可能就用手机看一下淘宝,睡前的时候用手机看一下淘宝,非常碎片化。我们怎么样利用这些碎片化的流量给整合在一起?提升我们流量的效率,提升我们的转化率,这是业务要做的事情。从技术角度上我们要去做的就是,在这个移动电商的时代,我们怎么样把这些移动终端的数据都采集到一起?都采集起来。把用户能够对应得上,先把把无线终端的用户跟我们PC终端的用户能够对应得上,这样的话我们之前积累的数据才会有用,才能会帮助我们后续对项目的理解,这是我们技术要去做的事情。
还有一块就是移动电商这块的销售,像刚才我们讲的,无线上的消费者和PC的消费者他的行为上的差异是非常大的,因为无线的增长是非常迅猛的,我们很多工作还是基于在PC端对消费者的理解去的工作,后期我们需要对无线这块需要深入的分析挖掘。
还有一个是开放的合作。天猫这边算法团队,之前去年我们内部举行了一个推荐算法大赛,今年我们会开放出去,面对外面的学校、第三方或者个人,做一些比赛,有兴趣的可以看一下。
开放这块,我们不光是开放这类比赛的数据,我们还开放了很多其他数据,比如说商家的开放,开放数据给ISV,让他们加入到阿里的生态体系里面去来帮助商家去成长,比如说像量子的一些数据产品,包括外部做得比较好的,ISV做得比较好的,对消费者的理解,通过交易的数据,做一些会员管理的工具。
然后还有继续学习这块,像今天刘明讲的“Deep Learning”我们尝试着用起来,新的算法用起来,用在我们的业务上。还有刚才提的数据采集,数据优化,我们面临那么多的数据,我们怎么准确、快速实时地响应业务的需求,这对我们数据处理工作提出了很大的挑战,这是我们今年要做的一些事情。还有我们的数据安全,我们怎么样能够确保我们数据开放的时候是安全的?
这是我们2014年今年的一些规划和发展方向,这是我们推荐算法大赛的一些情况,大家有兴趣的可以记一下网址,我的演讲完毕了。
提问:我想问一下杨铮,您刚才提到的对外部开放数据,如果开放这些数据的话,可能会有哪些数据开放出来呢?我是一个数据分析公司的。
杨铮:像商家的一些数据,像商家成交的,成交相关的、流量相关的,我们很多都开放去的,像微淘,有一部分数据开放出去了,还有一个102.alibaba.com,如果高校做研究的话,上面都有现成的的数据。

(本文首发于阿里数据营)


留下一个回复