推荐系统概述
讨论信息价值的时候,我们讨论的不光是量和传播速度,还有信息共享的范围,这一点其实和推荐系统中协同过滤有着密切关系,即通过共享其他人或者物品的信息进行推荐,共享的范围对信息价值所产生的影响最大。
推荐系统
推荐系统其实就是给用户推荐物品或者预测喜好,当然还包括其他各方面的东西。上图展示了各种推荐的场景,主要由用户和产品两部分组成,这种图模型也是推荐系统的一种解决方案,比如图中两个物品的相识度就可以使用图计算的方法进行量化的解释。
国内在推荐系统方面主要想做的是千人千面,通过千人千面来实现增加点击,发掘长尾的目标。
目前推荐系统常见的使用场景有电商、社交、影音、资讯这四个平台。
常见的推荐算法有基于内容、系统过滤、关联规则、基于效用以及基于知识这几个。其中最主要的还是协同过滤,它又被分为两类,一类是基于用户,主要在资讯平台,一类是居于物品,这类很明显是电商平台。基于用户的算法计算的是用户相似度,需要维护用户信息矩阵,更社会化,而基于物品的算法计算的是物品相似度,需要维护物品信息举证,更个性化。
上图是协同过滤的评分预测算法,ALS中评分由两个向量的乘积决定,SVD++认为评分不光是有两个向量乘积决定,个体差异同样也会产生影响。
推荐需要的数据一般分为三块,用户、物品、时间。时间用来关联用户和物品,用户数据主要是人口统计学数据、用户行为数据、用户标签,物品数据则是物品基本属性、物品标签、物品效用。
对于推荐结果的检验分为准确率、召回率、覆盖率、多样性、新颖度/流行度。
上图展示的为机器学习算法的5个流派,其中联结主义可能是大家最熟悉的,所有的神经网络的算法都属于这一类。最后的行为类推其实就是推荐算法。随着后续的发展这几个流派肯定会被结合起来。
新零售中的推荐
推荐系统中除了技术,还需要有很大程度的业务支持。作为一个数据科学家不光要有数据和计算机基础,还要专业知识,也就是对业务的理解。在新零售行业很多时候都是以业务为主导。
新零售是2016年提出的概念,简单来说就是线上加线下加物流,比较典型的有盒马生鲜、小米体验店、微信群营销等。从推荐的角度上来看,微信群营销其实也算作新零售。微信群虽然可以获取到很多数据,但是和体验店一样客户无法确认。并且每个微信群都有针对人群,可以没有办法拿到除了头像和姓名之外的信息,用户身份也无法获得认证,人员流动非常频繁。这些特性与实体店非常相似,即使我们无法从单个用户的角度来进行推荐。
与互联网推荐的区别
新零售推荐与互联网推荐最大的差异在于一个线上一个线下,我们在做图书项目的时候发现,用户在线上买书的行为喜好与线下很不一样。线上的卖书的店铺经常会有一些满减促销,它的折扣力度是很吸引人的,但是在线下很少有超过5折的活动。
在互联网上由于可以实施用户行为采集,所以可以实现千人千面,但是在线下只能通过门店的角度来进行推荐,无法具体到单独的个体上。因此新零售所能实现的是千店千面,目标也转为了增加销量和信息共享,其实也就是信息扩缩的过程。
上图是我们项目中的图书推荐界面,也是门店所使用的后台。可以看到这里包含了很多信息,比如书名、作者、出版日期、销量等,每一列信息中都有很多的业务背景需要了解。比如对于出版超过3年的书市场效果其实已经很容易看出来了,并不需要我们再去做推荐。
之后我们对该项目进行了总结。首先是可用信息少,只能获取到行为信息以及物品信息。其次是需求不同,必须要以门店为主,也就是基于用户的协同过滤体系。而且图书行业每年新出版的书可能有几十万,但真正有销量的一半都不到,所以存在很多空值数据,没有办法做基于物品的协同过滤。最后是反馈周期长,对于图书这样的线下销售虽然每天都能拿得数据,但是反馈至少是以周为单位,因此对结果检验会产生影响。
推荐算法的应用
当算法上线的时候,一切才刚刚开始,之后还会出现各种问题,接下来我们来看一些典型的场景。首先是强特征,有时会出现业务人员在与技术对接的后发现一些很重要的特征在库中不存在。其次特征不仅会增加还会消失,比如对于我们来说,客户的产品信息有时会进行改版,数据库信息也会随之改变,而我们在不知情的情况下获取的信息就可能会不存在,这主要是因为客户觉得这类信息不重要,而将它去除了。
这张图是算法的数据处理流程。原始数据导入后会进行数据清洗,之后通过不同的算法模型或者业务规则生成模型和结果集,最后输出结果集,再使用不同的过滤规则得到结果。
上面的流程适用于离线或者无需实时更新的场景,而如果需要实时则要在图中的推荐流程中添加召回模块。打造实时推荐不意味着实时计算,因为数据量实在过于庞大,而是先对提前算好的结果进行筛选,再由一个特殊的模块根据用户的实时行为做出推荐。一般来说计算时间要小于0.1秒。
最后给大家分享一些我们在新零售推荐应用上的一些想法:
业务效果好的算法并不一定是复杂的算法;
做项目要比光看书的收获大得多;
推荐是个系统工程,算法很重要,但不是全部。