为什么尿布和啤酒一起卖?用Instacart数据告诉你怎么做新零售分析!
零售行业可以理解为向客户销售商品以及服务的行业。基于大量的消费者购买记录,我们可以用数据分析来预测库存需求,供应链管理策略,商品放置,商品推荐等等。这些构成了‘零售分析’(Retail Analytics)的重要组成部分。零售分析不只包含了传统线下零售,还包含了线上电商零售。
零售分析其中的一个重要环节是找到商品组合间的关系,例如面包和黄油很合拍,牙膏和牙刷适合放在一起。
常见的商品之间的关系有两种。替代商品和互补商品。
替代商品是用于同一目的的不同品牌的可相互取代的产品。例如茶和咖啡;不同品牌的牙膏(白速得牙膏和高露洁牙膏)。这些商品在市场上互为竞争者。
而互补商品,另一方面来说,是指商品们需要一起购买和搭配使用。这些产品的搭配有助于在客户群中互相提高销售额。例如面包和黄油,飞机票和酒店租车服务。
了解这些关系有助于做出数据支持的决策。确认替代商品和互补商品能带来以下潜在的好处:
1. 商店中的物品放置——互补的商品可以放在一起或者放的更近。
2. 电商商品推荐——在电商网站中,不论何时购买某商品,都推荐它的互补商品,因为这些商品是需要一起购买使用的。
3. 缺货替代——对于暂时缺货的商品,推荐它的替代品。
4. 组合优惠——对于产品和其互补品给出组合优惠报价,以此来提高销量或者清理库存。
5. 定价——每当商品价格上升或者下降时,监测其替代品对销售量/需求的影响。这有助于做出有意识的,有计划的价格决策。
可是面对形形色色的物品,并非每一样我们都能主观地认定它的替代商品和互补商品是什么。所以有没有一种方法可以可靠且直观地找到商品之间的关系呢?
Association Rule Mining (关联规则挖掘)就是一种非常好的找到商品关系的方法!是数据挖掘技术的一个分支,也是数据挖掘中最活跃的方法之一。
说到关联规则挖掘,最经典的一个例子就是尿布和啤酒的例子。一项分析结果表明,与尿布一起被购买最多的竟然是啤酒。因为美国的妇女经常会嘱咐丈夫下班后为孩子买尿布,而30%~40%的丈夫在买完尿布之后又要顺便购买自己爱喝的啤酒。
关联规则挖掘它引入了Support(支持度)、Confidence(置信度)、Lift(提升度),和Apriori Alogorithm(先验算法)等概念。有助于发现这类商品间的关系。
这些概念都是什么意思呢?
支持度评价了商品组合购买是否频繁,例如同时买尿布喝啤酒的人有多频繁?
置信度强调了规则的强度,比如买了尿布的人又去买啤酒是否强相关?
提升度评价了条件概率发生的概率与总体事件发生的概率的比。例如一个人在买了尿布的前提下购买啤酒的概率/一个人购买啤酒的概率。
先验算法有两个核心思想。
第一个核心思想:
学术的描述:一个频繁发生的商品组合的非空子集也一定是频繁发生的组合。(哇,完全听不懂耶)
活生生的例子:如果鸡蛋、牛奶、可乐这三个商品组合是频繁购买的,那么鸡蛋和牛奶这个组合也被认定为频繁购买的。
第二个核心思想:
学术的描述:如果一个组合不频繁发生,那么它的超项也一定不频繁发生。
活生生的例子:如果鼠标不是一个频繁购买的商品,那么鼠标+键盘也一定不是一个频繁购买的商品。
听起来非常有意思是不是!
这篇文章我们不会去深入探讨关联算法,而是为大家介绍一种比较直观的可以立即上手的寻找商品关联关系的方法。你不需要有任何先验知识,因为这是一种新颖的方式,并且也不需要你提前掌握机器学习、数据挖掘的知识!
为了证明该算法的有效性,我们就用Kaggle的Instacart数据集来运行此方案吧!
寻找互补商品
互补商品是指通常一起购买的X商品和Y商品。找到此类互补商品组合的一个策略是在所有客户购买记录中,找到一起购买X和Y的次数,与购买X和Y的次数的比率。
Complement Ratio = (X ∩ Y)/(X ⋃ Y)
为了让商品X和Y互为补充品,补充比率需要越高越好。它的上限为1。在所有商品组合中,我们将会找到补充率高的商品组合。
而且,根据集合论,我们知道:
我们将从Instacart数据集中跨类别的找到互补商品。首先来看一下数据集。
在这些订单中共订购了320万个订单以及3240万的商品。
共有49600个不同的商品、21个商品类别。
接下来,我们将对订单数据进行交叉联接(Cross Join)以查找商品被一起购买的次数。我们还将其与产品表格和部门表格结合在一起以查找产品的详细信息。最终得到一个按补充商品率降序排序的表:
赶快让我们看看算法建议什么商品作为互补商品:
结果看起来很好。人们一起购买甜叶菊甜味剂和碱化水是有道理的,因为与水混合后滴几滴甜味剂会使其具有良好的味道。同样的,人们会更倾向在买披萨时买一些能量饮料,购买皮塔饼或薯片时搭配鹰嘴豆泥或洋葱蘸酱。
寻找替代品
替代品是用于同一目的的不同品牌的、可替换的商品。如果商品“ X”和“ Y”是彼此的直接竞争对手,并且人们通常会购买其中的一个,则它们是替代品。物品价格的上涨或下跌可能与补品相反,可能以相反的方式影响其替代销售。
Substitute Ratio = (X ∩ Y)/Minimum(X,Y)
对于商品X和商品Y互为替代品,我们倾向于替代率越低越好。
为什么公式中有最小函数呢?
一些商品例如香蕉和苹果是很受欢迎的,很多人可能都会购买。最小函数有助于消除偏差并且使比较有一个较为公平合理的标准。
我们将从Instacart数据集中找到同一类别内的替代品。我们将再次对订单表进行交叉联接,以查找商品一起购买与单独购买的商品的次数。我们还将其与产品表和部门表结合在一起以查找产品详细信息。最终得到按互补比率的升序排序的表:
结果看起来还不错,人们确实通常会购买大的Alfresco鸡蛋或有机大棕鸡蛋。同样的,人们倾向于购买2%的减脂牛奶或者维生素D的有机牛奶或脱脂牛奶。
结论
通过这篇文章,大家可以了解到一种寻找替代品和互补商品的直关方法。这些较容易理解的指标的结果比 Association Rule Mining (关联规则挖掘)的指标:支持度、置信度、提升度和先验算法更好。不仅如此,这些简单的指标还非常直观,可以应用到大的数据集中。
原来零售分析这么有意思!还有没有其他我不知道的分析方法?
不论是在零售业还是在电商,用数据科学的方法去达成促销、商品推荐、提高收益的手段,都是营销数据科学的范畴。所有的促销、推荐都是一种营销手段。当数据科学与营销这个应用场景结合起来,我们可以做的事情实在是太多了!
如果你想学习如何用数据科学提供公司利润,如何了解数据科学在商业中的前沿应用,系统学习客户生命周期价值模型、客户留存-流失模型、增量模型、用于实现客户细分与销量预测的的随机森林模型等数据科学方法,就千万不要错过MarTechApe携手来自Apple、Walmart、Airbnb、Verizon、Wayfair等知名公司的资深职场人开设的《营销分析专项》课!
《营销分析专项系列课》由MarTechApe联合美国的一线营销分析和营销技术专家们共同研发推出,由以下美国名企管理层执教:
知名独角兽公司Airbnb硅谷总部,营销科技经理
苹果公司硅谷总部(前Ebay资深数据分析师),营销数据科学家
美国最大家具电商平台Wayfair,营销数据科学经理
美国电信巨头Verizon,营销效果经理
沃尔玛Walmart电商(前GroupM营销分析经理),数据科学经理
这门专项系列课由5个模块组成,涵盖了5种应用最广泛的营销和商业分析方法:
五大分析方法代表了营销数据科学领域最重要的分析方法。
课程大纲
每课备有精心设计的课后作业和练习,及时巩固课程内容
一门课程唯有通过作业才能完全掌握。《营销分析专项系列课程》每周都有老师精心设计的作业和练习,类型包括:
案例分析题
编程题
简答题
思考题
精心设计的作业练习强调了课程重要知识点,在完成作业和练习的过程中,帮助学员巩固对课程的掌握程度。
沉浸式学习体验,让网络课程更接近线下学习。防止课程囤积,助教督促完课
1). 班主任
负责为所有学员规划学习进程,布置作业与截止日期。
2). 助教团
助教团的助教老师们会nice地提醒大家课程进度,并进行线上答疑。
3). 作业和练习
每周一次作业,将课程所学进行巩固。花费时间15-30分钟。课件中附有数据和课外阅读供学员练习和扩展知识。
4). 专项大证书
当所有课程全部完成后,学员进行期末测试,获得70分(满分100分)以上的学员,就可以拿到Marketing Analytics营销分析这个专项的大证书:
如何报名?
原价:¥1540
疫情期可参与拼团,享85折优惠,仅需¥1299!(仅限微信支付)
*我们提供标准Invoice,可用于企业报销
网站通道(美元支付)
如果你曾购买过本专项中任意一门课程,请咨询小助手获得购买方式(如果你买的课程不在这五门之列,请勿扰)
还等什么,快来加入营销数据科学的行列吧!!
本文来源:https://towardsdatascience.com/retail-analytics-a-novel-and-intuitive-way-of-finding-substitutes-and-complements-c99790800b42