基本描述性分析部分主要是对重点的单变量的基本分析,因为数据挖掘往往从数据的基本分析开始,它是了解数据分布特征,把握数据间相关性强弱的基本手段,也是后续模型选择和深入分析的基础。
一、来源分析
买家们是通过哪个途径找到商品的,哪个途径的最后成功率最高,这些问题都是店家应该去思考的。随着网店间竞争越来越激烈,越来越多的卖家愿意为了招揽生意而去投资广告,比如直通车、淘宝客等,这些广告很大程度上会带来不错效益的。通过分析各来源情况及对应来源的实际订单成功情况,可以知道该来源是否可行,比如淘宝客这个广告性质的来源是否真的带来了经济效益,从而可以为卖家是否继续投资广告提供决策支持。
作来源分布图前,先将上一节中整理好的“销售统计表1”数据导入Clementine中,再利用分布图节点作图。
图1——来源分布
再利用SPSS软件作来源与订单状态交叉表,先读入 “销售统计表1”,再选择分析→描述统计→交叉表,再对单元格及格式进行设置。
图2——来源&订单状态交叉表设置
得到交叉表结果如下:
表1——来源&订单状态交叉表
结合分布特征图和交叉表,该店商品来源前三为宝贝搜索、淘宝客、移动设备;订单成功率最高的前三来源为购物车、直接访问、我的交易。
从淘宝经验看,宝贝搜索能成为首要来源,原因一般是该店在一段时期内销量比较好,且信誉比较好。这与该店正在搞促销活动的现状相吻合,3月底,店家陆续推出2款活动商品,销量火爆。另一方面,购物车一般都是买家点击存放自己中意的商品,且一次购买时会货比三家,最后选出性价比最高的,所以,购物车成功率最高,从侧面反映出该店商品相对性价比较高,顾客比较满意。直接访问主要是针对老顾客群的,虽然直接访问占总来源不高,但还是说明了老顾客对该店的忠诚度是比较高的。
二、找到关键客户
这里所谓的关键的客户指的是会回头再购买的顾客,找到这些关键的客户,然后对这些顾客进行合理管理,制定一些政策来留住这些关键顾客。因为,在客户关系管理中,吸引新的客户群体所需要的成本是远远大于留住老顾客的。通过对买家会员名和收货地址作分布图,找到关键客户。
图3——买家会员名分布
图4——收货地址按计数降序分布
买家会员名与收货地址的分布结果基本是一致的,再将原始买家会员名分布进行分类,结果如图5,在这38天内,有重复购买的顾客占了总顾客的8.82%。从比较乐观的角度看,短短一个多月内,有将近10%的顾客会选择再次光临这家店购买东西,说明顾客回头率较高。并且,这些购买次数为1的顾客中肯定也有该店的老顾客,只是在本文数据时间范围内,他们消费次数为1。综上,店家可以定期进行数据统计分析,尽可能找到这些老顾客,并制定一些优惠政策来留住这些老顾客。
图5——分组后买家分布
由于基本分析这块内容篇幅过长,剩下的基本分析内容将在下节中继续讲述。