基于Clementine关联规则的捆绑销售研究(二)
来源:互联网  日期:2015-10-14
  • 分享到QQ空间

本文的原数据有两个,都为某淘宝店销售数据,其中一个命名为“订单明细报表-(酷宝数据)”,里面有7547条记录;另一个命名为“ExportOrderList”,有5374条记录。前者包含属性名:序号、订单拍下时间、订单成交时间、宝贝标题、单价、数量、订单状态、实付款、来源、来源URL、入店时间及关键词共12个属性。后者包括订单编号、买家会员名、买家支付宝账号、买家应付货款、买家应付邮费买家支付积分、总金额、返点积分、订单状态、买家留言、收货人姓名、收货地址、运送方式、订单创建时间、订单付款时间、宝贝标题、宝贝种类、是否手机订单等37个属性。两个表格虽然都是销售情况的统计表,但存在较大差别,直观上属性名不一致,此外,内容格式上,前者一个序号下会有若干行记录的情况,而这种情况就是一个客户同时购买多种商品的情况,而后者就是正常的一个订单编号对应一行记录。另外,前者统计的订单包含了最后交易成功和未成功两种,而后者则为已交易成功的,这也是后者记录条数少于前者的原因。为方便区分和记录,本文将前者命名为“销售记录表1”,后者则为“销售记录表2”。


一、数据选择和数据清理   

两表格中的变量数据都存在空缺问题。在“销售记录表1”中,有空缺值的属性有:序号、订单拍下时间、订单成交时间、入店时间及关键词,其中“序号”空缺是由于淘宝记录系统将一个订单按照购买商品种类拆分为几行。而“销售记录表1”中对分析有用的数据主要是订单状态和来源,所以只需保证这两个属性的数据无空缺即可。在“销售记录表2”中,只需保证买家会员名、收货地址、宝贝标题、是否手机订单这4个属性无空缺即可。


不妨就只选出这些需要用到的列,筛选后,“销售记录表1”只剩下两列,如图1所示,而“销售记录表2”如图2所示。



1——初步筛选后的“销售记录表1”部分截图



2——初步筛选后的“销售记录表2”部分截图


“销售记录表1”的来源列中,不难发现有些条目不止一个来源,这里默认第一个来源为订单的来源,并且统一将字符后的“#”去掉。经初步筛选观察,订单状态分类有6种,为分析方便,将6种状态——“买家已付款”、“等待付款”、“TRADE_NO_CREATE_PAY”、“交易关闭”、“交易完成”、“卖家已发货”分为两组,分别为“成功交易”组——“买家已付款”、“TRADE_NO_CREATE_PAY”、“交易完成”、“卖家已发货”和“未成功交易”组——“等待付款”、“交易关闭”。


“销售记录表2”中,“是否为手机订单”一列将空白处全填入“否”。则经过初步数据选择和数据清理后的两个表的数据,分别如图3,图4所示。



进一步处理后的“销售记录表1”部分截图



4——进一步处理后的“销售记录表2”部分截图


二、数据变换

首先,需要将两个表中的序号和订单编号都重新按顺序编号。接着,类似销售记录这种商业数据,绝大部分属性对应数据类型往往不再是传统的数值型数据,越来越多的数据类型趋于非结构化,非结构化数据的存储模式不统一,没有按某种特定数据结构的形式进行存储,计算机处理起来难度很大。对于销售记录表2”中的宝贝标题一项需进行转换,具体操作:将宝贝标题中提到的商品逐一进行编号,记为商品1,商品2……其中表2是该店商品及对应编号。接着建立事实表,该表形如{TF}矩阵。表的变量名为“商品1,商品2……”(为方便,简写为12……),变量值为TF,若订单 包含了商品 ,则对应框中填入“T”,代表购买,以此类推,最后再将剩下空白格填上“F”。建立的事实表部分截图如图5所示。


1——商品及其编号



5——事实表部分截图



    • 分享到QQ空间
综合指数
  指数名称 数值 幅度 详细