Clementine的神经网络在电信行业应用实例(三)
来源:互联网  日期:2015-10-14
  • 分享到QQ空间

特征描述部分主要是对重点的单变量的基本分析,因为数据挖掘往往从数据的基本分析开始,它是了解数据分布特征,把握数据间相关性强弱的基本手段,也是后续模型选择和深入分析的基础。

 

一、数值型变量的基本描述统计量计算

这里主要对部分数值型变量进行描述性分析,主要计算基本服务累计开通月数、上月基本费用,上月限制性免费服务项目的费用、无线服务费用的基本描述统计量,计算上述变量与年龄、家庭月收入(百元)、家庭人口之间的简单相关系数以反映变量之间的相关性。


Clementine软件中,先在输出选项卡中选择统计量节点,双击统计量节点,进行字段选择,检查框内要选择的字段为开通月数、上月基本费用、免费服务项目的费用、无线服务费用;相关框内对应要选择的字段为年龄、家庭月收入、家庭人口。


1.1——统计量节点的设置


全部设置好,点击执行,得到Clementine结果如下图:


1.2——统计量的计算结果


Clementine中,在判断两变量的相关强弱可采用两种标准,一种直接用简单相关系数作为标准,另一种则以检验概率P值作为标准。此处以后者为标准,即当输出Weak时,表示两变量之间是非0相关的概率小于90%,输出Strong表示两变量间非0相关的概率大于95%90%~95%输出为Medium


则由计算结果可知:开通月数与年龄和收入存在强相关,同理基本费用、上月限制性免费服务项目的费用与年龄和收入也存在强相关。


当然,这里只是选了几个指标作为代表作为分析变量。从这些相关性就可以看出电信行业中的顾客消费特征其实可能比较明显,起码这里从年龄和收入两个特征就可以看出来。因为都是数值型变量,完全可以通过建立回归模型等来得到具体的关系表达式。但是,这里的主要问题是,数据中包含的既有数值型变量和分类变量,只考虑数据中数值型变量的信息而忽略分类变量肯定是不合理的。所以,本文就是基于这样一个考虑,借助于数据挖掘的神经网络分类预测功能来解决这个问题。


二、 两个分类变量间相关性的研究

本文所用的电信客户数据中分类变量相对比较多,为了分析客户流失与套餐类型、婚姻状况、是否采用电子支付方式等,较常用方法是作条形图。


Clementine作条形图:在图形选项卡中选择分布节点,双击分布节点,字段按顺序选择套餐类型、婚姻状况和是否采用电子支付,交叠字段选择流失。


2.1——分布图节点的设置


流失客户在套餐类型、婚姻状况和是否采用电子支付方式上的分布如下,其中蓝色表示流失为“否”,红色表示流失为“是”:


2.2——流失客户在套餐类型上的分布


2.3——流失客户在婚姻状况上的分布


  2.4——流失客户在是否电子支付上的分布


由上面结果可知婚姻状况相对其他两个因素对客户流失的影响较小,而套餐类型和是否采用电子支付方式这两个因素又表现出什么样的影响呢?为了得到分类变量对应各分类对另外一个分类变量的影响程度,可通过绘制网状图,因为网状图是一种更为生动和直观地展示多个分类变量分布特征的图形。


Clementine作网状图,在图形选项卡中选择网络节点,双击网络节点,如果要得到一个变量对一个变量的影响程度,选择“网络”,若为多变量对某一变量的影响,则选导向网络


2.5——网络图节点的设置


如下图所示,该网络图通过这些因素的变量值与流失变量值YesNo连接线的粗细来反映因素对流失影响的强弱。


2.6——网络图


由上图中可看出,流失为否与电子支付为否连接线明显比其他任何线要粗,说明不通过电子支付的顾客相对不容易流失,另外,套餐类型为附加服务类型电子的客户保持也较好。

 

以上为本节主要内容,下一节内容是利用BP神经网络技术建立客户流失预测模型,并利用径向基函数网络(RBF网络)进行服务套餐和基本费用的预测。


关于软件操作或者文章若有疑问,可以随时在中国指数网的指数论坛给我们留言,谢谢!


    • 分享到QQ空间
综合指数
  指数名称 数值 幅度 详细