Clementine的神经网络在电信行业应用实例（三）-中国指数网

Clementine的神经网络在电信行业应用实例（三）

来源：互联网日期：2015-10-14

特征描述部分主要是对重点的单变量的基本分析，因为数据挖掘往往从数据的基本分析开始，它是了解数据分布特征，把握数据间相关性强弱的基本手段，也是后续模型选择和深入分析的基础。

一、数值型变量的基本描述统计量计算

这里主要对部分数值型变量进行描述性分析，主要计算基本服务累计开通月数、上月基本费用，上月限制性免费服务项目的费用、无线服务费用的基本描述统计量，计算上述变量与年龄、家庭月收入（百元）、家庭人口之间的简单相关系数以反映变量之间的相关性。

Clementine软件中，先在输出选项卡中选择统计量节点，双击统计量节点，进行字段选择，检查框内要选择的字段为开通月数、上月基本费用、免费服务项目的费用、无线服务费用；相关框内对应要选择的字段为年龄、家庭月收入、家庭人口。

图1.1——统计量节点的设置

全部设置好，点击执行，得到Clementine结果如下图：

图1.2——统计量的计算结果

Clementine中，在判断两变量的相关强弱可采用两种标准，一种直接用简单相关系数作为标准，另一种则以检验概率P值作为标准。此处以后者为标准，即当输出Weak时，表示两变量之间是非0相关的概率小于90%，输出Strong表示两变量间非0相关的概率大于95%，90%~95%输出为Medium。

则由计算结果可知：开通月数与年龄和收入存在强相关，同理基本费用、上月限制性免费服务项目的费用与年龄和收入也存在强相关。

当然，这里只是选了几个指标作为代表作为分析变量。从这些相关性就可以看出电信行业中的顾客消费特征其实可能比较明显，起码这里从年龄和收入两个特征就可以看出来。因为都是数值型变量，完全可以通过建立回归模型等来得到具体的关系表达式。但是，这里的主要问题是，数据中包含的既有数值型变量和分类变量，只考虑数据中数值型变量的信息而忽略分类变量肯定是不合理的。所以，本文就是基于这样一个考虑，借助于数据挖掘的神经网络分类预测功能来解决这个问题。

二、 两个分类变量间相关性的研究

本文所用的电信客户数据中分类变量相对比较多，为了分析客户流失与套餐类型、婚姻状况、是否采用电子支付方式等，较常用方法是作条形图。

Clementine作条形图：在图形选项卡中选择分布节点，双击分布节点，字段按顺序选择套餐类型、婚姻状况和是否采用电子支付，交叠字段选择流失。