Clementine的神经网络在电信行业应用实例(二)
来源:互联网  日期:2015-10-14
  • 分享到QQ空间

本文所采用的电信数据相对比较不全面,主要是因为电信行业数据作为企业内部重要数据,涉及客户隐私,不对外开放。所以,本文的重点在于学习神经网络方法的运用,希望通过这个简单实例来搞清楚神经网络在处理分类预测这一类问题中的具体运用。


该电信行业数据包括以下15个变量共1000条数据:居住地、年龄、婚姻状况、家庭月收入(百元)、受教育水平、性别、家庭人数、基本服务累计开通月数、是否申请无线转移服务、上月基本费用、上月限制性免费服务项目的费用、无线服务费用、是否电子支付、客户所申请的服务套餐类型和是否流失。对原始数据进行预处理,主要包括离群点及极端值的修正和缺失值的替补,具体软件操作步骤如下。


Step1建立SPSS File节点,读入Telephone.sav数据


1——读入数据


Step2选择字段选项中的类型节点,设置变量的变量类型,指定流失变量为输出变量,其他变量均为输入变量。接着,选择输出选项中的数据审核节点。


2——字段类型设置


Step3双击“15字段”数据审核节点,进入选项卡进行设置,然后点击执行,得到质量诊断结果


3——数据审核节点设置


在这里,离群值和极值的检测方法有两种,基于本例数据特征,选择第二种方法,认为大于默认的1.5倍的四分位差为离群点,大于默认的3倍的四分位差为极端值。


4——数据质量


从上面结果可以看出,收入变量上有9个离群点和6个极端值,基本费用变量上有18个离群点和4个极端值。另外,审核结果显示,该数据不存在无效值,所以,下面就只需进行极端值的修正处理即可。

 

Step4进行极端值修正


5——极端值修正方法选择


    首先选择修正的方法,均选择强制替换离群值/丢弃极值方法,再选择要修正的变量。


6——极端值修正变量选择

 

以上整个预处理过程的数据流:


7——预处理的数据流


经过简单的数据审核和修正,数据预处理已完成。最终得到934条有效并适合分析的数据,其中居住地有地区1到地区3五个值;婚姻状况分为未婚和已婚;教育分为高中以下、高中、大专、本科和研究生5个类;无线服务、电子支付和流失三个属性都分为是和否两个值;套餐类型分为基础服务、E服务、附加服务和全套服务。


下一节将进行基本描述分析,包括数值型变量的基本描述统计量的计算和分类变量相关性分析。


关于软件操作或者文章若有疑问,可以随时在中国指数网的指数论坛给我们留言,谢谢!


    • 分享到QQ空间
综合指数
  指数名称 数值 幅度 详细