基于Clementine的C5.0决策树实例分析(二)
来源:互联网  日期:2015-10-14
    • 分享到QQ空间

数据挖掘的数据通常以变量为列,样本为行的二维表形式组织,所以,Clementine数据的基本管理包括变量管理和样本管理两大方面。变量管理和样本管理是数据准备的重要方面,是建立数据模型的前提和基础。


(一)变量说明

变量说明是对读入数据流中变量取值的有效性进行限定、检查和修正,同时指明各个变量在未来建模中的角色。一方面,变量说明是确保高质量数据的有效手段,另一方面也是明确变量建模地位的重要途径。


建立Excel节点,读入Student.xls数据,利用表节点来查看数据。


1——导入数据


双击,浏览数据发现:家庭人均年收入变量中有部分样本取$null$,为系统缺失值;另外一个由于不明原因而明显错误的数据999999。应对它们进行恰当修正。是否无偿献血变量值填写不规范,规范值应为YesNo,但出现了1(表示Yes)和0(表示No)。应将1替换为Yes0替换为No


2——部分数据


1、取值范围和缺失值的说明

取值范围即指变量正常值的区间。缺失值通常包括两类,一类是系统缺失值,Clementine$null$表示,还包括空格或空白等。另一类是用户缺失值,主要指那些取值明显不合理的数据。


这里,首先,添加变量值标签以规范是否无偿献血的取值,指定用户缺失值;其次,说明家庭人均年收入的合理取值范围。为此,在数据流中添加类型节点,选择是否无偿献血和家庭人均年收入变量,分别选择两个变量的“缺失”列,选择指定,定义变量取值范围、用户缺失值等信息。



3——取值范围和缺失值说明


为指示是否无偿献血的合理取值,分别在YesNo行对应的标签列中输入变量值标签无偿献血未无偿献血;家庭人均年收入的取值范围不能直接由外部数据决定,否则Clementine将视999999(用户缺失值)为正常值。手工输入合理的取值区间为7333.074460.0,这样该值则为不合理取值。“定义空白”选项,选中该选项,表示视下列值为空白。


4——取值范围和缺失值设置


2、变量取值有效性检查和修正

确定了变量的取值范围后,通常还需要对变量取值进行检查,主要对超出取值范围的不合理数据或系统缺失值进行修正。


对家庭人均年收入的999999$null$值进行修正和替补。这里用一指定值替代,替换规则为:大于上限的用上限值替代,小于下限的用下限值替代,其余值用(最大值+最小值)/2替代。


5——变量取值有效性检查和修正


3、变量角色的说明

学生的编号不参与建模,指定为None角色,另外,是否参与为输出变量,其他变量均为输入变量。



6——变量角色的说明

    • 分享到QQ空间