Page 87 - 大数据技术及安全研究
P. 87
第二章 数据的采集与处理
理应用,能够迅速转化类型格式不同的数据,使其实现形式统一,进而保障数据
格式实现更高的规范化和标准化,确保能够顺利进行数据挖掘。同时,在该过程
内可以有效筛选使用价值较高的数据。在具体落实数据预处理时,数据转换是指
应用相关技术进行多维数据的压缩,使数据在类型,格式等方面存在的差异性得
到及时消除,进而确保能够使数据挖掘要求得到更高满足,实现数据挖掘效果的
大幅提升。在进行数据转换时,相关人员需要根据挖掘要求和数据特点选择应用
的具体方式。例如,如果想要使挖掘数据中所存在的噪声数据得到消除,需要进
行平滑处理。
5. 数据归约
首先,需要维归约,将其中不相关的维或属性删除,确保能够使其数据量得
到有效减少,不仅能够实现数据级的有效压缩,同时还可以使其发现模式上出现
的属性数目得到有效减少,通过利用属性自己进行最小属性级的选择。在具体选
择属性子集时,可以逐步向前选择,利用空属性集,在该集合内逐步添加原属性
集内价值较高的属性。同时还可以逐步向后删除,在整个属性集内,对属性集内
的不良属性进行及时删除,同时还可以有效结合向后删除和向前选择。与此同时,
还可以采取判定归纳,利用信息增益度量进行分类判定数的科学建立,确保能够
实现属性子集的有效形成。
其次,还需要进行数据压缩,利用数据变换或数据编码获得原数据的压缩表
示或归约表示,一般情况下,数据压缩包括有损压缩和无损压缩,主要成分分析
和小波变换是目前应用价值最高的有损压缩方法,其中,小波变换在进行成分分
析计算,成本需求相对较低,可以在无序或有序的属性内进行合理应用,同时还
可以对倾斜数据和系数数据进行科学处理。
最后,进行数值归约,通过选择较小的和替代的数据表示方式使其数据量得
到有效减少。在对其进行具体应用时,通常存在有参和无参两类方法。其中,有
参方法是利用模型进行数据评估。通常包括两种技术,其一为多元回归和线性回
归。其二为对数线性模型。无参方法则包括以下三种技术。其一为直方图,通过
分享技术进行数据分布,是现阶段应用较为普遍的数值归约形式。其二聚类,具
体是指将数据源作为一个对象,并将对象划分为聚类或群,确保在一个聚类内,
具有相类似的对象,在进行数据归约时,可以利用数据聚类替代具体数据。其三
为选样,具体包括分层选样,聚类选样,简单选样等多种方式。
·79·