Page 81 - 大数据技术及安全研究
P. 81

第二章  数据的采集与处理



             不尽相同,造成数据解读、分析多个环节中存在部分不足。因此,数据预处理作
             为数据分析、挖掘的重要准备工作,通过应用数据预处理措施,初期将海量数据
             中与最终挖掘、决策相关性较低的数据去除,为挖掘算法提供可靠性较高的数据

             信息。数据挖掘前提条件是应保证数据可靠性,去除其中“脏数据”,主要包含
             缺失数据、不确定数据等,对其进行预处理的方法,主要包含以下几方面。
                 1. 数据清洗
                 采取高效的技术措施检测原始数据质量,判定其是否存在错误、不一致等,

             选取各类清洗处理技术,将数据进行清洗,提高数据可靠性。数据清洗技术内容
             较多,若想获取良好的数据清洗成效,应首先明确“脏数据”种类及形成因素,
             将其进行处理,转变为所需数据。随着信息业和商业高速发展,进一步促进数据
             清洗技术的良好发展。

                 (1)重复数据的清洗
                 为从本质层面保证数据分析、挖掘速度和精准度,需将原始数据中叠加重复
             数据进行去除,以免对数据分析最终结果造成干扰。初期数据中存在两个或超过
             两个实例,则将其视为重复数据。为高效、及时确定数据重复,一般选取的措施

             为逐一将每一个实例进行比较,确定与其相吻合的实例。为掌握实例中数据自身
             属性,可通过统计学进行检测,按照不同数值型属性均值和标准方差值,布设相
             应的属性区间,并与上述数据一一对应,辨识数据集合中重复记录,及时将重复
             数据去除。针对上述叠加数据通常选用相似度计算,以其作为去除准则,判定数

             据相似度是否满足要求。将两条记录相似度进行比较,其数值超出一定限值,则
             判定两条记录吻合,反之两者属于不同实体。
                 (2)缺失数据清洗
                 完善缺失数据作为数据清洗过程中面临的又一瓶颈,实际数据采集过程中,

             因人为操作不当致使信息可靠性丧失等,造成数据内容缺乏一定的完整性,会对
             抽取模式精准性和导出标准造成一定干扰。错误数据挖掘模型应用于决策端口时,
             会造成结果与决策偏离正确轨道,造成严重损失。
                 针对缺失数据清洗,其选取方式包含两方面:一方面,忽略缺失数据。原始

             数据收集、整理过程中,受多方面因素影响,造成部分数据属性不完善,为避免
             其对整个数据群造成影响,需选取忽略删除方式去除。数据整体规模较小,且完
             整性数据较少条件下,一般选用该方式进行数据清洗,此种方式应用效率较高。



                                                                                  ·73·
   76   77   78   79   80   81   82   83   84   85   86