Page 82 - 大数据技术及安全研究
P. 82

大数据技术及安全研究
                Research on Big Data Technology and Security



            若数据集合规模较大,一经删除部分记录之后,造成后续数据规模缩小,构建模
            型典型性和适用性无法凸显,可靠性降低。此外,删除缺失数据过程中,可能将
            原有有价值数据去除,进而对后续数据挖掘、模型构建造成干扰,最终挖掘成果

            可靠性不佳,易对最终决策有所干扰。另一方面,基于填充技术缺失值插补算
            法。上述删除法应用过程中存在一定局限性,所以被应用选择频次较低。为填充
            原始数据缺失内容,可选取最接近缺失值替代,保证数据挖掘质量及可靠性。填
            充方法存留原有潜在价值数据,构建最终模拟更具可靠性,为决策提供高质量信

            息数据。
                (3)噪声数据处理
                数据正式挖掘之前,通常将数据设定为理想状态,但现实生活中收集、整理
            数据过程中,受多重因素干扰,会产生一定的噪声数据,即“离群点”。由于噪

            声数据偏离正确数据范围内,难以保证最终数据分析、挖掘成果,影响其后续挖
            掘结果准确性。一般常用消除噪声数据方式包含两种:第一,分箱法。将预处理
            数据分散至不同箱子中,以周围实际平滑噪声数据为基准,将其划分为两种类型。
            依照平均数值进行平滑,提取平均数值,并将其作为整个箱子中数据代表值;按

            照中位数平滑,与上述方式相同;根据箱边界平滑,定义箱边界是箱中最大和最
            小数值。第二,噪声过滤。选用聚类方法对离群点进行分析、过滤。噪声过滤中,
            常用算法主要包含 EF 算法、IPF 算法。
                2. 数据集成与变换

                数据集成过程作为一项复杂性工作,主要将多文件或数据库中数据进行整合
            汇总处理,从本质层面消除语义的模糊性。数据变换主要是对原有数据进行分析,
            掌握其特点规律,选取维变换或转化方式,减少数据中有效量数目。数据变换将
            数据转化为吻合数据挖掘需求各种形式,依照实际应用数据挖掘算法,确定使用

            数据转换具体方式。通常数据转换方式较多,应依照数据属性实际状况,选取科
            学、合理数据处理措施,如函数变换、数据规范化等,规范化有助于数据实现合
            理划分类别,以及避免对度量单位依赖性。
                3. 数据归纳

                数据归纳主要是对发现任务和数据自身解读层面,探寻数据中表达特征,以
            此实现缩减数据模型,进而保证数据原有形貌同时最大限度简化数据量,保证大
            数据挖掘更具高效性。数据规约包含两种方式,即维规约、数量规约。数据规约



            ·74·
   77   78   79   80   81   82   83   84   85   86   87