Page 82 - 大数据技术及安全研究
P. 82
大数据技术及安全研究
Research on Big Data Technology and Security
若数据集合规模较大,一经删除部分记录之后,造成后续数据规模缩小,构建模
型典型性和适用性无法凸显,可靠性降低。此外,删除缺失数据过程中,可能将
原有有价值数据去除,进而对后续数据挖掘、模型构建造成干扰,最终挖掘成果
可靠性不佳,易对最终决策有所干扰。另一方面,基于填充技术缺失值插补算
法。上述删除法应用过程中存在一定局限性,所以被应用选择频次较低。为填充
原始数据缺失内容,可选取最接近缺失值替代,保证数据挖掘质量及可靠性。填
充方法存留原有潜在价值数据,构建最终模拟更具可靠性,为决策提供高质量信
息数据。
(3)噪声数据处理
数据正式挖掘之前,通常将数据设定为理想状态,但现实生活中收集、整理
数据过程中,受多重因素干扰,会产生一定的噪声数据,即“离群点”。由于噪
声数据偏离正确数据范围内,难以保证最终数据分析、挖掘成果,影响其后续挖
掘结果准确性。一般常用消除噪声数据方式包含两种:第一,分箱法。将预处理
数据分散至不同箱子中,以周围实际平滑噪声数据为基准,将其划分为两种类型。
依照平均数值进行平滑,提取平均数值,并将其作为整个箱子中数据代表值;按
照中位数平滑,与上述方式相同;根据箱边界平滑,定义箱边界是箱中最大和最
小数值。第二,噪声过滤。选用聚类方法对离群点进行分析、过滤。噪声过滤中,
常用算法主要包含 EF 算法、IPF 算法。
2. 数据集成与变换
数据集成过程作为一项复杂性工作,主要将多文件或数据库中数据进行整合
汇总处理,从本质层面消除语义的模糊性。数据变换主要是对原有数据进行分析,
掌握其特点规律,选取维变换或转化方式,减少数据中有效量数目。数据变换将
数据转化为吻合数据挖掘需求各种形式,依照实际应用数据挖掘算法,确定使用
数据转换具体方式。通常数据转换方式较多,应依照数据属性实际状况,选取科
学、合理数据处理措施,如函数变换、数据规范化等,规范化有助于数据实现合
理划分类别,以及避免对度量单位依赖性。
3. 数据归纳
数据归纳主要是对发现任务和数据自身解读层面,探寻数据中表达特征,以
此实现缩减数据模型,进而保证数据原有形貌同时最大限度简化数据量,保证大
数据挖掘更具高效性。数据规约包含两种方式,即维规约、数量规约。数据规约
·74·