Page 21 - 大数据技术及安全研究
P. 21
第一章 大数据核心技术
采集以及开放方式数据库采集等。
2. 数据预处理
数据的预处理是大数据开发过程中占比很大的关键步骤。数据的预处理能够
直接影响后面所有步骤的结果质量。实际环境下,原始数据一定存在不可避免的
噪声和误差,同时,数据的模式及特征通常会隐藏起来。数据预处理技术可以使
原本混乱无章的数据按照预想的结果进行改变。数据预处理的方法有很多,常见
的数据预处理方法包括以下几种:
(1)数据清洗
真实场景下的数据一般是不完整的、有噪声的、不一致的。数据的清洗包括
缺失值的填充,可以将不完整的数据通过删除记录、人工填写、全局常量填充等
方法进行填补。另一方面,数据的清洗包括噪声数据与离群点数据的处理。噪声
数据一般指错误的数据,离群点数据一般指数据集当中的特殊数据。这些数据会
影响数据可视化结果的准确性。所以可以通过分箱、回归函数等方法处理噪声数
据与离群点数据。最后,对于不一致的数据,可以进行人工干预进行修正。
正确的数据对于数据可视化很重要,它直接影响了可视化的结果。数据清理
可利用数据基本统计算法确定离群点或噪声数据,常用的方法包括中心趋势度量
计算、数据分布度量计算。中心趋势度量的核心思想是确定数据中大部分数据对
象落在什么位置。中心趋势度量计算可使用均值计算、中位数计算以及众数计算。
使用均值计算反映中心趋势度量是描述数据集合最有用的度量,但是如果原始数
据集中存在极端值时,对均值的影响较大,所以均值计算并非中心趋势度量的最
佳选择。中位数用于评估数值型数据的中心度量比较有效,并且对于非对称数据
比较友好。众数代表中心趋势度量可以表示数据对象的普遍情况,但效果不如均
值。综上所述,中心趋势度量计算可以确定离群点或噪声数据,可以根据需求选
择均值、中位数、众数或混合方法。除此之外,数据分布度量计算也是数据预处
理的有效选择。数据分布度量可以通过极差、四分位数和四分位数极差、合图、
方差和标准差计算进行表示,能有效地确定数据集中数据的整体分布,帮助深入
了解数据情况。
(2)数据集成
数据的清洗一般应用在同一数据源。当数据的来源不同时,不同的数据源可
能出现属性不匹配、冗余值过多、数据冲突等问题,这些问题可以在数据的集成
·13·