Page 21 - 大数据技术及安全研究
P. 21

第一章  大数据核心技术



             采集以及开放方式数据库采集等。
                 2. 数据预处理
                 数据的预处理是大数据开发过程中占比很大的关键步骤。数据的预处理能够

             直接影响后面所有步骤的结果质量。实际环境下,原始数据一定存在不可避免的
             噪声和误差,同时,数据的模式及特征通常会隐藏起来。数据预处理技术可以使
             原本混乱无章的数据按照预想的结果进行改变。数据预处理的方法有很多,常见
             的数据预处理方法包括以下几种:

                 (1)数据清洗
                 真实场景下的数据一般是不完整的、有噪声的、不一致的。数据的清洗包括
             缺失值的填充,可以将不完整的数据通过删除记录、人工填写、全局常量填充等
             方法进行填补。另一方面,数据的清洗包括噪声数据与离群点数据的处理。噪声

             数据一般指错误的数据,离群点数据一般指数据集当中的特殊数据。这些数据会
             影响数据可视化结果的准确性。所以可以通过分箱、回归函数等方法处理噪声数
             据与离群点数据。最后,对于不一致的数据,可以进行人工干预进行修正。
                 正确的数据对于数据可视化很重要,它直接影响了可视化的结果。数据清理

             可利用数据基本统计算法确定离群点或噪声数据,常用的方法包括中心趋势度量
             计算、数据分布度量计算。中心趋势度量的核心思想是确定数据中大部分数据对
             象落在什么位置。中心趋势度量计算可使用均值计算、中位数计算以及众数计算。
             使用均值计算反映中心趋势度量是描述数据集合最有用的度量,但是如果原始数

             据集中存在极端值时,对均值的影响较大,所以均值计算并非中心趋势度量的最
             佳选择。中位数用于评估数值型数据的中心度量比较有效,并且对于非对称数据
             比较友好。众数代表中心趋势度量可以表示数据对象的普遍情况,但效果不如均
             值。综上所述,中心趋势度量计算可以确定离群点或噪声数据,可以根据需求选

             择均值、中位数、众数或混合方法。除此之外,数据分布度量计算也是数据预处
             理的有效选择。数据分布度量可以通过极差、四分位数和四分位数极差、合图、
             方差和标准差计算进行表示,能有效地确定数据集中数据的整体分布,帮助深入
             了解数据情况。

                 (2)数据集成
                 数据的清洗一般应用在同一数据源。当数据的来源不同时,不同的数据源可
             能出现属性不匹配、冗余值过多、数据冲突等问题,这些问题可以在数据的集成



                                                                                  ·13·
   16   17   18   19   20   21   22   23   24   25   26