Page 83 - 大数据技术及安全研究
P. 83

第二章  数据的采集与处理



             过程中包含关键技术如下:
                 第一,高维数据降维处理。数据规约过程中重点内容是高效减少数据数量,
             提取其特性核心目的在于其是否可准确展示相关问题属性,且将多余属性去除,

             保证其学习高效性增强。
                 第二,实例归纳。现阶段使用频次较高的减少数据方式为实例规约方式,实
             现数据减少目标同时,保证数据处理质量。应用自动生成实例方法,进而降低数
             据宏观整体规模,其包含技术较多,如实例选择、实例生成等。实例选择主要是

             生成一个最小数据集,将噪声数据等多余数据去除,独立之后进行数据挖掘算法;
             实例生成主要是构建多种实际案例,涉及相关算法包含 LVQ。
                 第三,离散化技术。数据离散化之前,需估测离散型数据整体规模,随后将
             其数据按照一定顺序排列,明确多个分裂点将数据划分为多个区间。将处于同一

             区域内全部连续性数据,选取统一性方式匹配至相同离散型数据上。按照分裂点
             认定方式不同,离散化主要划分为两种方式,即自顶向下、自底向上。
                 第四,不平衡学习。利用机器进行学习形成数据模型过程中,针对不同种类
             数据集成上形成良好的差异。其中,多数标准分类学习算法会倾向于实例,对少

             数实例予以忽视。数据预处理相关技术可有效避免类型分布不均衡状况,核心方
             式包含两种,即欠采样方法、过度采样方法,前者是抽样创建初期数据子集作为
             数据挖掘,建议将大多实例去除;后者实际抽样过程中复制大量相同实例。
                 多数方法可在数据清理和规约中应用,且两者在整合数据预处理过程中更为

             重要,特别是整个数据规约流程。原有应用统计学对数据进行处理时,基于概率
             论下,以设计试验方法最终获取相关数据,从而保证数据吻合相关形成模型。数
             据挖掘面临的是大规模数据,数量、变量数较大,数据间关系较为复杂,两者存
             在目标相同,选取推导掌握整体数据规律,是统计学实施核心方式,数据挖掘更

             强调对整体规律分析。由上述分析获知,掌握两者间存在差异性,具体应用过程
             中,掌握数据挖掘中数据特征,综合应用多学科知识,高效融合统计学方法。针
             对未来数据预处理方式改善建议如下:首先,注重数据预处理应与专业知识与知
             识应用融合,且应始终贯穿于数据预处理各环节中。其次,原始数据源获取是数

             据预处理重要节点,需严控其预处理各环节质量,保证数据处理高效性及可靠性。
             最后,应积极推行倡导对数据预处理实现循环模式。
                 大数据时代背景下,各类先进技术应用于多个领域行业中,有助于推动数据



                                                                                  ·75·
   78   79   80   81   82   83   84   85   86   87   88