Page 96 - 大数据技术及安全研究
P. 96
大数据技术及安全研究
Research on Big Data Technology and Security
法实际应用过程中,可融入 Map Reduce 或 Spark 分布式计算框架,依托于分布式、
并行化的处理优化,提升数据计算速度,从而使大数据关联挖掘得以广泛应用,
比如日志分析领域、医疗疾病诊断领域、交通智能管理领域、数值分析领域等,
极大地满足了多个社会行业对数据分析与利用的需求。
(3)大数据分类
大数据分类也是数据挖掘的一种技术手段,因而与其他技术工具相同,分类
算法丰富且先进。比如主要应用于非均衡数据的分类工作的,以 Map Reduce 为
基础的随机森林算法,通过依托于决策树算法的并行化,能够有效加快最佳分裂
属性的选择过程;再如结合了 Mahout 的随机森林,为实时检测点对点僵尸网络
的工作提供技术支持。除此之外,还包括 Map Reduce 与 K 近邻分类器的结合应
用等,有效提升了大数据分类的泛化性能,使其能够应用得更为宽泛。
(4)大数据预测
作为大数据研究的核心内容,以机器学习为基础的大数据预测应用也十分广
泛,涉及的学习算法也十分丰富。比如应用于金融领域的机器学习算法,通过针
对流式大数据以及市场结构的差异性进行可扩展交易模型的建立,最后结合运用
逻辑回归方法实时预测目标市场产品的价格。或是对 HDFS、集合特征学习等技
术进行整合,依托于支持向量机运用的网络对入侵攻击进行预测的算法等;再如
应用于医疗领域的流感预测指数模型、结合向量机方法的综合分析预测等,为该
领域精准个性化医疗的实现提供技术支持,或是应用于电网负荷的以动态需求响
应为基础的预测平台,依托于语义信息的集成采集获得目标动态数据,然后利用
回归树模型对海量历史数据进行训练,最后对 Web 端的电能消耗进行预测,从
而实现智能用电需求管理。
2. 以深度学习为基础的大数据分析
自 2006 年开始,深度学习成为机器学习的重要学习方法之一,在大数据分
析中,其主要应用于图像、自然语言处理以及语音等领域。在大数据分析过程中,
评价其明显的计算密集性特点,深度学习训练的使用需要确定隐层权值与阈值参
数等,然后依托于大量的迭代计算完成相关分析工作。以中等规模的数据为例,
即便仅有几个隐层,但每个隐层均具有几百个节点的深层网络,学习时间在几天
或几周之间。数据规模与模型训练时间存在正比关系,在庞大的训练量下,主要
采用分布式的方式降低深度学习训练成本,具体实现方式包括:第一,以 Map
·88·