Page 96 - 大数据技术及安全研究
P. 96

大数据技术及安全研究
                Research on Big Data Technology and Security



            法实际应用过程中,可融入 Map Reduce 或 Spark 分布式计算框架,依托于分布式、
            并行化的处理优化,提升数据计算速度,从而使大数据关联挖掘得以广泛应用,
            比如日志分析领域、医疗疾病诊断领域、交通智能管理领域、数值分析领域等,

            极大地满足了多个社会行业对数据分析与利用的需求。
                (3)大数据分类
                大数据分类也是数据挖掘的一种技术手段,因而与其他技术工具相同,分类
            算法丰富且先进。比如主要应用于非均衡数据的分类工作的,以 Map Reduce 为

            基础的随机森林算法,通过依托于决策树算法的并行化,能够有效加快最佳分裂
            属性的选择过程;再如结合了 Mahout 的随机森林,为实时检测点对点僵尸网络
            的工作提供技术支持。除此之外,还包括 Map Reduce 与 K 近邻分类器的结合应
            用等,有效提升了大数据分类的泛化性能,使其能够应用得更为宽泛。

                (4)大数据预测
                作为大数据研究的核心内容,以机器学习为基础的大数据预测应用也十分广
            泛,涉及的学习算法也十分丰富。比如应用于金融领域的机器学习算法,通过针
            对流式大数据以及市场结构的差异性进行可扩展交易模型的建立,最后结合运用

            逻辑回归方法实时预测目标市场产品的价格。或是对 HDFS、集合特征学习等技
            术进行整合,依托于支持向量机运用的网络对入侵攻击进行预测的算法等;再如
            应用于医疗领域的流感预测指数模型、结合向量机方法的综合分析预测等,为该
            领域精准个性化医疗的实现提供技术支持,或是应用于电网负荷的以动态需求响

            应为基础的预测平台,依托于语义信息的集成采集获得目标动态数据,然后利用
            回归树模型对海量历史数据进行训练,最后对 Web 端的电能消耗进行预测,从
            而实现智能用电需求管理。

                2. 以深度学习为基础的大数据分析
                自 2006 年开始,深度学习成为机器学习的重要学习方法之一,在大数据分
            析中,其主要应用于图像、自然语言处理以及语音等领域。在大数据分析过程中,
            评价其明显的计算密集性特点,深度学习训练的使用需要确定隐层权值与阈值参
            数等,然后依托于大量的迭代计算完成相关分析工作。以中等规模的数据为例,

            即便仅有几个隐层,但每个隐层均具有几百个节点的深层网络,学习时间在几天
            或几周之间。数据规模与模型训练时间存在正比关系,在庞大的训练量下,主要
            采用分布式的方式降低深度学习训练成本,具体实现方式包括:第一,以 Map



            ·88·
   91   92   93   94   95   96   97   98   99   100   101