Page 95 - 大数据技术及安全研究
P. 95

第二章  数据的采集与处理



                 (三)以人工智能为基础的大数据分析
                 1. 以机器学习为基础的大数据分析
                 (1)大数据聚类

                 将机器学习技术应用于大数据分析工作时,初步就是大数据聚类,只有这样
             才能保证数据分析结果的全面性,但是由于大数据聚类与传统聚类不同,其具有
             跨学科、跨领域的特点,所以以往的传统聚类算法难以直接应用。因此,当研究
             人员开展以机器学习为基础的大数据分析工作时,应对聚类算法进行优化,或是

             直接选择新型算法,其中,若是采用传统聚类算法,应先对现有数据进行阻塞与
             简化,然后通过计算结果重新组合的方式实现大数据分析,或是采用并行聚类算
             法,依托于计算机处理数据速度的提升实现经典大数据的分析。
                 从目前主流计算框架来看,Map Reduce 作为常用的分布式计算框架之一,

             其主要方式是简化处理数据分块,然后将各个分块的分析结果进行合并,最终
             实现数据的并行化;或是以 Hadoop 平台为基础的 K-means 聚类算法,依托于
             Map、Combine、Reduce 的划分实现自下而上的凝聚式层次聚类分析,强化文本
             类数据聚类时的准确性。除此之外,还有在 Map Reduce 的发展下,基于密度的

             聚类方法,即 DB-SCAN,这一聚类算法分为 4 个阶段,阶段一为数据预处理;
             阶段二是局部 DBSCAN;阶段三为合并集群获得;阶段四是全局集群处理,在
             依次落实处理环节后将其应用于轨迹聚类。通过上述分析可知,不同的大数据聚
             类算法,其侧重点存在差异性,以 Map Reduce 为基础的大数据聚类算法主要是

             强化聚类效果,并对海量数据计算的复杂度进行有效降低;而 K-means 算法则注
             重大数据分析速度与性能的提升。而且,目前传统聚类算法优化研究也处于持续
             状态,尤其是面对越来越大的数据量以及难度不断提高的数据分析难题,通过采
             用并行聚类算法和改进传统聚类算法,是目前以人工智能机械学习为基础的,大

             数据聚类算法研究与发展的主要方向。
                 (2)大数据关联挖掘
                 在面对海量数据查找任务时,主要采用关联挖掘对数据集合之间的关联、因
             果等信息进行查找与整合。目前,常用的关联分析算法有 Apriori 关联规则分析、

             FP-Growth 关联规则分析等,但是在算法的实际应用过程中,传统串行算法将给
             I/O 带来过大的负载,且数据关联挖掘时间成本较大,随着数据量的增加,需要
             查找的数据规模越来越大,对计算能力和存储容量的要求越来越高。因此,在算



                                                                                  ·87·
   90   91   92   93   94   95   96   97   98   99   100