Page 95 - 大数据技术及安全研究
P. 95
第二章 数据的采集与处理
(三)以人工智能为基础的大数据分析
1. 以机器学习为基础的大数据分析
(1)大数据聚类
将机器学习技术应用于大数据分析工作时,初步就是大数据聚类,只有这样
才能保证数据分析结果的全面性,但是由于大数据聚类与传统聚类不同,其具有
跨学科、跨领域的特点,所以以往的传统聚类算法难以直接应用。因此,当研究
人员开展以机器学习为基础的大数据分析工作时,应对聚类算法进行优化,或是
直接选择新型算法,其中,若是采用传统聚类算法,应先对现有数据进行阻塞与
简化,然后通过计算结果重新组合的方式实现大数据分析,或是采用并行聚类算
法,依托于计算机处理数据速度的提升实现经典大数据的分析。
从目前主流计算框架来看,Map Reduce 作为常用的分布式计算框架之一,
其主要方式是简化处理数据分块,然后将各个分块的分析结果进行合并,最终
实现数据的并行化;或是以 Hadoop 平台为基础的 K-means 聚类算法,依托于
Map、Combine、Reduce 的划分实现自下而上的凝聚式层次聚类分析,强化文本
类数据聚类时的准确性。除此之外,还有在 Map Reduce 的发展下,基于密度的
聚类方法,即 DB-SCAN,这一聚类算法分为 4 个阶段,阶段一为数据预处理;
阶段二是局部 DBSCAN;阶段三为合并集群获得;阶段四是全局集群处理,在
依次落实处理环节后将其应用于轨迹聚类。通过上述分析可知,不同的大数据聚
类算法,其侧重点存在差异性,以 Map Reduce 为基础的大数据聚类算法主要是
强化聚类效果,并对海量数据计算的复杂度进行有效降低;而 K-means 算法则注
重大数据分析速度与性能的提升。而且,目前传统聚类算法优化研究也处于持续
状态,尤其是面对越来越大的数据量以及难度不断提高的数据分析难题,通过采
用并行聚类算法和改进传统聚类算法,是目前以人工智能机械学习为基础的,大
数据聚类算法研究与发展的主要方向。
(2)大数据关联挖掘
在面对海量数据查找任务时,主要采用关联挖掘对数据集合之间的关联、因
果等信息进行查找与整合。目前,常用的关联分析算法有 Apriori 关联规则分析、
FP-Growth 关联规则分析等,但是在算法的实际应用过程中,传统串行算法将给
I/O 带来过大的负载,且数据关联挖掘时间成本较大,随着数据量的增加,需要
查找的数据规模越来越大,对计算能力和存储容量的要求越来越高。因此,在算
·87·