Page 124 - 教育模式创新理论研究与实践
P. 124
教育模式创新理论研究与实践
Theoretical Research and Practice on Innovation of Educational Models
智库软件与信息服务业研究所安晖认为,大数据是数据对象、技术与应用三者的
统一。因此,大数据是技术、思维方式、方法论的集合体。
二、大数据的特点
IBM 公司把大数据概括成 4 个 V,即大量化(Volume)、多样化(Variety)
和快速化(Velocity)。IBM 公司所概括的这 4 个大数据的特点也反映了大数据
所潜藏的价值(Value),这四个 V 也就是大数据的基本特征。大数据的 4V 特
征在维克托·迈尔 - 舍恩伯格和肯尼思·库克耶合著的《大数据时代》中提出。
随着大数据研究的不断深入,人们对大数据的认识越来越全面,大数据的特征由
最开始的 3V、4V 到现在的 8V,即以 8 个“V”开头英语单词表征的大数据特征:
海量化、多样性、高速性、精确性、关联性、易变性、有效性、价值大。这里仅
介绍 4V。
(一)海量化(Volume)
海量化指收集和分析的数据量非常大,从 TB 级别,跃升到 PB 级别。全球
企业 2010 年在硬盘上存储了超过 7EB 的新数据,绝大部分是消费者的消费数据,
而 1EB 数据就相当于美国国会图书馆中存储数据的 4000 多倍。自人类有史来至
今所产生的信息量为 5EB;过去3年产生的数据量比以往4万年产生的数据的总
和还要多。在整个人类文明所获得的全部数据中,有 90% 是过去 2 年内产生的。
随着大数据的到来,以 TB、PB、EB 为数据计量单位的时代已经成为过去,全
球将进入数据存储与处理的“ZB”时代。
(二)多样化(Variety)
多样化指大数据的类型多样化。大数据来自多种数据源,主要类型包含结构
化数据、半结构化数据和非结构化数据等。据不完全统计,中国高校数据库结构
化数据增长率大概为 32%,而非结构化数据的增长率则达到 63%。非结构化数据,
处理起来比结构化数据困难,但产生大价值的数据,往往是这些非结构化数据。
(三)高速度(Velocity)
高速度即数据流的快速处理。随着大数据的涌现,已经有很多用于密集型数
据处理的架构应运而生。此外,还有能以可靠、高效、可伸缩的方式分布式处理
大数据的软件框架 Hadoop。运用这些新的软件和技术,数据处理的速度大大加快,
数据处理能力从批处理转向流处理。速度快要求批处理、实时性、多进程、数据
116