Page 20 - 大数据技术及安全研究
P. 20
大数据技术及安全研究
Research on Big Data Technology and Security
性,0 表示阴性,结果用 0 或 1 表示是确定的。
3. 序数属性
序数属性顾名思义有序的属性,其属性值之间存在排序或等级关系。举个例
子,大学教师的职称具有等级关系,包括助教、讲师、副教授和教授是存在晋级
关系的。有些时候,对于研究的数据对象,我们不能客观地分析一些主观的属性
时,如用户的商品的满意度评价,序数属性是有效的。可以通过计算序数属性的
众数或中位数来代表序数属性的中心趋势。
4. 数值属性
和上述属性不同,数值属性属于定量属性,具有具体属性数值,可以参加计
算,并能够非常客观地反映事物的属性,如长度、宽度、高度等都属于数值属性。
数值属性可以分成区间型数值属性和比值型数值属性。区间型数值属性是有顺序
的,其值可以为正数、负数或 0。比值数据属性一般会固定零点,简单来说,一
个值是两一个值的倍数。属性是数据对象一定拥有的用于反映自身特征的定性或
定量值。实现数据可视化之前一定要了解数据对象的属性,才能更好地将数据特
征表示出来。
(二)数据可视化的过程
从视觉感知到心理认知要经过获得信息、归纳总结、存储记忆、概念、提取、
使用等一系列的过程。尽管分析的数据不尽相同,应用的领用各有特点,但数据
可视化的基本流程是相同的。实际上,可视化不是通过某个算法实现的,也不属
于算法,而是一系列的步骤组成的流程。除了对视觉展示的设计与实现,也同样
需要考虑其他关键的环节。数据的采集、数据的预处理、数据的存储、数据的挖
掘等,虽然这些步骤并不属于数据可视化,但是却对数据可视化有着极大的影响。
如果采集到的数据包含大量缺失的数据,可视化的结果也一定会很稀疏,出现信
息缺失等问题,那么可视化的意义就大打折扣了。因此,数据可视化还涉及与以
下几个模块的相互协作。
1. 数据采集
数据的采集是指将不同数据源的数据按照规定的格式、维度、尺寸、分辨率
等进行采集汇总的过程。如果采集到的数据质量较好,例如没有缺失值、数据精
准、数据的维度统一、数据的分辨率较高,那么这样的数据实现的可视化结果质
量也会比较好。目前,行业中使用较多的数据采集技术包括网络爬虫技术、软件
·12·