Page 19 - 大数据技术及安全研究
P. 19

第一章  大数据核心技术



             实,无法有效传递信息。数据可视化与信息图像、信息可视化、科学可视化、统
             计图形等都有着密不可分的联系。可以说,数据视觉化是科学视觉化与信息视觉
             化的统一体。

                 数据可视化技术其本质是将每一个数据对象以单个图元元素进行表示的图元
             集合,即数据图像。数据可视化技术可以将数据对象的属性以多维的形式表示出
             来,通过不同的角度、维度对数据进行更深入地观察与分析。这里的数据对象代
             表了组成了生成数据可视化图表的数据集合,每一个数据对象都代表了一个实体

             题。举个例子,在大学生就业推荐数据库中,学生、工作、企业、平台等都可以
             成为数据对象。所有的数据对象都拥有属性,属性通常是一个数据字段,表示数
             据对象的特征,如学生有年龄、性别的属性,企业有规模、性质等属性。如果一
             个数据对象拥有多个属性,这个属性的集合就是我们所了解的特征向量(属性向

             量)。属性的种类也是十分丰富的,常见的包括:标称属性、二元属性、序数属
             性、数值属性。
                 1. 标称属性
                 标称属性是一种类似于分类的值,但是不具有有意义的排序,它通常是使用

             事物的名称或符号表示事物属性。举个例子,汽车的属性颜色的值可以包括红色、
             绿色、黑色等,这就是使用事物的名称的标称属性,或者用1代表红色,2代表绿色,
             3 代表黑色,这里“1、2、3”就是使用符号表示标称属性。尽管使用数字表示属性,
             但该属性不可以参与计算及排序,且不属于定量值,因此,通常计算标称属性是

             没有意义的。但值得注意的是标称属性的众数统计值还是可以使用的,它可以反
             映该属性的某个值出现的频次,具有研究价值。
                 2. 二元属性
                 二元属性是标称属性的特殊例子 . 二元代表了该类别的属性只具有两个值 0

             或 1,其中 0 表示属性不存在也可以 false 表示;1 表示属性存在也可以用 true 来
             表示,因此,二元属性就是我们熟知的布尔属性。举个例子,用 student 表示用
             户是否为学生,则 1 或者 true 表示 student 是学生,0 或者 false 表示 student 不是
             学生。二元属性可以分为对称和不对称两种类别,对称的二元属性说明该属性的

             0、1 拥有相同权重值,对属性的值不存在偏好。例如用 student 表示用户是否为
             学生,是的结果用 0 或 1 表示是无偏好的。非对称的二元属性,其结果具有不同
             的权重。例如某病毒的检测结果分为阳性和阴性,为方便统计,会指定 1 表示阳



                                                                                  ·11·
   14   15   16   17   18   19   20   21   22   23   24