Page 85 - 大数据技术及安全研究
P. 85

第二章  数据的采集与处理



             具体应用时,普遍是对数据中所体现的某个主题具有较高兴趣,通过科学应用数
             据挖掘工具进行相关操作能够发现该主题所蕴含的规律,进而对其行业行为进行
             科学指导。而数据库内存在大量数据,具有相对广泛的覆盖范围,部分数据表格

             内存在部分完全没有联系的数据。如果不能简单筛选数据库,则会使其挖掘过程
             存在大量无用数据,进而造成资源浪费。
                 在具体应用相关数据库时,操作人员对其相关数据具有更为全面的了解,因
             此在进行待挖掘数据的选择时,该部分人员可以使其相关数据发挥最大的作用。

             但是由于数据量的庞大,完全采取人工作业,则很难满足现实需求,需要进行人
             机结合。人为选择概念层次较高的数据类别,而通过利用提前编制的程序进行数
             据表格的科学选择。如果是基于数据仓库进行数据挖掘,则可以使其操作更为便
             利,如果没有进行数据仓库的建立,在相关人员在选取数据表示,可能会出现实

             体识别问题,在不同数据表内,同一实体的表示为不同属性。此时,通过原数据
             查询可以对该问题进行有效解决,在保障数据表具有相同属性时,能够有效解决
             实体识别问题。
                 2. 数据清理

                 在进行数据预处理时,数据清理是其花费时间最长的一项工作,能够确保在
             学习中有效减少矛盾情况。数据清理主要是对缺失数据,错误数据和噪声数据进
             行科学处理,对其孤立点进行识别与删除。
                 首先,需要处理缺失数据,如果在一个元组内,有多个属性值,同时出现空

             缺,可以将其忽略,直接在数据表格中进行删除。而当元组内属性值缺失较少时,
             则需要填补空缺值,一般采取全局常量,人工填补等方式进行填补,同时,还可
             以基于该属性应用判定树等推导工具,通过分析其他数值获取可能性最高的填充
             值。如果空缺值属于不同属性,需要采取不同处理方法,一般情况下,利用推导

             工具分析获得的相关数据具有更大的使用价值。
                 其次,需要科学处理错误数据,首先需要对元组进行科学分辨,决定是忽略
             元组还是更改数据。一般情况下,在进行数据字典的定义时,对数据具有明确的
             规定,在数据库内核数据相关的实体都具有一定的约束条件,例如,学生考试成

             绩应该为 0 到 100 之间的一个实数,如果采取其他表示方式,在对其进行转换时,
             也需要满足该项要求,该条件能够有效约束学生成绩属性,如果该属性下的值超
             出该范围,则表明数据为错误数据。



                                                                                  ·77·
   80   81   82   83   84   85   86   87   88   89   90