Page 86 - 大数据技术及安全研究
P. 86

大数据技术及安全研究
                Research on Big Data Technology and Security



                最后,还需要科学处理噪声数据。一般情况下,在测量变量内,会有一定的
            偏差或随机错误出现,可以将其称为噪声,当其偏差较大时,则会出现孤立点。
            在进行偏差处理时,数据平滑技术实际应用最为广泛的处理方法。在开展具体工

            作时,可以采取分箱技术,使存储的各项数据在一些相对分布,利用箱内数据值
            对存储数据进行局部平滑,可以采取按箱边界,按箱中值和按箱平均值三种方式
            进行平滑。与此同时,还可以采取回归方法,科学找出回归函数,进行平滑数据,
            在具体实现线性回归时,需要根据两个变量找出最佳直线,确保可以利用一个变

            量对另一个进行预测。一般情况下,多线性回归。同时还可以有效结合人工检查
            和计算机检查,通过利用计算机比对已知正常值和被判定数据,如果差异程度超
            出某个阈值,则需要在一个表内输出,然后通过人工审核进行孤立点的识别。除
            此之外,还需要应用聚类技术,对类似的值进行聚类或组织成群,如果数值处于

            聚类结合之外,都可以将其视为孤立点,如果孤立点为垃圾数据,则需要在数据
            库内进行清除。
                3. 数据集成
                数据集成的本质是数据整合,具体是指集合多个数据,对其进行统一管理。

            一般情况下,数据具有较高的特殊性,因此,数据集成难度相对较高,在具体实
            现数据集成时,首先需要进行模式集成,使元数据充分发挥模式识别作用。其次,
            还需要进行冗余数据集成,一般情况下,在进行数据集成时,可能会出现数据冗
            余,例如多次出现同一属性,而对于冗余情况,可以对其相关性进行有效的分析

            检测,删除掉其中的无用数据,只需要保留有效数据。最后还需要对数据值冲突
            进行有效的检测和处理,在进行数据集成时,相关人员可以针对实际需求筛选各
            项数据,并对其有价值的数据进行保留,同时还需要整合类型不同的数据,为数
            据预处理创造良好的条件。与此同时,在进行数据预处理时,还需要锁定目标,

            明确需要进行处理的具体范围,确保能够更为精确地消除无用数据,进而实现资
            源利用率的进一步提升。与此同时,数据集成技术的合理应用还可以重新排列有
            价值的数据,保证集成文件具有更高的有效性。
                4. 数据变换

                数据转换的主要目的在于更为高效的实施数据挖掘,不仅能够提升挖掘数据,
            还可以对其挖掘质量进行更为有效地保障。通常情况下,在具体进行数据转换时,
            语言修改,平滑聚集,数据概化是其应用最为普遍的三种方式,对该方式进行合



            ·78·
   81   82   83   84   85   86   87   88   89   90   91