Page 84 - 大数据技术及安全研究
P. 84
大数据技术及安全研究
Research on Big Data Technology and Security
预处理方法提升和扩展。数据预处理是数据挖掘基础保证,通过高质量数据预处
理工作,将其中多余数据、错误数据等去除,及时填充缺失数据,实现必需数据
集成汇总,保证数据质量可靠性,为决策提供完整、高效数据。
二、数据挖掘中的数据预处理
在进行数据挖掘时,科学应用数据预处理具有重要的价值,能够有效提升数
据挖掘效果,能够使其相关数据的作用实现最大化,确保各行各业能够更为高效
地应用大数据技术,为我国现代科技发展创造良好条件。
(一)数据挖掘中进行数据预处理的重要性
在数据挖掘中,数据预处理是非常重要的一项工作,如果想要从数据内核中
进行相关知识的有效挖掘,必须为其提供具有更高简洁性和准确性的数据,但是
在具体应用相关系统时,原始数据具有一定的杂乱性,重复性和不完整性。
其中,杂乱性具体是指从多种文件系统和数据库等应用系统内收集原始数据
时,不同应用系统的定义和标准存在不同程度的差异,使其数据结构的差异性相
对明显,既然使其数据缺乏一致性,无法实现有效共享,不能直接利用。而重复
性咋?具体是指在数据库内,一个客观事物可能存在两个及其以上的物理描述,
因为实际使用应用系统中出现的问题,大部分应用系统都存在信息冗余和数据重
复现象。不完整性则具体是指系统设计存在问题,或相关人员在实际使用系统是
由于人为失误导致出现的问题,使其数据记录可能出现数据属性不确定或丢失的
情况,同时很可能由于数据缺乏,导致数据不完整,在系统内出现一定的模糊信
息,甚至部分信息还存在随机性质。对于数据挖掘系统而言,预处理模块是其不
可或缺的重要构成,可以对其原始数据进行重新组织和整理,将其中和挖掘目标
没有联系的属性直接摒弃,确保能够为数据挖掘提供更为详细的数据,进而使其
挖掘内核中所具有的数据处理量得到有效减少,实现挖掘效率的进一步提升,使
其相关知识具有更高的准确度。
(二)数据预处理策略
1. 数据选取
数据选取具体是指根据用户需求在原始数据库内选出所需的数据表项,确保
和知识发现任务密切相关,用户在进行具体选择时,可以利用所选记录表查看记
录数据,然后对其进行更为精确的选择判断。一般情况下,用户在对数据库进行
·76·