Page 26 - 动物生物技术与繁殖研究
P. 26
动物生物技术与繁殖研究
Research on Animal Biotechnology and Reproduction
二、动物疫病防控大数据挖掘技术框架
动物疫病防控数据库是数据挖掘的基础,基于数据库的分析挖掘流程包括 3
个步骤,即数据采集、数据集成存储和数据分析应用。
(一)数据采集
动物疫病相关数据,包括传染病监测数据(了解疫病流行情况和病毒变异情
况)、宠物就诊电子病历数据、医学检验数据、医学影像数据和通过现场调查获
取的健康风险因素数据等,大部分来自各级动物疫病预防控制中心、动物卫生监
督所、诊断实验室和宠物医院等。另外与动物疫病防控相关的数据还涉及自然环
境数据、地理信息数据和文献等。该类数据一般借助自然环境、地理信息研究相
关科研院所或大型网络数据库获取。动物疫病相关的舆情信息往往借助网络爬虫
获取。网络爬虫是当前获取泛网络信息的主流搜索技术,是按照一定规则,自动
抓取万维网信息的程序或者脚本,有广度优先和深度优先两种策略。借助面向动
物疫病的智能聚焦网络爬虫算法,有选择地搜索网络,定向抓取与动物疫病时空
信息相关的网页资源,可为动物疫病防控提供切实可用的信息。
(二)数据集成存储
数据集成是将多个数据源中的数据结合起来,存放到一致的数据存储(如数
据仓库)中的过程。通过清洗、集成、转换和消减等预处理技术,可以提高数据
质量。数据集成是将多模式的数据源组合在一起,为下一步数据挖掘分析做准备。
在后续挖掘分析中,需要确定挖掘任务,制定挖掘计划,提取数据库中的相关数
据子集,并将数据变换成适合挖掘的形式。
(三)数据挖掘分析
数据挖掘的目的是从数据中提取有用、信息,面向用户提供目标导向知识或
分析服务。大数据属于全样本和非实验观察数据,与传统抽样统计方式有所不同,
大数据可能不满足正态性、独立性和方差齐性的模型分析前提条件,存在高噪声
现象,因此大数据挖掘是对统计分析方法的延伸和扩展,其分析产生的结果可能
比“统计显著”更接近真实意义的“显著”。大数据分析技术没有固定的算法和
模型,必须结合具体业务和需求,有针对性地研发适合业务本身的算法和模型。
常见的大数据挖掘方法主要有神经网络分析、关联分析、决策树、最近邻分类器、
贝叶斯分类器、随机森林、传统的统计分析方法和可视化分析等。数据可视化分
12