Page 26 - 动物生物技术与繁殖研究
P. 26

动物生物技术与繁殖研究
                Research on Animal Biotechnology and Reproduction


                二、动物疫病防控大数据挖掘技术框架

                动物疫病防控数据库是数据挖掘的基础,基于数据库的分析挖掘流程包括 3
            个步骤,即数据采集、数据集成存储和数据分析应用。

                (一)数据采集
                动物疫病相关数据,包括传染病监测数据(了解疫病流行情况和病毒变异情
            况)、宠物就诊电子病历数据、医学检验数据、医学影像数据和通过现场调查获
            取的健康风险因素数据等,大部分来自各级动物疫病预防控制中心、动物卫生监

            督所、诊断实验室和宠物医院等。另外与动物疫病防控相关的数据还涉及自然环
            境数据、地理信息数据和文献等。该类数据一般借助自然环境、地理信息研究相
            关科研院所或大型网络数据库获取。动物疫病相关的舆情信息往往借助网络爬虫
            获取。网络爬虫是当前获取泛网络信息的主流搜索技术,是按照一定规则,自动

            抓取万维网信息的程序或者脚本,有广度优先和深度优先两种策略。借助面向动
            物疫病的智能聚焦网络爬虫算法,有选择地搜索网络,定向抓取与动物疫病时空
            信息相关的网页资源,可为动物疫病防控提供切实可用的信息。
                (二)数据集成存储

                数据集成是将多个数据源中的数据结合起来,存放到一致的数据存储(如数
            据仓库)中的过程。通过清洗、集成、转换和消减等预处理技术,可以提高数据
            质量。数据集成是将多模式的数据源组合在一起,为下一步数据挖掘分析做准备。
            在后续挖掘分析中,需要确定挖掘任务,制定挖掘计划,提取数据库中的相关数

            据子集,并将数据变换成适合挖掘的形式。
                (三)数据挖掘分析
                数据挖掘的目的是从数据中提取有用、信息,面向用户提供目标导向知识或
            分析服务。大数据属于全样本和非实验观察数据,与传统抽样统计方式有所不同,

            大数据可能不满足正态性、独立性和方差齐性的模型分析前提条件,存在高噪声
            现象,因此大数据挖掘是对统计分析方法的延伸和扩展,其分析产生的结果可能
            比“统计显著”更接近真实意义的“显著”。大数据分析技术没有固定的算法和
            模型,必须结合具体业务和需求,有针对性地研发适合业务本身的算法和模型。

            常见的大数据挖掘方法主要有神经网络分析、关联分析、决策树、最近邻分类器、
            贝叶斯分类器、随机森林、传统的统计分析方法和可视化分析等。数据可视化分




            12
   21   22   23   24   25   26   27   28   29   30   31