Page 108 - 李路论文集
P. 108
李路论文集
Collected Papers by Li Lu
25. 数据挖掘技术在市场风险投资的应用
数据挖掘这个术语作为一种数理统计的概念,应用于各行各业;在市场、风
险投资、客户管理中已成为客户生命周期的各个阶段维持竞争力的一种必要的工
具。数据挖掘的形式之数据捕捞,过去被应用于那些没有达到合格标准的产品合
格率的研究标准,如工厂的合格产品的合格率;海关进口产品的合格率。产品合
格率的统计,可利用 T 检测法。T 检测法:离散率 p=(n-N)/N×100%。其中,n
样品平均值,N 表示群体样品的平均值。由于这种形式的数据挖掘确实可以发现
有价值的信息,所以它开始被人们广泛接受。在市场中,如果有哪一种方法可以
发现如何提高利润,那么人们会迅速地接受、信赖它。20 世纪 80—90 年代,另
一种数据挖掘的形式开始流行起来,称作数据建模的数据挖掘形式。数据建模的
数据挖掘技术可以提高获得客户信息的能力,预测市场风险,改进风险投资管理。
数据建模的成功和它所带来的利润为它在其他行业开辟了广泛的应用前景。
数据模型作为数据库技术的应用,其数据分类为定性数据与定量数据。定性
数据是描述特性的数据,如:性别的描述分为:M(男性)和 F(女性)。可用
于划分与分类。定量数据以数字值为特征。定量数据可用于开发预测模型。有四
种类型的定量数据。(1)标称数据:表示类别或属性的数值数据;表示性别的
数字值(1 或 2)就是标称数据值。(2)序数数据:序数数据是表示有相关重要
性的类别的数值数据,可用于给强度和重要性分等级。例如,用 1~5 来表示某公
司的金融风险:1 是无延期付款方式,风险最低;5 表示破产,被认为风险最高。
2~4 分别表示客户先前的不同违规行为。一个潜在客户等级为 5 的客户的风险肯
定比潜在风险等级为 1 的风险大。(3)间隔数据:间隔数据是有相关重要性,
没有 0 的数值数据,对于间隔数据,加和减是有意义的运算。(4)连续数据:
连续数据是开发预测模型中最常用的数据,适用于基本的算术运算,加减乘除;
96