Page 109 - 李路论文集

P. 109

25. 数据挖掘技术在市场风险投资的应用

大多数业务数据如销售额、余款、差额等都是连续数据。其数据分为：特征分析，
划分，响应，风险，激活，交叉销售和提升销售，流失，净现值，生命周期价值。
特征分析：可深入地认识客户和潜在客户是在现今市场保持竞争力的关键，

它的好处包括提高定位和产品开发。
划分分析：通常用于根据利润和市场潜力划分客户。
响应模型：是预测谁会对某一产品做出响应或对服务的宣传做出反应，它是
根据相似人群的过去的行为及其逻辑替代。

风险系数：风险系数模型是试图预测一个对象是如期还款与不能如期还款的
可能性。
激活模型是预测潜在客户是否可能成为成熟客户的可能性。
交叉销售与提升销售：交叉销售模型是预测现有客户在同一公司购买不同产

品或服务的可能性或价值；提升销售模型是用来预测客户购买更多产品或服务的
可能性与价值。
流失模型：损失与流失模型是用来预测账号在被激活后减少或停止使用某种
产品或服务的可能性。损失是产品或使用的减少。

净现值：净现值模型是试图预测某种产品在某一预定的时间范围内的总体
利润。
生命周期价值：生命周期价值模型是试图预测客户（个人或集体）在某一预
定时间内的总体利润。计算生命周期模型价值的方法因产品和行业不同而不同。

建模的分析方法分为：
线性回归：简单的线性回归分析是量化两个连续变量之间关系的一种统计技
术；这两个变量分别是依赖变量或预测变量、独立变量或预测变量。这种技术可
以发现一条穿过数据的线上的点，其对应的数据的方差为最小。逻辑回归：逻辑

回归与线性回归很相似。主要区别在于它的依赖变量不是连续的，而是离散的或
是类型变量。神经网络：神经网络与回归分析不同，它不依赖任何概率分布而是
进行模式识别和误差最小化。
遗传算法：与神经网络类似，遗传算法也不依赖概率分布，遗传算法是使用

“适者生存”的算法来计算的，每个步骤使用匹配、突变、克隆来改变模型的数据。
分类树：是连续地划分数据，使依赖变量差别为最大。
选择的数据源包括各种数据类型分为行为数据、心理数据、数据源分为内部

104 105 106 107 108 109 110 111 112 113 114