小编曾经问过很多人这样一个问题,如果对变量进行woe化之后进入逻辑回归模型,但是估计参数会符号不一致,这是什么原因造成的。其实这是因为自变量之间不独立,具有线性相关造成的,简而言之,就是该模型具有多重共线性。
小编上篇文章介绍了 树模型的多重共线性问题 ,对于树模型这类非参模型,并不需要考虑多重共线性问题,而对于线性回归这类模型就需要考虑多重共线性问题了。
那今天小编主要介绍一下多重共线性的解决方法:
1、相关矩阵、方差膨胀因子;
2、L1、L2正则化;
3、变量聚类。
其他还有小波分析、增加样本量等,小波分析小编也不懂,先就不做介绍了。
至于PCA、因子分析等,这里因为主要是评分卡,而其黑箱特性并不适合评分卡,这里也不多介绍了。
一、共线性的诊断
在解释线性回归模型时,我们总是隐含着这样一种假设,即各个解释变量之间不存在很强的依赖关系。如果解释变量之间存在很强的线性相关关系,就认为数据之间存在共线性问题。
共线性会导致回归参数不稳定,即增加或删除一个样本点或特征,回归系数的估计值会发生很大变化。 这是因为某些解释变量之间存在高度相关的线性关系,XTX会接近于奇异矩阵,即使可以计算出其逆矩阵,逆矩阵对角线上的元素也会很大,这就意味着参数估计的标准误差较大,参数估计值的精度较低,这样,数据中的一个微小的变动都会导致回归系数的估计值发生很大变化。
共线性问题并不是模型的设定错误,它是一种数据缺陷,因此不能通过残差分析探测共线性问题。诊断共线性严重程度一般会 使用方差膨胀因子即VIF来判断,一般样本集在10w以上VIF大于10就有严重的共线性问题了,样本集在10w以下,VIF>4也是严重的共线性问题。
在评分卡模型中,小编一般都将VIF的阈值定为1左右,超过2即认为有严重的共线性问题了。
接下来我们来探讨一下为什么VIF越大共线性越严重。
大家都知道 VIF = 1/(1-R^2); 其中R为复相关系数。VIF的平方根大小表示线性回归参数的标准误差会因为共线性而扩大的程度。比如,当VIF= 9 时,则意味着共线性使这个变量的回归系数的标准误扩大了3倍。
诊断共线性的另一个方式是考察解释变量的相关系数矩阵的条件数。k个解释变量的相关系数矩阵有k个特征值,相关矩阵的条件数定义为最大特征值与最小特征值之比的评分根。
如果相关系数矩阵的条件数接近于1,表明变量之间不存在共线性;如果条件数过大,表明模型存在共线性。如果条件数大于15,则表明模型之间存在很强的共线性问题。