混合线性模型基本介绍

2022/07/16137 作者：佚名

导读：混合线性模型是20世纪80年代初针对统计资料的非独立性而发展起来的。由于该模型的理论起源较多，根据所从事的领域、模型用途，又可称为多水平模型(Multilevel，MLM)、随机系数模型(Random Coefficients，RCM)、等级线性模型(Hierarchical Linear，HLM)等。甚至和广义估计方程也有很大的交叉。这种模型充分考虑到数据聚集性的问题，可以在数据存在聚集性的时候

混合线性模型是20世纪80年代初针对统计资料的非独立性而发展起来的。由于该模型的理论起源较多，根据所从事的领域、模型用途，又可称为多水平模型(Multilevel，MLM)、随机系数模型(Random Coefficients，RCM)、等级线性模型(Hierarchical Linear，HLM)等。甚至和广义估计方程也有很大的交叉。这种模型充分考虑到数据聚集性的问题，可以在数据存在聚集性的时候对影响因素进行正确的估计和假设检验。不仅如此，它还可以对变异的影响因素加以分析，即哪些因素导致了数据间聚集性的出现，哪些又会导致个体间变异增大。由于该模型成功地解决了长期困扰统计学界的数据聚集性问题，20年来已经得到了飞速的发展，也成为SPSS等权威统计软件的标准统计分析方法之一。

在传统的线性模型(y=xb e)中，除X与Y之间的线性关系外，对反应变量Y还有三个假定：①正态性，即Y来自正态分布总体；②独立性，Y的不同观察值之间的相关系数为零；③方差齐性，各Y值的方差相等。但在实际研究中，经常会遇到一些资料，它们并不能完全满足上述三个条件。例如，当Y为分类反应变量时，如性别分为男、女，婚姻状态为已婚、未婚，学生成绩是及格、不及格等，不能满足条件①。当Y具有群体特性时，如在抽样调查中，被调查者会来自不同的城市、不同的学校，这就形成一个层次结构，高层为城市、中层为学校、低层为学生。显然，同一城市或同一学校的学生各方面的特征应当更加相似。也就是基本的观察单位聚集在更高层次的不同单位中，如同一城市的学生数据具有相关性，不能满足条件②。当自变量X具有随机误差时，这种误差会传递给Y，使得Y不能满足条件③。

如果对不满足正态性、独立性、方差齐性三个适用条件的资料采用传统的分析方法，对所有样本一视同仁，建立回归方程，就会带来如下问题：

(1)参数估计值不再具有最小方差线性无偏性。

(2)会严重低估回归系数的标准误差。

(3)容易导致估计值过高，使常用的检验失效，从而增加统计检验I型错误发生的概率。

如果我们对不同的群体分别建立各自的回归模型，当群体数较少，群体内样本容量较大，传统的分析方法可能是有效的。或者，我们的兴趣仅在于对这些群体分别做一些统计推断时，也适合用这种方法。但是如果我们把这些群体看成是从总体中抽样来的一个样本(例如多阶段抽样和重复测度数据)，并想分析不同群体之间的总体差异，那么简单地使用传统的统计方法是不够的。同样，如果一些群体包含的样本容量较少，对这些群体做出的推断也不可靠。因此，我们需要把这些群体看成是从总体抽样来的样本，并使用样本总体的信息来进行推断。

本文所讨论的混合线性模型既保留了传统线性模型中的正态性假定条件，又对独立性和方差齐性不作要求，从而扩大了传统线性模型的适用范围。

*文章为作者独立观点，不代表造价通立场，除来源是“造价通”外。

关注微信公众号造价通（zjtcn_Largedata），获取建设行业第一手资讯

造价通

造价通

建设工程知识

混合线性模型基本介绍

热门推荐

相关阅读