造价通

反馈
取消

热门搜词

造价通

取消 发送 反馈意见

比例抽样基于放回比例抽样的再抽样方法

2022/07/16153 作者:佚名
导读:数据挖掘本质上作为一类数据分析方法,和统计学有着共同的目标:发现数据中的结构川。因而,基于数据挖掘的视角,对抽样调查数据采用一些数据挖掘的方法进行分析,是可行的。然而,将数据挖掘方法应用于抽样调查数据,有一个问题通常无法回避,那就是样本数据所对应的权数如何处理。 一般而言,数据挖掘问题常常针对总体数据,例如关于一个公司的所有职工数据,银行信用卡中心数据库的所有客户数据,一家大型超市一个季度以来的所

数据挖掘本质上作为一类数据分析方法,和统计学有着共同的目标:发现数据中的结构川。因而,基于数据挖掘的视角,对抽样调查数据采用一些数据挖掘的方法进行分析,是可行的。然而,将数据挖掘方法应用于抽样调查数据,有一个问题通常无法回避,那就是样本数据所对应的权数如何处理。

一般而言,数据挖掘问题常常针对总体数据,例如关于一个公司的所有职工数据,银行信用卡中心数据库的所有客户数据,一家大型超市一个季度以来的所有顾客购买记录等。在这种情形下,每一条记录都是总体数据中的一个单元,得到的观察值可以直接计算总体参数,无需进行统计推断。

但数据挖掘方法也越来越多地应用于抽样调查数据。与总体数据不同的是,抽样调查当中,每个样本单元的观测值都是有权数的,权数表示的是每个样本单元代表了总体中一定数目的单元,所以整个样本就“代表”了整个总体。样本单元的权数取决于抽样设计。

因此,谢佳斌等提出采用放回的、与样本单元权数大小成比例的再抽样方法,简称PewwR再抽样,来实现“事后‘自加权设计。实现“事后”自加权设计后的子样本可忽略掉样本权数,直接采用常规的图示方法和数据挖掘算法进行分析。随后,基于2007中国公民科学家质调查贵州省数据,通过模拟分析讨论了PPWWR再抽样子样本的样本且问题,发现max( n,5% N)(n为样本大小,N为总体单元的个数)是一个比较合适的样本量。这一结论可能为其他大型复杂抽样调查数据的数据挖掘实施问题提供借鉴。

*文章为作者独立观点,不代表造价通立场,除来源是“造价通”外。
关注微信公众号造价通(zjtcn_Largedata),获取建设行业第一手资讯

热门推荐

相关阅读