最直接也是最简单的方法,即最大值-最小值(也就是极差)来评价一组数据的离散度。这一方法在日常生活中最为常见,比如比赛中去掉最高最低分就是极差的具体应用。
(Moving Range)
两个或多个连续样本值中最大值与最小值之差,这种差是按这样方式计算的:每当得到一个额外的数据点时,就在样本中加上这个新的点,同时删除其中时间上“最老的”点,然后计算与这点有关的极差,因此每个极差的计算至少与前一个极差的计算共用一个点的值。一般说来,移动极差用于单值控制图,并且通常用两点(连续的点)来计算移动极差。
由于误差的不可控性,因此只由两个数据来评判一组数据是不科学的。所以人们在要求更高的领域不使用极差来评判。其实,离散度就是数据偏离平均值的程度。因此将数据与均值之差(我们叫它离均差)加起来就能反映出一个准确的离散程度。和越大离散度也就越大。
但是由于偶然误差是成正态分布的,离均差有正有负,对于大样本离均差的代数和为零的。为了避免正负问题,在数学有上有两种方法:一种是取绝对值,也就是常说的离均差绝对值之和。而为了避免符号问题,数学上最常用的是另一种方法--平方,这样就都成了非负数。因此,离均差的平方和成了评价离散度一个指标。
由于离均差的平方和与样本个数有关,只能反应相同样本的离散度,而实际工作中做比较很难做到相同的样本,因此为了消除样本个数的影响,增加可比性,将标准差求平均值,这就是我们所说的方差成了评价离散度的较好指标。
我们知道,样本量越大越能反映真实的情况,而算数均值却完全忽略了这个问题,对此统计学上早有考虑,在统计学中样本的均差多是除以自由度(n-1),它是意思是样本能自由选择的程度。当选到只剩一个时,它不可能再有自由了,所以自由度是n-1。
① 离散程度的通俗解释——波动大小,
② 为什么要研究一组数据的离散程度。
全面认识一组数据的两个特征:
探索平均数的代表性。
实际问题的需要。
③探索如何表示一组数据的离散程度——方差的形
成过程。
首先,极差——比较粗略;
其次,平均差,比极差更全面,不常用;
再次,选择方差,但数值的单位与原数据单位不
一致。
最后,常用标准差。 δ = S2
④统计含义的解释——方差全面地平均地反映,
标准差全面地直接地反映。
偏离平均数——指与平均数的离差。
平均的——指离差的平均数的平均值。
全面的——指考虑了每个数据的离差。
直接的——指数值单位与原数据单位一致。
⑤应用条件——平均数相同。特殊情况,平均数相
差很小、近似相等时也可以用,不
受两组数据个数的差异限制。
⑥实际作用:
1°直接比较:
同一时间事物或现象的整齐性、均匀性、一致性的差异;
不同时间过程的稳定性、均衡性、一致性的差异;
2°比较平均数的代表性:
3°与平均数配合作统计分析:如:Vδ =
4°样本估计总体。样本比较估计总体的差异,用样本
标准差,估计总体标准差。
*样本估计总体的方法有两个:点估计和区间估计。
只要求会点估计,即直接用样本的特征数作为总体
相应参数的估计值。
由于方差是数据的平方,与检测值本身相差太大,人们难以直观的衡量,所以常用方差开根号换算回来这就是我们要说的标准差。