造价通

反馈
取消

热门搜词

造价通

取消 发送 反馈意见

统计描述一般格式

2022/07/1651 作者:佚名
导读:过程 proc means 选项列表; by 变量名称(分组变量); class 变量名称(分组变量); freq变量名称(数值变量,用以表示相应记录出现的频数) var 变量名称(待分析的数值变量); run; Proc means 语句后的选项主要用来指定所要计算的统计量,默认情况下,Means过程会给出频数、均数、标准差、最大值和最小值等,其余统计量的计算均需要在选项中指定。class语句所

过程

proc means 选项列表;

by 变量名称(分组变量);

class 变量名称(分组变量);

freq变量名称(数值变量,用以表示相应记录出现的频数)

var 变量名称(待分析的数值变量);

run;

Proc means 语句后的选项主要用来指定所要计算的统计量,默认情况下,Means过程会给出频数、均数、标准差、最大值和最小值等,其余统计量的计算均需要在选项中指定。class语句所指定的分组变量用来进行分组,而by语句所指定的分组变量是用来将数据分为若干个更小的样本,以便SAS分别在各小样本内进行各自独立的处理。freq语句和weight语句分别引导代表记录出现频数和权重系数的数值变量。var语句引导所要进行分析的所有变量的列表,SAS将对var语句所引导的所有变量分别进行描述性统计分析。

summary

proc summary 选项列表;

by 变量名称(分组变量);

class 变量名称(分组变量);

freq变量名称(数值变量,用以表示相应记录出现的频数)

output <统计量关键字=自定义变量名>

var 变量名称(待分析的数值变量);

run;

summary过程的格式和means过程可以说是完全相同的,各条语句和选项的含义也是相同的,包括在means过程中未列出的output语句也可以应用于means过程,只是此语句在summary过程应用较多(这样才能将分析结果显示出来),所以才将其列入一般格式中。output语句用来对分析结果输出为数据文件进行控制,其后的选项可有可无,若无则SAS按照默认方式进行。“out=数据集名”用来定义输出数据文件的文件名称,文件名的格式和数据步中数据文件名相同。“统计量关键字=自定义变量名”用来自定义输出数据文件中各种统计量的变量名称,前者是系统定义的(和proc语句后选项中的统计量关键字完全相同),必须正确无误,后者可自行定义。默认状态下输出统计量只有频数、均数、标准差、最大值和最小值,在默认状态不能满足需要时这一选项则是必需的。

univariate

proc univariate 选项列表;

by 变量名称(分组变量);

class 变量名称(分组变量);

freq变量名称(数值变量,用以表示相应记录出现的频数)

weight变量名称(数值变量,用以表示相应记录的权重系数)

histogram 变量名称/选项列表

var 变量名称(待分析的数值变量);

run;

univariate过程和以上两个过程的格式非常相似,相同的语句和选项其含义也相同,所不同的是某些统计量只能在univariate过程中计算(如众数),以及univariate过程中所具有的绘图功能。histogram语句即用来指示SAS对其后所指定的变量绘制直方图,其后的选项用来指示SAS添加不同类型的拟合图形(如正态分布的分布密度曲线)。

tabulate

proc tabulate 选项列表;

by 变量名称(分组变量);

class 变量名称(分组变量);

freq变量名称(数值变量,用以表示相应记录出现的频数)

<<页变量表达式>,<行变量表达式>,<列变量表达式>>

var 变量名称(待分析的数值变量,统计量列入相应的表单元格);

run;

tabulate过程和上述几个过程的格式也基本相似,相同的语句和选项也代表相同的含义。最大的不同也是tabulate过程中最为重要的是table语句,他用来定义表格的具体格式以及表格中所要包括的统计量。

gchart

proc gchart 选项列表;

图形关键词 变量名称/选项列表

run;

此过程格式简单,复杂的地方在于图形关键字(每个图形关键字对应一种图形类型)所引导的语句,这里是控制图形类型及图形要素的地方,涉及到众多的关键字和选项。gchart过程可以使用的图形关键字及其所绘制的图形类型见下表(表2.1)。

表2.1 gchart过程可以使用的图形关键字及其所绘制的图形类型

图形关键字

绘制的图形类型

图形关键字

绘制的图形类型

block

方块图

pie

圆图

hbar

水平的条形图

pie3d

三维圆图

hbar3d

水平的三维条形图

donut

环形图

vbar

竖立的条形图

star

星形图

vbar3d

竖立的三维条形图

图形关键字后的变量名用以指定进行图形描述时的分组变量,可以是数值型的(此时以各组的组中值为分组的标志),也可以是字符型的。其后的选项比较重要的有:

(1)type=统计量关键字,表示以图形对变量(sumvar所指定的变量)的哪一种统计量进行描述,比如频数(freq)、均数(mean)、总计(sum)、频数百分比(pctn)等;

(2)subgroup=变量名(分组变量),指定要进行分组(各组段内再分组)的变量;

(3)sumvar=变量名(数值变量),指定要进行统计计算的变量,也就是“type=统计量关键字”选项中统 计量的计算所依据的变量。其它的选项较少用到或系统默认值即可基本满足要求,这里还是少啰嗦,以后用到再说。

gplot

proc gplot 选项列表;

bubble 散点图表达式

bubble2 散点图表达式

plot散点图表达式

plot2散点图表达式

run;

从gplot过程的一般格式中我们就可看出,此过程只能绘制两种类型的图形,bubble语句指示SAS绘制泡状散点图,plot语句指示SAS绘制点状散点图。bubble2语句和plot2语句指示SAS在同一区域内(bubble2和bubble在同一区域,plot2和plot在同一区域)绘制第二个图形,两者的横坐标相同(同一变量),纵坐标分别位于左右两侧(可以是同一变量,也可以是两个不同的变量)。

散点图表达式的一般形式为:

(1)bubble和bubble2语句:纵坐标变量名*横坐标变量名=泡尺寸变量名(变量值以泡的大小表示),三者均应为数值变量;

(2)plot和plot2语句:纵坐标变量名*横坐标变量名<=n/分类变量名>,此处等号及其后的部分可以省略,此时SAS以默认的散点类型绘制散点图;若等号后为n(n为正整数,是散点类型的编号),SAS则以指定的编号对应的散点类型绘制散点图;若等号后为分类变量名(可为字符型或数值型,为数值型时作为离散型变量处理,每一个值将被当作一个类别),此变量的具体值(或与每个具体值对应的图形)将被作为散点用来绘制散点图。

chart过程和plot过程的一般格式及各选项使用方法分别与gchart过程和gplot过程是基本相同的,不同之处仅在于后两者中涉及到有关三维和图形元素(颜色等)的语句和选项在前两者中是无效的。例如vbar3d语句在chart过程中无效,bubble语句在plot过程中无效。其余的语句和选项使用方法完全相同,所以在掌握了gchart过程和gplot过程后,chart过程和plot过程你会不学自通。

*文章为作者独立观点,不代表造价通立场,除来源是“造价通”外。
关注微信公众号造价通(zjtcn_Largedata),获取建设行业第一手资讯

热门推荐

相关阅读