在SAS系统中,除了可以使用MEANS过程执行描述性统计分析外,也可用UNIVARIATE过程进行描述性统计分析。UNIVARIATE过程的基本功能如下:
描述性统计分析,涉及偏度、峰度、分位数的计算,频率表的绘制和变量极端值分析等。
常用统计图形的绘制,包括直方图、概率分布累积图和Q-Q图等。
数据的正态性检验。
在SAS系统中,UNIVARIATE单变量过程的基本格式为:
PROC UNIVARIATE [选项] ;
BY变量列表;
CDFPLOT变量列表 [选项];
CLASS 变量列表;
FREQ 变量;
HISTOGRAM 变量列表 [选项];
ID 变量;
OUTPUT [out=输出数据集名] [统计量关键字=变量名];
QQPLOT 变量列表 [选项];
VAR 变量列表;
WEIGHT 变量;
其中:
PROC语句用于指定使用UNIVARIATE过程进行描述性统计分析,同时,在该语句后常用的选项介绍如下:
DATA=数据集名:指定需要分析的数据集。
PLOT或PLOTS:绘制茎叶图、盒式图和正态概率图。
FREQ:生成频数分布表。
NORMAL:对输入变量进行正态性检验。
BY语句用于指定分组的变量,在组内对数据进行描述性分析。
CDFPLOT语句用于控制概率分布累积图的绘制。
CLASS语句的用法基本同BY语句,用于指定分组的变量。
FREQ语句用于指定代表观测频数的变量。
HISTOGRAM语句用于控制直方图的绘制。
ID语句用于指定数据集中识别观测的变量。
OUTPUT语句用于建立一个新的数据表,存放分析的结果。
QQPLOT语句用于控制Q-Q图的绘制。
VAR语句用于指定UNIVARIATE过程分析的变量。
WEIGHT语句用于指定代表观测权重的变量。
下面利用UNIVARIATE过程对本章例4.1中表4.2的各型号汽油污染程度的指标数据,进行描述性统计分析,注意体会SAS系统中这两种过程在描述性统计分析上的差异。
【例4.2】 UNIVARIATE过程的SAS实现。
下面的程序利用UNIVARIATE过程实现描述性统计分析。
proc univariatedata=ww.test4_1;
by type;
var sulfur arene benzene pb;
run;
执行上述程序,UNIVARIATE过程会将所有的描述性统计分析的结果输出到结果窗口。本例中按照汽油型号分组,对每种型号的汽油的各变量都进行了描述性统计分析,结果包括矩、位置和变异性的基本测度、位置检验、分位数和极端观测,其结果的目录如图4.3所示。
同时,以A汽油的含硫量的结果为例展示UNIVARIATE过程的基本的描述性统计分析结果,如图4.4所示。
图4.3 UNIVARIATE过程结果目录树
图4.4 UNIVARIATE过程的描述性统计分析结果