《统计学软件及应用》上机试验报告
试验名称:实验11 因素方差分析模型
 
                                                  成绩:
姓名
专业
学号
试验日期
试验地点
试验目的与要求
一、实验目的
掌握单因素方差分析的使用
二、实验要求
1. 重点掌握:单因素方差分析统计原理
2. 掌握: 单因素方差分析模型表达式入门
3. 熟悉:两两比较的方法(LSD法、Scheffe法、S-N-K法)
试验原理
第十节 单因素方差分析
10.1 统计原理
用于完全随机设计的多个样本均数间的比较,其统计推断是推断各样本所代表的各总体均数是否相等。完全随机设计(COMPLETELY RANDOM DESIGN)不考虑个体差异的影响, 仅涉及一个处理因素,但可以有两个或多个水平,所以亦称单因素实验设计。在实验研究中按随机化原则将受试对象随机分配到一个处理
因素的多个水平中去,然后观察各组的试验效应;在观察研究(调查)中按某个研究因素的不同水平分组,比较该因素的效应。
10.2 模型表达式入门
假设现在希望描述某个人的月收入状况,那么根据统计学知识,均数能够表示集中趋势,标准差能够表示离散趋势,则任何一位受访者i的月收入Xi的表达式应为:
显然,这里的的εi应当服从正态分布,其均数为0,标准差为相应总体标准差。在只有样本信息时,样本均数和标准差就是上述参数的最佳估计值。
现在希望比较三种职业的月收入有无差异,这三类职业分别是医生、律师和软件工程师。如果我们仍然希望能够对每一个个体的数据加以表达,那么应为
将上面三个式子可以合并如下:
为了进一步分析的方便,一般都会寻一个均数的参照水平,将其余组的平均水平与之相比表达为:
显然,这样的组合会有许多种,因此模型在实际分析的时候往往会加上一些限制条件,比如假设参照水平是最后一个组的均数,这被称为拟合的约束条件。
如果职业1和职业2的平均收入不相等,则应当有α1≠α2,H0: α1=α2
如果三种职业的平均收入无差异,则应当有α1=α2=α3=0,此时如果采用适当的参照水平,就有H0:αi=0,H1:至少有一个αi≠0。
10.3 分析实例
现希望比较四种胶合板的耐磨性,分别从这四个品牌的胶合板中抽取了5个样品,在相同的转速下磨损相同时间,测量其被磨损的深度(mm),现希望对此进行分析,数据见veneer.sav 。
(1)选择 分析——一般线性模型——单变量;
(2)将“磨损深度”选为因变量,考虑到磨损深度与地铁品牌有关,故将“地铁品牌”选为固定因子;
(3)得到如下两张表格。
第一张表格说明品牌有ABCD四个,每个品牌有五个样本。
a. R = .822(调整后 R = .788
修正模型与总模型H0假设一致,认为四个品牌磨损深度一致,P值小于0.001,拒绝接受四个品牌耐磨性一样的结论,认为四个品牌耐磨性是不一样的,但是现在不知道哪种和哪种的不一样;截距的H0假设为地板是无法被磨合坏的,磨损深度为0,这是不符合事实的,因此拒绝此假设;brand的假设与总模型的假设是一样的,在单因素分析中此行结果与第一行结果一致。
因为到现在为止只知道四个品牌磨损深度不一致,那么究竟是哪种品牌不一样呢?这个需要进行两两比较。
10.4 两两比较方法
• LSD法:实际上就是t检验的变形,只是在变异和自由度的计算上利用了整个样本信息,因此仍然存在放大一类错误的问题
• Scheffe法:当各组人数不相等,或者想进行复杂的比较时,用此法较为稳妥。但它相对比较保守
• S-N-K法:是运用最广泛的一种两两比较方法。它采用Student Range 分布进行所有各组均值间的配对比较。该方法保证在H0真正成立时总的α水准等于实际设定值,即控制了一类错误
方差不齐时的两两比较方法:一般认为是Games-Howell法稍好一些,但最好直接使用非参数检验方法
(1)重新打开对话框,选择——事后比较,将brand的选入检验项;
(2)选择LSD法,依次确定;
LSD法:四个大格分别以ABCD为参照,可以看出D品牌与所有的品牌都有差异,A品牌与B品牌是没有差异的;
(3)选择S-N-K法:依次确定;
S-N-K法:按均数的高低从低到高排列,在同一个子集中出现的是没有差别的,在这里AB品牌是没有差异的,P值为0.926,C是最不耐磨的,D是最耐磨的。
10.5 适用条件
不同水平下,各总体均值服从方差相同的正态分布。所以方差分析就是研究不同水平下各个总体的均值是否有显著的差异。
(1)检验方差齐性:重新打开对话框——选项——方差齐性检验——继续——确定;
(2)如果方差不齐,选择比较平均值——单因素检验;将磨损深度选入因变量,由于因子只能是数值型变量,故要将地铁品牌转换为数值型变量(转换——自动重新编码),然后将此选入因子列表;确定。
课堂试验内容
五、实验步骤(请截图展示详细的操作过程)
PPT例题:现希望研究四种广告的宣传效果有无差异,具体的广告类型为:店内展示、发放传单、推销员展示、广播广告。在本地区共有几百个销售网点可供选择,出于经费方面的考虑,在其中随机选择了18个网点进入研究,各网点均在规定长度的时间段内使用某种广告宣传方式,并记录该时间段内的具体销售额。为减小误差,每种广告方式在每个网点均重复测量两次。数据见ranavona.sav。
主体间因子
值标签
个案数
广告类型
1.00
店内展示
36
2.00
发放传单
36
3.00
推销员展示
36
4.00
广播广告
36
销售点
1.00
8
2.00
8
3.00
8
4.00
8
5.00
8
6.00
8
7.00
8
8.00
8
9.00
8
10.00
8
11.00
8
12.00
8
13.00
8
14.00
8
15.00
8
16.00
8
17.00
8
18.00
8
误差方差的莱文等同性检验a
因变量销售额 
F
自由度 1
自由度 2
显著性
1.195
71
72
.226
检验“各个组中的因变量误差方差相等”这一原假设。
a. 设计:截距 + adstype + area
主体间效应检验
因变量销售额 
III 类平方和
自由度
均方
F
显著性
截距
假设
642936.694
1
642936.694
1179.661
.000
误差
9265.306
17
545.018a
adstype
假设
5866.083
3
1955.361
21.789
.000
误差
11037.917
123
89.739b
area
假设
9265.306
17
545.018
6.073
.000
误差
11037.917
123
89.739b
a.  MS(area)
b.  MS(误差)
期望均方a,b
方差成分
变量 (area)
变量(误差)
二次项
截距
8.000
1.000
截距, adstype
adstype
.000
1.000
adstype
area
8.000
1.000
误差
.000
1.000
a. 对于每个源,期望均方 = 单元格中的系数总和 * 方差成分 + “二次项”单元格中涉及效应的二次项。
b. 期望均方基于 III 类平方和。
估算值
因变量销售额 
广告类型
平均值
标准误差
95% 置信区间
下限
上限
店内展示
56.556
1.579
53.430
59.681
发放传单
73.222
1.579
70.097
76.347
推销员展示
66.611
1.579
63.486
69.736
广播广告
70.889
1.579
67.764
74.014
成对比较
因变量销售额 
(I) 广告类型
(J) 广告类型
平均值差值 (I-J)
标准误差
显著性b
差值的 95% 置信区间b
下限
上限
店内展示
发放传单
-16.667*
2.233
.000
-22.654
-10.679
推销员展示
-10.056*
2.233
.000
-16.043
-4.068
广播广告
-14.333*
2.233
.000
-20.321
-8.346
发放传单
店内展示
16.667*
2.233
.000
10.679
22.654
推销员展示
6.611*
2.233
.022
.624
12.599
广播广告
2.333
2.233
1.000
-3.654
8.321
推销员展示
店内展示
10.056*
2.233
.000
4.068
16.043
发放传单
-6.611*
2.233
.022
-12.599
-.624
广播广告
-4.278
2.233
.346
-10.265
1.710
广播广告
店内展示
14.333*
2.233
.000
8.346
20.321
发放传单
-2.333
2.233
1.000
-8.321
3.654
推销员展示
4.278
2.233
.346
-1.710
10.265
基于估算边际平均值
*. 平均值差值的显著性水平为 .05
b. 多重比较调节:邦弗伦尼法。
单变量检验
因变量销售额 
平方和
自由度
均方
F
显著性
对比
5866.083
3
1955.361
21.789
.000
误差
11037.917
123
89.739
F 检验 广告类型 的效应。此检验基于估算边际平均值之间的线性无关成对比较。
销售额
S-N-Ka,b 
广告类型
个案数
子集
1
2
3
店内展示
36
56.5556
推销员展示
36
66.6111
广播广告
36
70.8889
70.8889
发放传单
36
73.2222
显著性
1.000
.058
.298
将显示齐性子集中各个组的平均值。
基于实测平均值。
误差项是均方(误差)= 89.739
a. 使用调和平均值样本大小 = 36.000
b. Alpha = .05
解读:按照销售额对广告类型进行排序,店内展示<推销员展示<广播广告<发放传单。S-N-K法将统计量分为三子集,其中推销员展示和广播广告为同一子集,即认为推销员展示与广播广告之间是没有统计学差异的,推销员展示与广播广告的相关性为0.058。广播广告与发放传单也为同一子集,即认为广播广告与发放传单之间是没有统计学差异的,二者之间的相关性为0.298.综合分析,可得到结论,发放传单的销售额最高,其次是广播广告和推销员展示,运用店内展示所获得的销售额最低。
结论:依据销售额的平均值,可得到结论,发放传单的宣传效果最好,其次是广播广告和推销员展示,店内展示的宣传效果最差。
例2 如何按随机区组设计,分配5个区组的15只小白鼠接受甲、已、丙三种抗癌药物?
方法:先将小白鼠的体重从轻到重编号,体重相近的3只配成一区组,然后在随机数字表中任选一行一列开始的2位数作为一个随机数,在每个区组内将随机数按大小排序,各区组中内序号为1的接受甲药,序号为2的接受已药,序号为3的接受丙药。
某研究者采用随机区组设计进行实验,比较三种抗癌药物对小白鼠肉瘤的抑制效果,以肉瘤的重量为指标,问三种不同药物的抑瘤效果有无差别?
主体间因子
个案数
药品类型
A
5
B
5
C
5
误差方差的莱文等同性检验a
因变量测量值 
F
自由度 1
自由度 2
显著性
1.293
2
12
.310
检验“各个组中的因变量误差方差相等”这一原假设。
a. 设计:截距 + 药品类型
主体间效应检验
因变量测量值 
III 类平方和
自由度
均方
F
显著性
修正模型
.228a
2
.114
4.489
.035
截距
3.092
1
3.092
121.738
.000
药品类型
.228
2
.114
4.489
.035
误差
.305
12
.025
总计
3.625
15
修正后总计
.533
14
a. R = .428(调整后 R = .333
药品类型
因变量测量值 
药品类型
平均值
标准误差
95% 置信区间
下限
上限
A
.614
.071
.459
.769
B
.434
.071
.279
.589
C
.314
.071
.159
.469
测量值
药品类型
个案数
子集
1
2
S-N-Ka,b
C
5
.3140
B
5
.4340
.4340
A
5
.6140
显著性
.257
.099
图基 HSDa,b
C
5
.3140
B
5
.4340
.4340
A
5
.6140
显著性
.481
.216
雪费a,b
C
5
.3140
B
5
.4340
.4340
A
5
.6140
显著性
.512
.243
将显示齐性子集中各个组的平均值。
基于实测平均值。
误差项是均方(误差)= .025
a. 使用调和平均值样本大小 = 5.000
b. Alpha = .05
解读:按照肉瘤测量值大小,C<B<A。S-N-K法将统计量分为两子集,CB、ABC药品与B药品的相关性为0.257。A药品与B药品的相关性为0.099.图基HSD法将统计量分为两子集,CB、BA, C药品与B药品的相关性为0.481,A药品与B药品的相关性为0.216.雪费法将统计量分为两子集,C药品与B药品的相关性为0.512,A药品与B药品的相关性为0.243.综合三种方法可得到结论,C药品抑制效果最好,其次是B药品,A药品的抑制效果最差。
结论:依据肉瘤测量值的平均值,ABC三种药品之间有显著性差别。可以看出C药品的抑制效果最好,B药品的抑制效果其次,A查成绩app药品的抑制效果最差。
课堂试验结论