您的当前位置：首页正文

1015 12and13假设检验与t检验

来源：六九路网

第12章分布类型的检验

本章将涉及统计学分析中最为主要的理论之一：假设检验，它是分析统计数据、构建统计模型进行决策支持的基石。

12.1 假设检验的基本思想

12.1.1问题的提出

12.1.2假设检验的基本步骤 1. 小概率事件

在讨论假设检验的基本思想之前，首先需要明确小概率事件这一概念。衡量一个事件发生与否可能性的标准是概率大小，通常概率大的事件容易发生，概率小的事件不容易发生。习惯上将发生概率很小，如P<=0.05的事件称为小概率事件，表示在一次实验或观察中该事件发生的可能性很小，因此，如果只进行一次试验，可以视为不会发生。

这里需要澄清一个事实：注意上面的表述是“一次试验中小概率事件不应当发生”，这并不表示小概率事件不可能发生，也就是说，这里有一个前提：只进行一次试验，结果应当不会是小概率事件。如果进行多次（可能无穷多）试验，那么小概率事件就肯定会发生，或者说，小概率事件在一次试验中不大可能发生，然而在大量试验中几乎是必然发生的。

2.小概率反证法

假设检验的基本思想是统计学的“小概率反证法”原理：对于一个小概率事件而言，其对立面发生的可能性显然要大大高于这一小概率事件，可以认为，小概率事件在一次试验中不应当发生。因此可以首先假定需要考察的假设是成立的，然后基于此进行推导，来计算一下在该假设所代表的总体中进行抽样研究得到当前样本（及更极端样本）的概率是多少。如果结果显示这是一个小概率事件，则意味着如果假设是成立的，则在一次抽样研究中竟然就发生了小概率事件！这显然违反了小概率原理，因此可以按照反证法的思路推翻所给出的假设，认为它们实际上是不成立的，这就是小概率反证法原理。

假设检验的基本逻辑：先成立一个与H1相对立的H0。各种假设检验方法都是根据H0来成立抽样分布，然后求出H0是正确的可能性。如果我们能证明H0是对的可能性很小，那么就可以据此排除抽样误差的说法，认为H1可能是对的。简言之，假设检验的基本原则是直接检验H0 因而间接地检验H1，目的是排除抽样误差的可能性。

否定域，就是抽样分布内一端或两端的小区域，如果样本的统计值落在此区域范围内，则否定虚无假设。

显著度（level of significance）表示否定域在整个抽样分布中所占的比例，也即表示样本的统计值落在否定域内的机会。

显著度愈小，便愈难否定虚无假设H0，也即愈难证明研究假设H1是对的。

3.假设检验的标准步骤

12.1.3 假设检验的两类错误（参见李沛良《社会研究的统计应用》p157）第一类错误：弃真错误，Ⅰ型错误（α）第二类错误：存伪错误，II型错误（β）

12.1.4假设检验中的其他问题 --原假设-备择假设 --单侧检验-双侧检验

--参数检验-非参数检验通常参数检验是在已经知道了相关数据的分布形式，只是不了解相应参数取值时采用的检验形式。而如果对相关数据的分布形式也并不了解，就必须先确定数据的分布形式，这样才可以进一步对分布做出更为具体的说明以及解释。

第13章连续变量的统计推断（一）—— t 检验 13.1 t 检验概述

13.1.1 t 检验的基本原理

在针对连续变量的统计推断方法中，最常用的有t 检验和方差分析（Analysis of Variance, ANOVA）去年考试题两种，其中t检验是最基本的检验方法，也是统计学中跨里程碑的一个杰作。它最初是由W.S.Gosset 在1908年以笔名“Student”发表的一篇关于t分布的论文中提出的，并从此开始了利用小样本计量资料进行统计推断的先河，迎来了统计学的新纪元。

1.均数比较的一个实例

这里用一个典型的均数比较实例来引入t检验。例13.1 在CCSS项目中，以项目启动时的2007年4月的数据作为指数基线，基线期指数值为100，随后各期所计算出的指数则代表当期数值相对于“基线”调查数值的变动比例。CCSS中提供了北京、上海、广州三个一线城市的调查数据，现希望考察2007年4月北京、上海、广州三个一线城市的消费者信心指数值是否和基准值100存在差异。

如果从统计学的角度来看，这是一个典型的对总体均数进行假设检验的问题，在这种问题中，研究者所关心的变量为定距变量，因此可以使用均数来代表该定距变量的集中趋势。研究者对该样本所在总体的均数有一个事先的假设（本例中为指数100），而研究目的就是推断：实际上该样本所在总体的均数是否等于这一已知总体均数。根据假设检验知识可以给出两种

可能的假设如下：

H0 :u=u0，样本均数与假定总体均数的差异完全是由抽样误差造成的。

H1: u≠u0，样本均数与假定总体均数的差异除了由抽样误差造成外，确实也反映了实际的总体均数与假定的总体均数间的差异。

那么，究竟哪一种假设才是正确的呢？根据假设检验的步骤，可以首先假定H0是成立的。那么，该样本就真的是从均数为100的总体中随机抽样而来的。但是，如果考察该样本的实际数据，则会发现，2007年4月北京、上海、广州三地的总样本均数不等于100，而是98.34。

描述统计量（月份=200704）总指数有效的 N （列表状态） N 300 300 极小值 31.24 极大值 140.59 均值 98.3363 标准差 18.92074 （注：利用以前学过的操作实现输出上面的表格）

两者之间存在着差异，X-u=-1.66，仅看这一个数字很难推断出这种差异究竟是大还是小，因为这还和数据的离散程度有关，如果消费者信心值差异较大，本身信心指数的离散程度就比较大，那么这一差值可能并不起眼。反之，则这一差值可能相对比较明显。为此，需要找到某种方式对这一差值进行标准化。T值的公式（见李沛良 p165）

上图即为t分布。相应的标准化后的统计量为t统计量。显然，t统计量的分布规律是和样本量有关的，更准确地说是和自由度有关。自由度（Degree of Freedom，一般用v或者英文缩写df来表示）这个概念还出现在其他分布中，它基本上是信息量大小的一个度量，描述了样本数据能自由取值的个数，在t分布中由于有给定的样本均数这一限定，所以自由度为df=n-1。从上图可以看出，当自由度增加时，它的分布就逐渐接近标准正态分布了。因此，在样本量较大时，可以用标准正态分布来近似t分布。

t检验就是应用t分布的特征，将t 作为检验的统计量来进行的检验。

13.1.2 SPSS中的相应功能

t检验在SPSS中基本上被击中在都“比较均值”子菜单中，具体如下。（1）单样本t检验过程：进行样本均数与已知总体均数的比较。

（2）独立样本t检验过程：进行两样本均数差别的比较，即通常所说的两组资料的t检验。（3）配对样本t检验过程：进行配对资料的均数比较，即配对t检验。方差分析比较三个以上的均值。

13.2样本均数与总体均数的比较

13.2.1 单样本案例：基期一线城市信心指数与基准值的比较单个样本均数检验问题是一种关于总体均数的假设检验问题。这种问题中只有一个随机抽样的样本，研究目的是推断这个样本的总体均数是否等于（或大于，或小于）某个已知总体均数。以例13.1为例，首先应当建立相应的假设。

H0 :u=u0, 2007年4月一线城市的总信心指数均值为100。 H1: u≠u0，2007年4月一线城市的总信心指数均值不是100。 α=0.05。

数据文件CCSS，其中变量index1为2007年4月的总指数，这是一个典型的单样本总体均数检验问题。

SPSS中的操作 “分析”→“比较均值”→“单样本t检验” 首先给出的是对当前样本进行的统计描述。

单个样本统计量总指数 N 300 均值 98.3363 标准差 18.92074 均值的标准误 1.09239 然后是t检验的分析结果：单个样本检验总指数 t -1.523 df 299 检验值 = 100 差分的 95% 置信区间 Sig.(双侧) 均值差值 .129 -1.66367 下限 -3.8134 上限 .4861 t值自由度 p值

根据上面的检验结果t=-1.523, p=0.129，由于p值大于检验水准0.05，因此不能拒绝H0, 不能认为样本所在的总体均数与假设的总体均数不同。

总体均数置信区间与t检验的一致性图13.5中同时给出了总体均数的置信区间和t检验的结果，两者的结论实际上是完全一致的，置信区间可用于回答假设检验的问题，同时这两者又是互为补充的关系：置信区间回答“量”的问题，即总体均数的范围在哪里，而假设检验回答“质”的问题，即总体均数之间是否存在差异，以及在统计上确认这种差异的把握有多大。

置信区间在回答有无统计学意义的同时，还可进一步回答这种差异有无实际意义，如在13.2.1节中的案例中，2007年4月份的总指数与100相差在一定范围内都是正常的，则即使差异具有统计学意义，如果差值的可信区间并未超过范围，这个差值也可以认为正常。

13.3成组设计两样本均数的比较

在实际问题中，除了一个总体的检验问题外，还常碰到两个总体均数的比较问题，此时可以考虑使用成组设计的t检验来进行分析。

13.3.1 方法原理

两样本t检验和单样本t检验的基本原理实际上非常相似，设两组样本量分别为n1和n2，且均来自两个正态分布的总体，则两样本t检验所建立的假设为：

H0 :u1=u2, 两样本均数的差异完全是抽样误差造成的，两总体均数相同。

H1: u1≠u2，两样本均数的差异除由抽样误差造成外，也确实反映了两总体均数存在的差异。

13.3.2 案例：不同收入水平家庭的信心指数比较

例13.2研究者认为家庭收入的高低可能会影响消费者信心的平均水平，收入较高的家庭其消费者信心应当比低收入家庭更高。根据前提研究的结果，CCSS项目中将受访家庭按照年收入是否大于4.8万元人民币分为两组，这里以2007年4月的数据为例，比较这两组家庭的消费者信心均值有无差异。

本案例的数据文件CCSS，其中变量index1为总指数，Ts9为家庭收入2级。这是一个典型的两样本t检验的问题，建立的假设如下。

H0 :u1=u2, 两组家庭收入级别在总指数上没有差别。 H1: u1≠u2，两组家庭收入级别在总指数上有差别。 α=0.05。 SPSS操作

首先给出的是两组需检验变量的基本情况描述。组统计量总指数家庭收入2级 Below 48,000 Over 48,000 N 110 145 均值 90.7458 104.4475 标准差 21.23893 14.92637 均值的标准误 2.02505 1.23957 随后结果中会给出最重要的方差齐性检验和t检验分析结果。

假设方差相等假设方差不相等 F 11.930 方差方程的 Levene 检验均值方程的 t 检验 Sig. .001 t -6.047 -5.771 df 253 186.197 Sig.(双侧) .000 .000 均值差值 -13.70173 -13.70173 标准误差值 2.26593 2.37431 差分的 95% 置信区间下限 -18.16421 -18.38574 上限指数 -9.2392 -9.0177

重点：分析结果的第一部分为Levene’s 方差齐性检验，用于判断两总体方差是否为齐性方差，这里的检验结果为F=11.930, p=0.001,因此，拒绝H0，认为本例中的两个样本所在总体的方差是不齐的。

分析结果的第二部分会分别给出两组所在总体方差为齐性方差和非齐性方差时的t检验结果，当假设两总体方差为齐性方差是，就直接进行标准的两样本t检验；否则，就根据两样本的方差情况对标准差进行校正，得到是校正t检验的结果。具体应当看这两种结果中的哪一种需要根据方差齐性检验的结果加以判断。在本例中由于前面的方差齐性检验结果为方差不相等（不齐），因此应选用方差不相等（不齐）时的t检验结果，即第二行列出的一系列统计值，P值（Sig.）显示为0.000，小于0.05，从而最终得到的统计结论为按α=0.05水准，拒绝H0接受H1可以认为两个家庭收入级别在总指数上存在统计学差异。

13.4 配对设计样本均数的比较

在很多科学研究中，常采用配对设计来提高研究效率，常见的配对设计有4种情况：（1）同一受试对象处理前后的数据；（2）同一受试对象两个部位的数据；

（3）同一样本用两种方法（仪器等）检验的结果；（4）配对的两个受试对象分别接受两种处理后的数据。情况（1）的目的是推断其处理有无作用，情况（2）（3）（4）的目的是推断两种处理（方法等）的结果有无差别。

在进行配对设计得到的样本数据中，每对数据之间都有一定的相关，如果忽略这种关系就会浪费大量的统计信息，因此在分析中应当采用和配对设计相对应的分析方法。当进行配对设计所测量得到的数据为定距变量时，配对t检验就是最常用的分析方法。

13.4.1方法原理

配对t 检验的基本原理是为每对数据求差值：如果两种处理实际上没有差异，则差值的总体均数应当为0，从该总体抽出的样本其均数差值也应当在0附近波动；反之，如果两种处理有差异，差值的总体均数就应当远离0，其样本均数也应当远离0。这样，通过检验该差值总体均数是否为0，就可以得知两种处理有无差异。

13.4.2案例：治疗前后舒张压均数的比较

例13.3 用某药治疗10名高血压病人，对每一病人治疗前、后的舒张压（mmHg）进行了测量。问该药有无降压作用。数据文件见pairedt.sav。本例建立的假设为：

H0 :ud=0, 同一病人治疗前后舒张压差值总体均数为0。

H1: ud≠0，同一病人治疗前后的舒张压差值总体均数不为0。 α=0.05。 SPSS操作

首先给出的是配对变量各自的统计描述。

成对样本统计量对 1 治疗前治疗后均值 122.1000 112.1000 N 10 10 标准差 11.31813 16.17577 均值的标准误 3.57911 5.11523

随后给出的是成对变量间的相关性分析，其结果实际上就是两变量的积矩相关系数及其检验结果。成对样本相关系数对 1 治疗前 & 治疗后 N 10 相关系数 .674 Sig. .033 成对样本检验均值标准差成对差分均值的标准误差分的 95% 置信区间 t df Sig.(双侧) 7

对 1 治疗前 - 治疗后 10.00000 11.95361 3.78006 下限 1.44890 上限 18.55110 2.645 9 .027

差值均数为10，相应的P=0.027，故可以认为使用该药会影响病人的血压，由于样本中治疗前后的差值均数为正，因此可以推断出是使得病人的血压下降，既有降压的作用。

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文