§3.1 性检验(1)
1. 某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,
不吸烟者295人.调查结果是:吸烟的220人中有37人患呼吸道疾病(简称患病),183人未患呼吸道疾病(简称未患病);不吸烟的295人中有21人患病,274人未患病.
问题:根据这些数据能否断定“患呼吸道疾病与吸烟有关”?
为了研究这个问题,(1)引导学生将上述数据用下表来表示:
吸烟 不吸烟 合计 一.建构数学 1.性检验:
(1)假设H0:患病与吸烟没有关系.
若将表中“观测值”用字母表示,则得下表:
吸烟 不吸烟 合计 患病 未患病 合计 患病 37 21 58 未患病 183 274 457 合计 220 295 515 a c ac b d bd ab cd abcd 如果实际观测值与假设求得的估计值相差不大,就可以认为所给数据(观测值)不能否定假设H0.否则,应认为假设H0不能接受,即可作出与假设H0相反的结论. (2)卡方统计量:
为了消除样本对上式的影响,通常用卡方统计量(χ2卡方χ2统计量公式:
(观测值预期值)2预期值)来进行估计.
nadbcχ2(其中nabcd)
abcdacbd由此若H0成立,即患病与吸烟没有关系,则χ2的值应该很小.把a37,b183,c21,dχ211.8634,统计学中有明确的结论,在H0成立的情况下,随机事件“发生的概率约为0.01,即P(222274代入计算得
6.635”
6.635)0.01,也就是说,在H0成立的情况下,对统计量χ2进行多次观测,
观测值超过6.635的频率约为0.01.由此,我们有99%的把握认为H0不成立,即有99%的把握认为“患病与吸烟有关系”.
象以上这种用统计量研究吸烟与患呼吸道疾病是否有关等问题的方法称为性检验.
22.性检验的一般步骤:
一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值:类患呼吸道疾病与不患呼吸道疾病),得到如下表所示:
Ⅰ 类1 Ⅱ 类2 合计 A和类B(如吸烟与不吸烟),Ⅱ也有两类取值:类1和类2(如
A 类B 类合计 a c ac b d bd ab cd abcd 推断“Ⅰ和Ⅱ有关系”的步骤为:
第一步,提出假设H0:两个分类变量Ⅰ和Ⅱ没有关系; 第二步,根据2×2列联表和公式计算χ2统计量; 第三步,查对课本中临界值表,作出判断. 3.性检验与反证法:
反证法原理:在一个已知假设下,如果推出一个矛盾,就证明了这个假设不成立;
性检验(假设检验)原理:在一个已知假设下,如果一个与该假设矛盾的小概率事件发生,就推断这个假设不成立. 四.数用 1.例题:
例1.在500人身上试验某种血清预防感冒的作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示.问:该种血清能否起到预防感冒的作用?
使用血清 未使用血清 合计 未感冒 258 216 474 感冒 242 284 526 合计 500 500 1000 分析:在使用该种血清的人中,有
24228448.4%的人患过感冒;在没有使用该种血清的人中,有56.8%的500500人患过感冒,使用过血清的人与没有使用过血清的人的患病率相差较大.从直观上来看,使用过血清的人与没有使用过血清的人的患感冒的可能性存在差异.
解:提出假设H0:感冒与是否使用该种血清没有关系.由列联表中的数据,求得
1000(258284242216)27.075
4745265005002∵当H0成立时,26.635的概率约为0.01,∴我们有99%的把握认为:该种血清能起到预防感冒的作用.
例2.为研究不同的给药方式(口服或注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查结果如表所示.根据所选择的193个病人的数据,能否作出药的效果与给药方式有关的结论?
口服 注射 合计 有效 58 122 无效 40 31 71 合计 98 95 193 分析:在口服的病人中,有
5859%的人有效;在注射的病人中,有67%的人有效.从直观上来看,口服95与注射的病人的用药效果的有效率有一定的差异,能否认为用药效果与用药方式一定有关呢?下面用性检验的方法加以说明.
解:提出假设H0:药的效果与给药方式没有关系.由列联表中的数据,求得
193(583140)21.362.072
1227198952当H0成立时,21.36的概率大于15%,这个概率比较大,所以根据目前的调查数据,不能否定假设H0,
即不能作出药的效果与给药方式有关的结论. 说明:如果观测值22.706,那么就认为没有充分的证据显示“Ⅰ与Ⅱ有关系”,但也不能作出结论“H0成立”,
即Ⅰ与Ⅱ没有关系.
§3.1 性检验(2)
二.数用 1.练习题:
1.在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性人。女性中有43人主要的休闲方
式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动。
(1)根据以上数据建立一个2× 2列联表; (2)判断性别与休闲方式是否有关系。
例2.气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如表所示.问它们的疗效有无差异(可靠性不低于99%)?
复方江剪刀草 胆黄片 合计
例3.下表中给出了某周内中学生是否喝过酒的随机调查结果,若要使结论的可靠性不低于95%,根据所调查的数据,能否作出该周内中学生是否喝过酒与性别有关的结论?
男生 女生 合计 喝过酒 77 16 93 没喝过酒 404 122 526
合计 481 138 619
有效 184 91 275 无效 61 9 70 合计 245 100 345 §3.2 回归分析(1)
一.建构数学
1.线性回归模型的定义:
我们将用于估计
y值的线性函数abx作为确定性函数;
,称之为随机误差;
y的实际值与估计值之间的误差记为将
yabx称为线性回归模型.
说明:(1)产生随机误差的主要原因有:
①所用的确定性函数不恰当引起的误差;②忽略了某些因素的影响; ③存在观测误差. (2)对于线性回归模型,我们应该考虑下面两个问题: ①模型是否合理;②在模型合理的情况下,如何估计a,b? 2.探求线性回归系数的最佳估计值: 设有
n对观测数据
(xi,yi)(i1,2,3,L,n),根据线性回归模型,对于每一个
nxi,对应的随机误差项
iyi(abxi)n,我们希望总误差越小越好,即要使
i12i越小越好.所以,只要求出使
Q(,)(yixi)2取得最小值时的i1$,b$. ,值作为a,b的估计值,记为a注:这里的
i就是拟合直线上的点
xi,abxi到点Pixi,yi的距离.
$,b$? 用什么方法求a线性回归方程的方法:最小二乘法.
$,b$的计算公式为 利用最小二乘法可以得到an(xix)(yiy)$i1bn(xix)2i1$$aybxxynxyiinxi1i1n2in(x)2,
1n其中xxini11n,yyi
ni1$,b$分别为a,b$bx$就称为这n对数据的回归直线,此直线方程即为线性回归方程.其中a由此得到的直线$ya$称为回归截距,b$称为回归系数,$的估计值,ay称为回归值.
$,b$的意义是:以a$为基数,x每增加1个单位,$bx$中a3. 线性回归方程$ya4. 化归思想(转化思想)(了解)
在实际问题中,有时两个变量之间的关系并不是线性关系,这就需要我们根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数.下面列举出一些常见的曲线
$个单位; y相应地平均增加b方程,并给出相应的化为线性回归方程的换元公式. (1) (2) (3)
yab1,令y'y,x',则有y'abx'. xxyaxb,令y'lny,x'lnx,a'lna,则有y'a'bx'. yaebx,令y'lny,x'x,a'lna,则有y'a'bx'.
(4)
yaebx,令
y'lny,x'1,a'lna,则有y'a'bx'. x (5)
yablnx,令y'y,x'lnx,则有y'abx'.
二.数用 1.例题:
例1.下表给出了我国从1949年至1999年人口数据资料,试根据表中数据估计我国2004年的人口数.
年份 人口数/百万 1949 19 1959 19 1969 1974 1979 1984 19 1994 1999 2 603 672 705 807 909 975 1035 1107 1177 1246 解:为了简化数据,先将年份减去1949,并将所得值用x表示,对应人口数用y表示,得到下面的数据表:
x y 5 10 15 20 25 30 35 40 45 50 0 2 603 672 705 807 909 975 1035 1107 1177 1246 作出11个点
x,y构成的散点图,
yabx来表示它们之间的关系.
由图可知,这些点在一条直线附近,可以用线性回归模型根据公式(1)可得
$14.453,b $a527.591.$$分别为a,b的估 这里的a,b
计值,因此线性回归方程 为$y527.59114.453x 由于2004年对应的
x55,代入
线性回归
方程$,即2004年的人口总数估计为13.23亿. y527.59114.453x可得$y1322.506(百万)
§3.2 回归分析(2)
1.相关系数的计算公式:
对于x,
ny随机取到的n对数据(xi,yi)(i1,2,3,L,n),样本相关系数r的计算公式为
iir(xx)(yy)i1(xx)(yy)2iii1i1nn2xynxyiii1n(xi2n(x)2)(yi2n(y)2)i1i1nn.
2.相关系数r的性质: (1)|r|1;
(2)|r|越接近与1,x, (3)|r|越接近与0,x,
y的线性相关程度越强; y的线性相关程度越弱.
可见,一条回归直线有多大的预测功能,和变量间的相关系数密切相关. 3. 作出统计推断:若|r|r0.05,则否定H0,表明有95%的把握认为变量则没有理由拒绝H0,即就目前数据而言,没有充分理由认为变量
说明:1.对相关系数r进行显著性检验,一般取检验水平某种关系.
3.这里的r是对抽样数据而言的.有时即使|r|1,两者也不一定是线性相关的.故在统计分析时,不能就数据论数据,要结合实际情况进行合理解释.
4.对于上节课的例1,可按下面的过程进行检验: (1)作统计假设H0:x与
y与x之间具有线性相关关系;若|r|r0.05,
y与x之间具有线性相关关系.
0.05,即可靠程度为95%.
2.这里的r指的是线性相关系数,r的绝对值很小,只是说明线性相关程度低,不一定不相关,可能是非线性相关的
y不具有线性相关关系;
0.602;
(2)由检验水平0.05与n29在附录2中查得r0.05(3)根据公式(4)因为
2得相关系数r0.998;
r0.9980.602,即rr0.05,所以有95﹪的把握认为x与y之间具有线性相关关系,线性回归方
程为$y527.59114.453x是有意义的.
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- 69lv.com 版权所有 湘ICP备2023021910号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务