§1多元统计分析课堂讲题选择
§1.1
第二章:
课后习题2-3(1)、2-3(2)、2-6(1)、2-6(2)、2-7((1),(3),(5))、2-13(1);课外补充题中的1,4(1)、4(2)、9;
§1.2第三章
课后习题3-6;课外补充题:总结一下单总体、两总体、多总体均值向量假设检验时不同情
形下的统计量选取(作业题)。课外补充题中的1,2,3,4,5.
§1.3
第五章
5-2,5-4(2);课外补充题:2,3,4,11.
§1.4第六章
课后题6-3;课外补充题:1;
§1.5第七章
课后题7-2(1),7-2(3),7-5;课外补充题:3;
§2多元统计分析简介
知识要点:
•Kendall在《多元分析》一书中将多元统计分析研究内容和方法分为哪些?对应教材那些章
节?
•多元统计分析的起源:20C初,1988年,Wishart发表论文《多元总体样本协方差正的精确分
布》代表了多元统计分析的开端。
•20世纪,多元统计分析的主要代表人物有哪些?•多元统计数据有哪些主要的图表示法?
1
§3多元正态分布及其参数估计
知识要点:
2.1随机向量
–分布,边缘分布,独立性定义;
–数字特征:均值向量,协方差阵,相关阵的定义和计算;–数字特征的性质:性质1–性质4(掌握内容,会用)。2.2多元正态分布的定义和性质
–定义2.2.1
–性质2及其推论,(会根据性质2证明其推论),这两个结论说明了什么?–多元正态分布的密度函数(性质5)。2.3条件分布和独立性
–定理2.3.1及其推论,掌握会用!–了解条件分布。
2.4-2.5多元正态分布的参数估计
–掌握多元正态总体的数字特征:样本均值、样本离差阵、样本协方差阵样本相关阵(掌
握会计算)。
–掌握定理2.5.1和定理2.5.2的内容。会求µ和Σ的极大似然估计,无偏估计。知道均值向
量的分布。
§3.1
课堂讲题:
课后习题2-3(1)、2-3(2)、2-6(1)、2-6(2)、2-7((1),(3),(5))、2-13(1);课外补充题中的1,4(1)、4(2)、9;
§3.2可做的课后习题
课后题:2-1;2-2;2-3;2-6;2-7;2-8;2-10;2-11(1);2-13(1);2-18(1);
§3.3课外补充题
1设X=(X1,X2)∼N2(µ,Σ),µ=(µ1,µ2),Σ=σρ1.求Cov(X1+X2,X1−X2).
()4−43′
2设X=(X1,X2,X3),其协方差矩阵为:Σ=−49−2.求X的相关矩阵R.
3−216
′
′
2
(1ρ)
2
3设X=(X1,X2,X3)∼N3(µ,Σ),µ=(1,0,−2),其协方差矩阵为:Σ=(−x3)与x2x是否相互独立.1
4已知X=(X1,X2,X3)′的协方差矩阵为
52Σ=23
30
(1)求Var(X1−2X2+X3).
(2)设Y1=X1+X2,Y2=X1+X2+X3,求Cov(Y1,Y2).5、设三维随机向量X∼N3(µ,Σ),其中
4Σ=10
130
0,02302
′
(
16−42−4−4−12−14
)
.判断X1+2X3
问X1与X2是否独立?(X1,X2)和X3是否独立?为什么?
6设随机向量X的的均值和协方差阵分别为µ,Σ,试证:E(XX′)=Σ+µµ′.7设随机向量X∼Np(µ,Σ),Y=Ar×pX+br×1.试证:Y∼Nr(Aµ+b,AΣA′).8若X(α)∼Np(µ,Σ),α=1,···,n且相互独立,则样本均值向量X服从的分布为9现有来自某地区的一个家庭随机样本,各样本家庭的储蓄和孩子述如下表:
?
家庭
ABCDE
储蓄
0.61.21.00.70.3
孩子数
52134
要求根据表中数据计算样本均值向量,样本离差阵、样本协差矩阵和样本相关矩阵.
§4多元正态总体参数的假设检验
知识要点:
3.1几个重要统计量的分布
–活用p54结论1.
–非中心χ2分布、非中心t分布、非中心F分布的定义。
–三大抽样分布的定义和性质(定义3.1.4以及性质1–性质3;定义3.1.5以及性质1–性质4;
定义3.1.6和3.1.7)。
3
3.2单总体均值向量的假设检验
–Σ已知时的统计量和检验步骤。–Σ未知时的统计量和检验步骤。3.3多总体均值向量的假设检验
–两总体均值向量假设检验:Σ1=Σ2已知(或者未知)时的统计量和检验步骤。–多总体均值向量假设检验:多元方差分析;统计量和检验步骤。
3.4-3.5协方差阵检验、独立性检验;了解。§4.1
课堂讲题
课后习题3-6;课外补充题:总结一下单总体、两总体、多总体均值向量假设检验时不同情
形下的统计量选取(作业题)。1,2,3,4,5.
§4.2
课外补充题
1设Xi∼N3(µ,Σ),i=1,···,10且相互独立.求W=
∑10
i=1(Xi
−µ)(Xi−µ)′的分布.
2设Xi,i=1,···,16来自总体Np(µ,Σ),X,A分别为其样本均值向量和样本离差阵.求T2=15[4(X−µ)]′A−1[4(X−µ)]的分布.
3对某地区农村6名2岁男婴身高、胸围、上半臂围进行测量.得到样本均值向量以及协
方差阵相关数据如下:
82,X=6014
(5S)−1
4−1491=−143−371159−3736
.
对该地区城市2岁男婴的三个指标测量得到的均值向量为µ0=(90,58,16)′.在多元正态数据的假设下,检验该地区男婴与城市男婴有无相同的均值.(取α=0,01,F0.01(3,2)=99.2,F0.01(3,3)=
29.5,F0.01(3,4)=16.7,已知(X−µ)′(5S)−1(X−µ)=12.5565).
4某地市场上销售的收录机有多种牌号,有些牌号比较畅销,而另一些牌号则比较滞销.现
有该地市场的畅销品牌和滞销品牌中各随机抽取了4种收录机,并对所抽取的这些收录机的质量和功能进行了评分,还统计了所抽取的这些收录机的市场销售价格,数据如下表所示:
畅销的收录机
牌号
ABCD
滞销的收录机
价格(元)
6305405804502200
4
质量评分
76191032
功能评分
977528
牌号
EFGH
质量评分
676524
功能评分
866828
价格(元)
6005605304702160
合计合计
(1)要求根据表中数据分别计算两类收录机所考查指标向量各自的样本均值向量和样本协
方差矩阵.
(2)假设所考查指标向量服从3维正态分布,且两类收录机的总体协方差矩阵相同,试在5%的
显著水平下检验两类收录机的均值向量是否相同的检验步骤(不需要计算,写出思路即可).
5设X1,···,x20为来自4元总体N4(µ,Σ)的样本。求
√
(1)X的分布,n(X−µ)的分布;(2)(X1−µ)′Σ−1(X1−µ)的分布;(3)n(X−µ)′Σ−1(X−µ)的分布;
(4)(n−1)S的分布以及n(X−µ)S−1(X−µ)的分布.
§5判别分析
知识要点:
简介什么是判别分析?其问题基本描述是什么?主要的判别分析方法有哪些?
5.1距离判别
–距离判别的基本思想;
–两总体的马氏距离判别(Σ1=Σ2时,会用线性判别函数判别;Σ1Σ2时,会根据马氏距
离远近判别归类);
–两总体的马氏距离判别(会根据马氏的距离远近判别)。–知道判别分析的实质(对空间的划分)。5.2贝叶斯判别法及广义平法距离判别法
–贝叶斯判别的基本思想;
–会用贝叶斯判别法求解判别问题(k个总体时,判别函数h的表达式是什么?)–特别地,针对下列情形会运用.
∗当错判损失相同时可简化成什么形式?(p188推论)∗当k=2时,可简化成什么形式?(p189例5.2.1)
∗当总体为正态总体并且错判损失相同、各个总体的协方差阵相同时判别函数可简
化成什么形式?进一步,若先验概率相等呢?(此时等价于马氏距离判别法)
∗当总体为正态总体并且错判损失相同、各个总体的协方差阵不相同时判别函数可
简化成什么形式?(此时等价于广义平法距离判别法)
5
5.3Fisher判别法
–Fisher判别的基本思想;
–掌握两个总体下Fisher判别的应用(会求线性判别函数以及判别效率,会用Fisher判别)。
5.4-5.5判别效果的检验和各变量判别能力的检验;逐步判别;了解。§5.1
课堂讲题
5-2,5-4(2);课外补充题:2,3,4,11.
§5.2课外补充题
1判别分析是判别样品
,
.
的一种统计方法,常用的判别方法有
(
,
)
,
2设有两个总体G1,G2,均值向量分别为µ1=(2,6)′,µ2=(4,2)′,Σ1=Σ2=X=(3,5)′属于哪个总体?
11
19
,其先验
概率分别为q1=q2=0.5,误判损失分别为L(2|1)=e4,L(1|2)=e.试用贝叶斯判别准则判别
3已知判别类G1和G1的Fisher线性判别函数为:u=0.3x1−0.45x2−0.06x3,并且已知µ(1)=0.3332,µ(2)=0.6665.n1=7,n2=9.用下列公式计算临界值:
u∗=
1
[n1µ(1)+n2µ(2)].
n1+n2
并判别新样品X(0)=(2.5,0.95,0.9)′属于哪一类?
4
设有三个总体G1G2和G3,概率密度分别为f1(x),f2(x),f3(x),假定各总体的先验概率
相等,误判损失如下:
L(2|1)=10,
L(1|2)=100,
L(3|1)=50,
L(1|3)=200,
L(2|3)=80,
L(3|2)=120.
现有一样本X0,使f1(X0)=0.1,f2(X0)=0.8,f3(X0)=1.5.按照贝叶斯判别准则,应将该样品判归哪个总体?(10分)
5判别分析的基本思想
判别分析用来解决被解释变量是非度量变量的情形,预测和解释影响一个对象所属类别。识别一个个体所属类别的情况下有着广泛的应用判别分析将对象进行分析,通过人们选择的解释变量来预测或者解释每个对象的所属类别。
6(2005考研)在作判别分析时,如何检验判别效果的优良性?
7判别分析的方法距离判别法、Bayes判别法、Fisher判别法、逐步判别法8距离判别法的判别准则
6
设有两个总体G1和G2,X是一个p维样品,若能定义样品到总体G1和G2的距离
d(X,G1)和d(X,G2),则用如下规则进行判别:若样品X到总体G1的距离小于到总体G2的距离,
则认为样品X属于总体G1,反之,则认为样品X属于总体G2.若样品X到总体G1和G2的距离相等,则让它待判。
9Fisher判别的思想
Fisher判别的思想是投影,将k组p维数据投影到某一个方向,使的它们的投影与组之间
尽可能地分开。
10Bayes判别的思想
Bayes统计的思想是:假定对研究的对象已有一定的认识,常用先验概率分布来描述这种认
识,然后我们取得一个样本,用样本来修正已有的认识,得到后验概率分布,各种统计推断都通过后验概率分布来进行。将Bayes统计的思想用于判别分析,就得到Bayes判别。
11记两个二维正态总体N2(µ(i),Σ)为Gi,(i=1,2)(两总体协差阵相同),已知来自Gi(i=1,2)
的样本数据阵为
X(1)
24=331210,810
X(2)
5=347.95
(1)试求组间离差阵B;
(2)试用Fisher准则对样品x0=(2,8)′进行判别归类.
§6聚类分析
知识要点:知识要点:
简介什么是聚类分析?它与判别分析的区别和联系?
6.1聚类分析的方法
–按照聚类对象分类分为哪几类?–列举几种学过的聚类分析方法。6.2距离与相似系数
–样品与样品之间常用的几种距离分别是什么?–衡量变量与变量之间常用的方法有哪些?6.3系统聚类法
7
–系统聚类法的基本思想;–类与类之间的距离通常有哪些?
–掌握系统聚类方法(会用最长距离方法、最短距离方法类平均法聚类)6.4系统聚类法的性质和类的确定。
–类的特征都有哪些?
–类个数的确定常用统计量有哪些?6.5动态聚类法
–动态聚类方法的基本思想
–常用的修改方法有哪两种?K-均值法是指按照什么修改方式的动态聚类?–掌握课上的两个例子。6.6有序样品聚类法(最优分割法)
–最优分割的递推式?
–衡量分割优劣的损失函数定义是什么?–会例题6.6.1的分析。
§6.1
课堂讲题
课后题6-3;课外补充题:1;
§6.2课外补充题
1(2005年某校考研题)设对六个样品测试了六项指标,计算出样品间的相关系数见下表:
X1
X2X3X4X5X6
0.920.840.790.690.65
X210.680.770.760.78
10.810.710.86
10.820.74
10.89
1
X3
X4
X5
X6
试用最长距离法对这六个样品进行聚类,并画出谱系图。
8
2下面是5个样品两两间的距离矩阵
=
,
046160973
0105
080
D(0)
试用最长距离法作聚类并画出谱系图.
3
简述系统聚类法、模糊聚类法的基本思想和步骤,在实际应用时,如何确定分类数目?
简要说明聚类分析与判别分析的异同之处。
4R型聚类是指对
5变量的类型按尺度划分有
进行聚类,Q型聚类是指对
、、。进行聚类。
6设样品Xi=(xi1,xi2,···,xip)′,i=1,···,n.总体X∼Np(µ,Σ),对样品进行分类常用的距离有:
明氏距离dij(q)=
,马氏距离di2j(M)=
,兰氏距离dij(L)=。
7设抽了五个样品,每个样品只测了一个指标,它们分别是1,2,4.5,6,8。若样本间采用明
氏距离,试用最长距离法对其进行分类,要求给出聚类图。
8聚类分析的基本思想:
我们认为,所研究的样品或指标之间存在着程度不同的相似性。根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间的相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样品聚合为一类,把另一些彼此之间相似程度较大的样品又聚合到另外一类。把不同的类型一一划分出来,形成一个由小到大的分类系统。最后,用分群图把所有的样品间的亲疏关系表示出来。
9聚类分析的方法
系统聚类法、动态聚类法(包括K-均值法)、有序样品的聚类等
10系统聚类法的种类
最短距离法、最长距离法、重心法、类平均法、离差平方和法等。
§7主成分分析
课后习题:7-1,7-2(1),(3),7-3(2),7-5。
9
§7.1课外补充题
1设X=(X1,X2,X3,X4)′∼N4(0,Σ).协方差阵
1ρρρρ1ρρΣ=ρρ1ρρρρ1
0<ρ1.
(1)试从Σ出发求X的第一总体主成分;
(2)试问当ρ取多大时才能使第一主成分的贡献率达95%以上。
2(2005考研)试述主成分分析的基本思想。由协方差矩阵出发和由相关系数出发矩阵求主
成分有何不同?
3设三元总体X的协方差阵为
1Σ=00
0300,06
从Σ出发,求总体X的主成分Z1,Z2,Z3.并求前两个主成分的累积贡献率。
4提取主成分的原则:1).累计方差贡献率大于85%,2).特征根大于1,3).碎石图特征根的
变化趋势。
§8综合型题目
1(2005研题)某实力雄厚的跨国公司日前在沪设立了办事处,经销该公司的产品。由于看
好在华发展前景,该公司打算进一步扩大在华业务,在华直接生产和销售产品;并进行软件和高新技术产品的研发。为此,他们急需解决如下问题:综合考虑各方面的情况,确定两到三个投资地点(城市);利用公司以往的销售记录以及各销售地区的社会经济情况,对未来的产品生产和销售量做出预测;确定最佳广告策略。假设你是该公司决策人员,你将如何利用统计方法研究以上几个问题?(16分)
2(2005研题)保护环境和水资源是可持续发展的基本前提。某研究院组成考察团,对我国
主要河流和湖泊水环境进行了一次为期近三年的全面考察,收集了大量数据,接下来他们要做的部分工作是:对考察的河流和湖泊的水质情况做出定量的综合评价;根据观测数据对湖泊进行分类;确定各个地区的工业、矿业生产和农业生产对水质污染的影响程度。某湖区是著名旅游风景区,考察长假期间的水质污染程度是否与平常不同?假设你是该考察团研究人员,你将如何利用统计方法研究以上几个问题?(16分)
10
3无论是国家或是地区,综合实力的竞争归根到底是经济与科技实力的竞争。一个地区
的科技实力水平以及发展状况决定它在将来总体格局中的地位。某省决定对其所辖的21个地区科技实力进行综合评价。为此委托某科研小组对以下问题进行研究:确定适当的评价指标体系,采用科学的评价方法对21个地区科技实力进行综合评价;确定影响各个地区科技发展的因素,提出促进科技发展的对策建议;研究该省21个地区科技发展状况的差异性,了解各个地区科技发达程度。假设你是该科研小组成员,你觉得在这个课题的研究过程中,可以应用哪些多元统计方法?请指出每种方法的应用具体设想。(15分)
4
某校研究生院基于该校全体研究生的各方面信息,拟对以下问题进行调研:
(1)了解研究生们本科阶段的成绩与研究生阶段学习成绩的关系;
(2)了解相同院系或专业的研究生中,免试推荐研究生与通过国家研究生入学考试而录取的学生之间的研究生课程成绩是否有差异;如果存在差异,则要弄清楚原因;
(3)了解不同专业、来自于不同地区或不同本科院校的研究生们在学习成绩,科研能力等方面的状况。
(4)了解影响研究生能力和综合素质培养的主要因素,提出相应对策建议。如果你是研究小组成员,你将采用怎样的多元统计方法研究以上问题?请指出每种方法的具体设想。
5简述多元统计的主要内容,结合你本专业谈谈能用到哪些统计方法。
11
因篇幅问题不能全部显示,请点此查看更多更全内容