你的位置:
首页
>
IT圈
>
课时作业24:§3.2 独立性检验的基本思想及其初步应用
2023年12月18日发(作者:臧清一)
§3.2 独立性检验的基本思想及其初步应用
1.用等高条形图粗略估计两个分类变量是否相关.观察下列各图,其中两个分类变量相关关系最强的是( )
答案 D
2.在利用随机变量K2来判断两个变量X和Y之间是否有关系时,下列说法正确的是( )
A.K2越大,“X与Y有关系”的可信程度越小
B.K2越小,“X与Y有关系”的可信程度越小
C.K2越小,“X与Y没有关系”的可信程度越小
D.K2越大,“X与Y没有关系”的可信程度越大
答案 B
解析 K2越大,无关的概率越小,有关的概率越大,X与Y有关系的可信度越大.
3.给出下列实际问题:
①一种药物对某种病的治愈率;②两种药物治疗同一种病是否有区别;③吸烟者得肺病的概率;④吸烟是否与性别有关系;⑤经常去网吧与青少年的犯罪是否有关系.
其中用独立性检验可以解决的问题有( )
A.①②③
C.②③④⑤
答案 B
解析 ①③都不是判断两个分类变量间的关系,故错误;②④⑤都是研究两个分类变量之间是否有关系,可以用独立性检验解决.
4.利用独立性检验来考察两个分类变量X和Y是否有关系时,通过查阅下表来确定“X与Y有关系”的可信程度.如果K2≥5.024,那么就有把握认为“X与Y有关系”的百分比为( )
B.②④⑤
D.①②③④⑤
P(K2≥k0)
k0
P(K2≥k0)
k0
0.50
0.455
0.05
3.841
0.40
0.708
0.025
5.024
0.25
1.323
0.010
6.635
0.15
2.072
0.005
7.879
0.10
2.706
0.001
10.828
A.25% B.75% C.2.5% D.97.5%
答案 D
解析 k=5.024对应的0.025是“X和Y有关系”不可信的程度,因此两个分类变量有关系的可信程度约为97.5%.
5.某研究型学习小组调查研究学生使用智能手机对学习的影响,部分统计数据如下表,则下列说法正确的是( )
学习成绩优秀
学习成绩不优秀
总计
A.有99%的把握认为使用智能手机对学习有影响
B.有99%的把握认为使用智能手机对学习无影响
C.在犯错误的概率不超过0.1的前提下认为使用智能手机对学习有影响
D.在犯错误的概率不超过0.1的前提下认为使用智能手机对学习无影响
答案 C
解析 K2的观测值30×5×5-7×132k=≈2.801>2.706,
18×12×12×18使用智能手机
5
13
18
不使用智能手机
7
5
12
总计
12
18
30
所以在犯错误概率不超过0.1的前提下,认为使用智能手机对学习有影响.
6.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体数据如下表:
专业
性别
男
女
为了判断选该课的学生主修统计专业是否与性别有关系,根据表中的数据,得到K2=非统计专业
13
7
统计专业
10
20
50×13×20-10×72≈4.844,因为K2>3.841,所以判定主修统计专业与性别有关系,那么23×27×20×30这种判断出错的可能性最大为________.
答案 5%
解析 因为K2>3.841,所以有95%的把握认为主修统计专业与性别有关,出错的可能性为5%.
7.下表是关于男婴与女婴出生时间调查的列联表:
男婴
女婴
总计
那么,A=________,B=________,C=________,D=________,E=________.
答案 47 92 88 82 53
晚上
45
E
98
白天
A
35
D
总计
B
C
180
98+D=180,解析 由列联表知识得A+35=D,E+35=C,B+C=180,B=92,解得C=88,D=82,E=53.A=47,45+E=98,
8.假设两个分类变量X与Y,它们的取值分别为{x1,x2},{y1,y2},其2×2列联表为
x1
x2
总计
对于以下数据,对同一样本能说明X与Y有关的可能性最大的一组是________.(填序号)
①a=8,b=7,c=6,d=5;
②a=8,b=6,c=5,d=7;
③a=8,b=5,c=7,d=6;
④a=5,b=6,c=8,d=7.
y1
a
c
a+c
y2
b
d
b+d
总计
a+b
c+d
a+b+c+d
答案 ②
解析 |ad-bc|越大,K2越大,X与Y有关的可能性越大,计算得②中|ad-bc|最大.
9.在某测试中,卷面满分为100分,60分及以上为及格,为了调查午休对本次测试前两个月复习效果的影响,特对复习中进行午休和不进行午休的考生进行了测试成绩的统计,数据如下表所示:
分数段
午休考生人数
不午休考生人数
(1)根据上述表格完成列联表:
午休
不午休
总计
(2)根据列联表可以得出什么样的结论?对今后的复习有什么指导意义?
解 (1)根据题表中数据可以得到列联表如下:
午休
不午休
总计
8046513(2)计算可知,午休的考生及格率为P1==,不午休的考生及格率为P2==,则180920040P1>P2,因此,可以粗略判断午休与考生考试及格有关系,并且午休的及格率高,所以在以后的复习中考生应尽量适当午休,以保持最佳的学习状态.
10.研究人员选取170名青年男女大学生的样本,对他们进行一种心理测验.发现有60名女生对该心理测验中的最后一个题目的反应是:作肯定的有22名,否定的有38名;男生110名在相同的题目上作肯定的有22名,否定的有88名.问:性别与态度之间是否存在某种关系?分别用等高条形图和独立性检验的方法判断.
解 建立性别与态度的2×2列联表如下:
肯定 否定 总计
及格人数
80
65
145
不及格人数
100
135
235
总计
180
200
380
及格人数
不及格人数
总计
17 51 67 15 30 17 3
29~39
23
40~49 50~59 60~69
47 30 21
70~79
14
80~89
31
90~100
14
男生
女生
总计
22
22
44
88
38
126
110
60
170
根据列联表中所给的数据,可求出男生中作肯定态度的频率为22=0.2,女生中作肯定态度11022的频率为≈0.37.作等高条形图如图,其中两个深色条形的高分别表示男生和女生中作肯定60态度的频率,比较图中深色条形的高可以发现,女生中作肯定态度的频率明显高于男生中作肯定态度的频率,因此可以认为性别与态度有关系.
根据列联表中的数据得到K2的观测值
170×22×38-22×882k=≈5.622>5.024.
110×60×44×126因此,在犯错误的概率不超过0.025的前提下认为性别和态度有关系.
11.如图是调查某地区男、女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图中可以看出( )
A.性别与喜欢理科无关
B.女生中喜欢理科的比例约为80%
C.男生比女生喜欢理科的可能性大些
D.男生中不喜欢理科的比例约为60%
答案 C
解析 由题图可知,女生中喜欢理科的比例约为20%,男生中喜欢理科的比例约为60%,因此男生比女生喜欢理科的可能性大些.
12.根据下面的列联表得到如下四个判断:
患肝病
未患肝病
总计
①至少有99.9%的把握认为“患肝病与嗜酒有关”;②至少有99%的把握认为“患肝病与嗜酒有关”;③在犯错误的概率不超过0.01的前提下认为“患肝病与嗜酒有关”;④在犯错误的概率不超过0.01的前提下认为“患肝病与嗜酒无关”.
其中正确命题的个数为( )
A.0 B.1 C.2 D.3
答案 C
解析 由列联表中数据可求得随机变量K2992×700×32-60×2002的观测值k=760×232×900×92嗜酒
700
200
900
不嗜酒
60
32
92
总计
760
232
992
≈7.349>6.635,所以在犯错误的概率不超过0.01的前提下,认为“患肝病与嗜酒有关系”,即至少有99%的把握认为“患肝病与嗜酒有关系”.因此②③正确,故选C.
13.有两个分类变量X,Y,其列联表如下所示,
X1
X2
其中a,15-a均为大于5的整数,若在犯错误的概率不超过0.05的前提下认为X,Y有关,则a的值为( )
A.8
C.8或9
答案 C
解析 根据公式,得K2的观测值
65×[a30+a-15-a20-a]2k=
20×45×15×5013×13a-602=>3.841,根据a>5且15-a>5,
20×45×3×2a∈Z,求得当a=8或9时满足题意.
14.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )
表1
B.9
D.6或8
Y1
a
15-a
Y2
20-a
30+a
成绩
性别
男
女
总计
不及格
6
10
16
及格
14
22
36
总计
20
32
52
表2
视力
性别
男
女
总计
表3
智商
性别
男
女
总计
表4
阅读量
性别
男
女
总计
A.成绩 B.视力 C.智商 D.阅读量
答案 D
解析 K2=nad-bc2,经检验表4中K2最大,故阅读量与性别有关联的可能a+bc+da+cb+d丰富
14
5
19
不丰富
6
27
33
总计
20
32
52
偏高
8
8
16
正常
12
24
36
总计
20
32
52
好
5
12
17
不好
15
20
35
总计
20
32
52
性最大.
15.2019年英超联赛期间,某一电视台对年龄高于40岁和不高于40岁的人是否喜欢利物浦
队进行调查,对高于40岁的调查了50人,不高于40岁的调查了50人,所得数据制成如下列联表:
高于40岁
不高于40岁
总计
3若工作人员从所有统计结果中任取一个,取到喜欢利物浦队的人的概率为,则有超过5________的把握认为年龄与利物浦队的被喜欢程度有关.
附:K2=nad-bc2.
a+bc+da+cb+d0.15
2.072
0.10
2.706
0.05
3.841
0.025
5.024
0.010
6.635
0.005
7.879
0.001
10.828
不喜欢利物浦队
p
15
a
喜欢利物浦队
q
35
b
总计
50
50
100
P(K2≥k0)
k0
答案 95%
解析 设“从所有人中任意抽取一个,取到喜欢利物浦队的人”为事件A,由已知得P(A)=q+353=,
1005所以q=25,p=25,a=40,b=60.
K2的观测值100×25×35-25×15225k==≈4.167>3.841.
640×60×50×50故有超过95%的把握认为年龄与利物浦队的被喜欢程度有关.
16.某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间(单位:小时)的样本数据.
(1)应收集多少位女生的样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图),其中样本数据的分组区间为[0,2),[2,4),[4,6),[6,8),[8,10),[10,12].估计该校学生每周平均体育运动时间超过4小时的概率;
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否认为“该校学生的每周平均体育运动时间与性别有关”.
附:
P(K2≥k0)
k0
K2=nad-bc2.
a+bc+da+cb+d0.100
2.706
0.050
3.841
0.010
6.635
0.005
7.879
4 500解 (1)由分层抽样可得300×=90,所以应收集90位女生的样本数据.
15 000(2)由频率分布直方图得学生每周平均体育运动时间超过4小时的频率为1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.
(3)由(2)知,300位学生中有300×0.75=225(人)的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.样本数据中有210份是关于男生的,90份是关于女生的,可得每周平均体育运动时间与性别列联表如下:
每周平均体育运动时间不超过4小时
每周平均体育运动时间超过4小时
总计
结合列联表可算得K2的观测值
300×45×60-30×1652k=≈4.762>3.841.
75×225×210×90所以有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
男生
45
165
210
女生
30
60
90
总计
75
225
300
2023年12月18日发(作者:臧清一)
§3.2 独立性检验的基本思想及其初步应用
1.用等高条形图粗略估计两个分类变量是否相关.观察下列各图,其中两个分类变量相关关系最强的是( )
答案 D
2.在利用随机变量K2来判断两个变量X和Y之间是否有关系时,下列说法正确的是( )
A.K2越大,“X与Y有关系”的可信程度越小
B.K2越小,“X与Y有关系”的可信程度越小
C.K2越小,“X与Y没有关系”的可信程度越小
D.K2越大,“X与Y没有关系”的可信程度越大
答案 B
解析 K2越大,无关的概率越小,有关的概率越大,X与Y有关系的可信度越大.
3.给出下列实际问题:
①一种药物对某种病的治愈率;②两种药物治疗同一种病是否有区别;③吸烟者得肺病的概率;④吸烟是否与性别有关系;⑤经常去网吧与青少年的犯罪是否有关系.
其中用独立性检验可以解决的问题有( )
A.①②③
C.②③④⑤
答案 B
解析 ①③都不是判断两个分类变量间的关系,故错误;②④⑤都是研究两个分类变量之间是否有关系,可以用独立性检验解决.
4.利用独立性检验来考察两个分类变量X和Y是否有关系时,通过查阅下表来确定“X与Y有关系”的可信程度.如果K2≥5.024,那么就有把握认为“X与Y有关系”的百分比为( )
B.②④⑤
D.①②③④⑤
P(K2≥k0)
k0
P(K2≥k0)
k0
0.50
0.455
0.05
3.841
0.40
0.708
0.025
5.024
0.25
1.323
0.010
6.635
0.15
2.072
0.005
7.879
0.10
2.706
0.001
10.828
A.25% B.75% C.2.5% D.97.5%
答案 D
解析 k=5.024对应的0.025是“X和Y有关系”不可信的程度,因此两个分类变量有关系的可信程度约为97.5%.
5.某研究型学习小组调查研究学生使用智能手机对学习的影响,部分统计数据如下表,则下列说法正确的是( )
学习成绩优秀
学习成绩不优秀
总计
A.有99%的把握认为使用智能手机对学习有影响
B.有99%的把握认为使用智能手机对学习无影响
C.在犯错误的概率不超过0.1的前提下认为使用智能手机对学习有影响
D.在犯错误的概率不超过0.1的前提下认为使用智能手机对学习无影响
答案 C
解析 K2的观测值30×5×5-7×132k=≈2.801>2.706,
18×12×12×18使用智能手机
5
13
18
不使用智能手机
7
5
12
总计
12
18
30
所以在犯错误概率不超过0.1的前提下,认为使用智能手机对学习有影响.
6.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体数据如下表:
专业
性别
男
女
为了判断选该课的学生主修统计专业是否与性别有关系,根据表中的数据,得到K2=非统计专业
13
7
统计专业
10
20
50×13×20-10×72≈4.844,因为K2>3.841,所以判定主修统计专业与性别有关系,那么23×27×20×30这种判断出错的可能性最大为________.
答案 5%
解析 因为K2>3.841,所以有95%的把握认为主修统计专业与性别有关,出错的可能性为5%.
7.下表是关于男婴与女婴出生时间调查的列联表:
男婴
女婴
总计
那么,A=________,B=________,C=________,D=________,E=________.
答案 47 92 88 82 53
晚上
45
E
98
白天
A
35
D
总计
B
C
180
98+D=180,解析 由列联表知识得A+35=D,E+35=C,B+C=180,B=92,解得C=88,D=82,E=53.A=47,45+E=98,
8.假设两个分类变量X与Y,它们的取值分别为{x1,x2},{y1,y2},其2×2列联表为
x1
x2
总计
对于以下数据,对同一样本能说明X与Y有关的可能性最大的一组是________.(填序号)
①a=8,b=7,c=6,d=5;
②a=8,b=6,c=5,d=7;
③a=8,b=5,c=7,d=6;
④a=5,b=6,c=8,d=7.
y1
a
c
a+c
y2
b
d
b+d
总计
a+b
c+d
a+b+c+d
答案 ②
解析 |ad-bc|越大,K2越大,X与Y有关的可能性越大,计算得②中|ad-bc|最大.
9.在某测试中,卷面满分为100分,60分及以上为及格,为了调查午休对本次测试前两个月复习效果的影响,特对复习中进行午休和不进行午休的考生进行了测试成绩的统计,数据如下表所示:
分数段
午休考生人数
不午休考生人数
(1)根据上述表格完成列联表:
午休
不午休
总计
(2)根据列联表可以得出什么样的结论?对今后的复习有什么指导意义?
解 (1)根据题表中数据可以得到列联表如下:
午休
不午休
总计
8046513(2)计算可知,午休的考生及格率为P1==,不午休的考生及格率为P2==,则180920040P1>P2,因此,可以粗略判断午休与考生考试及格有关系,并且午休的及格率高,所以在以后的复习中考生应尽量适当午休,以保持最佳的学习状态.
10.研究人员选取170名青年男女大学生的样本,对他们进行一种心理测验.发现有60名女生对该心理测验中的最后一个题目的反应是:作肯定的有22名,否定的有38名;男生110名在相同的题目上作肯定的有22名,否定的有88名.问:性别与态度之间是否存在某种关系?分别用等高条形图和独立性检验的方法判断.
解 建立性别与态度的2×2列联表如下:
肯定 否定 总计
及格人数
80
65
145
不及格人数
100
135
235
总计
180
200
380
及格人数
不及格人数
总计
17 51 67 15 30 17 3
29~39
23
40~49 50~59 60~69
47 30 21
70~79
14
80~89
31
90~100
14
男生
女生
总计
22
22
44
88
38
126
110
60
170
根据列联表中所给的数据,可求出男生中作肯定态度的频率为22=0.2,女生中作肯定态度11022的频率为≈0.37.作等高条形图如图,其中两个深色条形的高分别表示男生和女生中作肯定60态度的频率,比较图中深色条形的高可以发现,女生中作肯定态度的频率明显高于男生中作肯定态度的频率,因此可以认为性别与态度有关系.
根据列联表中的数据得到K2的观测值
170×22×38-22×882k=≈5.622>5.024.
110×60×44×126因此,在犯错误的概率不超过0.025的前提下认为性别和态度有关系.
11.如图是调查某地区男、女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图中可以看出( )
A.性别与喜欢理科无关
B.女生中喜欢理科的比例约为80%
C.男生比女生喜欢理科的可能性大些
D.男生中不喜欢理科的比例约为60%
答案 C
解析 由题图可知,女生中喜欢理科的比例约为20%,男生中喜欢理科的比例约为60%,因此男生比女生喜欢理科的可能性大些.
12.根据下面的列联表得到如下四个判断:
患肝病
未患肝病
总计
①至少有99.9%的把握认为“患肝病与嗜酒有关”;②至少有99%的把握认为“患肝病与嗜酒有关”;③在犯错误的概率不超过0.01的前提下认为“患肝病与嗜酒有关”;④在犯错误的概率不超过0.01的前提下认为“患肝病与嗜酒无关”.
其中正确命题的个数为( )
A.0 B.1 C.2 D.3
答案 C
解析 由列联表中数据可求得随机变量K2992×700×32-60×2002的观测值k=760×232×900×92嗜酒
700
200
900
不嗜酒
60
32
92
总计
760
232
992
≈7.349>6.635,所以在犯错误的概率不超过0.01的前提下,认为“患肝病与嗜酒有关系”,即至少有99%的把握认为“患肝病与嗜酒有关系”.因此②③正确,故选C.
13.有两个分类变量X,Y,其列联表如下所示,
X1
X2
其中a,15-a均为大于5的整数,若在犯错误的概率不超过0.05的前提下认为X,Y有关,则a的值为( )
A.8
C.8或9
答案 C
解析 根据公式,得K2的观测值
65×[a30+a-15-a20-a]2k=
20×45×15×5013×13a-602=>3.841,根据a>5且15-a>5,
20×45×3×2a∈Z,求得当a=8或9时满足题意.
14.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )
表1
B.9
D.6或8
Y1
a
15-a
Y2
20-a
30+a
成绩
性别
男
女
总计
不及格
6
10
16
及格
14
22
36
总计
20
32
52
表2
视力
性别
男
女
总计
表3
智商
性别
男
女
总计
表4
阅读量
性别
男
女
总计
A.成绩 B.视力 C.智商 D.阅读量
答案 D
解析 K2=nad-bc2,经检验表4中K2最大,故阅读量与性别有关联的可能a+bc+da+cb+d丰富
14
5
19
不丰富
6
27
33
总计
20
32
52
偏高
8
8
16
正常
12
24
36
总计
20
32
52
好
5
12
17
不好
15
20
35
总计
20
32
52
性最大.
15.2019年英超联赛期间,某一电视台对年龄高于40岁和不高于40岁的人是否喜欢利物浦
队进行调查,对高于40岁的调查了50人,不高于40岁的调查了50人,所得数据制成如下列联表:
高于40岁
不高于40岁
总计
3若工作人员从所有统计结果中任取一个,取到喜欢利物浦队的人的概率为,则有超过5________的把握认为年龄与利物浦队的被喜欢程度有关.
附:K2=nad-bc2.
a+bc+da+cb+d0.15
2.072
0.10
2.706
0.05
3.841
0.025
5.024
0.010
6.635
0.005
7.879
0.001
10.828
不喜欢利物浦队
p
15
a
喜欢利物浦队
q
35
b
总计
50
50
100
P(K2≥k0)
k0
答案 95%
解析 设“从所有人中任意抽取一个,取到喜欢利物浦队的人”为事件A,由已知得P(A)=q+353=,
1005所以q=25,p=25,a=40,b=60.
K2的观测值100×25×35-25×15225k==≈4.167>3.841.
640×60×50×50故有超过95%的把握认为年龄与利物浦队的被喜欢程度有关.
16.某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间(单位:小时)的样本数据.
(1)应收集多少位女生的样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图),其中样本数据的分组区间为[0,2),[2,4),[4,6),[6,8),[8,10),[10,12].估计该校学生每周平均体育运动时间超过4小时的概率;
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否认为“该校学生的每周平均体育运动时间与性别有关”.
附:
P(K2≥k0)
k0
K2=nad-bc2.
a+bc+da+cb+d0.100
2.706
0.050
3.841
0.010
6.635
0.005
7.879
4 500解 (1)由分层抽样可得300×=90,所以应收集90位女生的样本数据.
15 000(2)由频率分布直方图得学生每周平均体育运动时间超过4小时的频率为1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.
(3)由(2)知,300位学生中有300×0.75=225(人)的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.样本数据中有210份是关于男生的,90份是关于女生的,可得每周平均体育运动时间与性别列联表如下:
每周平均体育运动时间不超过4小时
每周平均体育运动时间超过4小时
总计
结合列联表可算得K2的观测值
300×45×60-30×1652k=≈4.762>3.841.
75×225×210×90所以有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
男生
45
165
210
女生
30
60
90
总计
75
225
300