2024年5月6日发(作者:松妃)
超几何分布和二项分布的联系和区别
开滦一中张智民
在最近的考试中,有一半的学生不知道二项分布和超几何分布。如何区分它们?什么
时候可以用二项分布公式来解决这个概率问题?什么时候用超几何公式来求解?
好多学生查阅各种资料甚至于上网寻找答案,其实这个问题的回答就出现在教材上,人
教版新课标选修2-3从两个方面给出了很好的解释.
诚实可以被描述为:人们成千上万次地在寻找他。突然回过头来,那人在昏暗的灯光
下!1、 这两个定义是不同的
教材中的定义:(一)超几何分布的定义
在包含m个缺陷产品的N个产品中,取任意N个产品,其中X为缺陷产品,然后取p
(X=k)=
ckmn-kn-mcnc,k?0,1,2,?,m,其中m=min{m,n},且n≤n,m≤n,n,m,n∈n,称随机变量x
服从超
N几何分布
(二)独立重复试验和二项分布的定义
1) 独立重复试验:在相同条件下重复n次试验,每次试验结果相互独立,称为n次
独立重复试验,其中a(I=1,2,…,n)为第一次,然后
p(a1a2a3…an)=p(a1)p(a2)p(a3)…p(an)2)二项分布
在n个独立的重复测试中,X代表事件a发生的次数。假设每次试验中发生事件a的
概率为p,那么p(x=k)=cknp(1?p)kn?K(K=0,1,2,…,n),此时,据说随机变量
x服从二项分布,记录为x~B(n,P),
并称p为成功概率。
1.本质区别
(1)超几何分布描述的是不放回抽样问题,二项分布描述的是放回抽样问题;
(2) 超几何分布中的概率计算本质上是一个经典的概率问题;二项分布中的概率计
算本质上是相互独立事件的概率问题
2.计算公式
超几何分布:在包含m个缺陷产品的N个产品中,取任意N个产品,其中正好有x个
缺陷产品,然后取p(x=k)
第1页共7页
=
ckmcnn-kn-mc,k?0,1,2,?,m,
N二项分布:在N个独立的重复测试中,X代表事件A的发生次数。如果每个测试中
事件A的发生概率为p,那么p(X=k)=cknp(1?p)kn?k(k=0,1,2,…,n),
温馨提示:当题目中出现“用样本数据估计xxx的总体数据”时,均为二项分布问题。
比如2021-2021高三上学期期末考试19题。二、二者之间是有联系的
人民教育版新课程标准选修2-3第59页练习2.2b第3组:
例.某批n件产品的次品率为2%,现从中任意地依次抽出3件进行检验,问:
(1) 当n=500、500和500000时,通过放回去和不放回去的方式提取一个缺陷产品
的概率是多少?
(2)根据(1)你对超几何分布与二项分布的关系有何认识?人教版配套的教学参考上给
出了如下的答案与解释说明【解】(1)在不放回的方式抽取中,每次抽取时都是从这n件产
品中抽取,从而抽到次品的概率都为0.02.次品数x~b(3,0.02),恰好抽到1件次品的概率
为p(x=1)=c31×0.02×(1-0.02)2=3×0.02×0.982≈0.057624。
在不回收的提取中,缺陷产品数量X是一个随机变量,X服从超几何分布,X的分布
与产品总数n有关,因此需要在三种情况下分别计算
①n=500时,产品的总数为500件,其中次品的件数为500×2%=10,合格品的件数为490.
从500件产品中抽出3件,其中恰好抽到1件次品的概率为
p(x?1)?c10c490c500312?30? 490? 489500? 499? 498? 当0.057853② n=5000,
产品总数为5000,其中不良品数为5000×2%=100,合格品数为
4900.从5000件产品中抽出3件,其中恰好抽到1件次品的概率为
p(x?1)?c100c4900c5000312?300? 4900? 48995000? 4999? 4998? 当
0.0576747③ n=50000,产品总数为50000件,其中不良品数为50000×2%=1000件,合格
品
数为49000.从50000件产品中抽出3件,其中恰好抽到1件次品的概
p(x?1)?c1000c49000c50000312?3000? 49000? 4899950000? 49999? 49998? 零
点零五七六二六
(2)根据(1)的计算结果可以看出,当产品的总数很大时,超几何分布近似为二项分布.
这也是可以理解的,当产品总数很大而抽出的产品较少时,每次抽出产品后,次品率近似不
变,这样就可以近似看成每次抽样的结果是互相独立的,抽出产品中的次品件数近似服从二
项分布
【说明】由于数字比较大,可以通过计算机或计算器进行计算。此外,本课题还可以
帮助学生理解超几何分布和二项式分布之间的关系:
第一,n次试验中,某一事件a出现的次数x可能服从超几何分布或二项分布.当这n次
试验是独立重复试验时,x服从二项分布;当这n次试验是不放回摸球问题,事件a为摸到某
种特性(如某种颜色)的球时,x服从超几何分布。
第二,在不把球放回去的情况下触摸球的N次中,触摸某一颜色的次数X服从超几何
分布,但当在包中时
第2页共7页
当球数n较大时,X的分布列近似为二项式分布,且该近似的精度随球数n的增加而
增加。
从以上分析可以看出两者之间的联系:
当调查研究的样本量很大时,在有收益提取和无收益提取的条件下,计算出的概率非
常接近。超几何分布可以近似地看作二项分布。参见下面的相关示例
例1.(2021漯河模拟)寒假期间,我市某校学生会组织部分同学,用“10分制”随机调
查“阳光花园”社区人们的幸福度.现从调查人群中随机抽取16名,如图所示的茎叶图记
录了他们的幸福度分数(以小数点前的一位数字为茎,小数点后的一位数字为叶),若幸福度
分数不低于8.5分,则称该人的幸福度为“幸福”
(1) 从这16人中随机选择3人,至少有2人是“幸福”的概率;
(2)以这16人的样本数据来估计整个社区的总体数据,若从该社区(人数很多)任选3
人,记ξ表示抽到“幸福”的人数,求ξ的分布列及数学期望
不要急着先看答案。我们先自己解决这个问题,然后再往下看。将会有意想不到的收
获
[错解](1)由茎叶图可知,抽取的16人中“幸福”的人数有12人,其他的有4人;记
“从这16人中随机选取3人,至少有2人是“幸福”,”为事件a.由题意得
p(a)?1.c433c16?补体第四成份?c12c16321?1.1140? 970? 十二万一千一百四
十
(2)ξ的可能取值为0,1,2,3则p(??0)?c4c12c1612330?4560?1140;
p(??1)?c4c12c163321?72560?970;
p(?2)?c4c12c163?264560? 3370;p(?3)?c4c12c1630?220560? 1128;
所以ξ的分布列为
第3页,共7页
[错解分析]第二问的选人问题是不放回抽样问题,按照定义先考虑超几何分布,但是题
目中又明确给出“以这:16人的样本数据来估计整个社区的总体数据,从该社区(人数很多)
任选3人”,说明不是从16人中任选3人,而是从该社区(人数很多)任选3人,所以可以近
似看作是3次独立重复试验,应该按照二项分布去求解,而不能按照超几何分布去处理
[阳性溶液](1)(1)根据茎叶图,在选定的16人中,12人“快乐”,其他4人;
16人中有3人是随机选择的,其中至少有两人“快乐”
p(a)?1?c433c16?c4?c12c16321?1?1140?970?121140
342)根据茎叶图,如果你选择任何一个人,这个人的幸福是“幸福”的概率是
~b(3,34)
3,ξ的可能值显然是0,1,2,3
1则p(??0)4??164;p(?27?1)?c313?14?4?2?964;
p(?2)?c32?3.1.4.4.2.3.p(?3)64? 4.3.2764;
从以上解题过程中我们还发现,错解中的期望值与正解中的期望值相等,好多学生都觉
太不可思议了。同样的结果怎么可能发生?事实上,这是由于前面解释的原因。超几
何分布与二项式分布有关。参见他们的期望公式:
(1)在含有m件次品的n件产品中,任取n件,其中恰有x件次品,随机变量ⅹ服从超几
何分布,超几何分布的期望计算公式为ex=
Mnnmn(可根据组合数公式和期望的定义推导);
(2)随机变量x服从二项分布,记作x~b(n,p),ex=np;当超几何分布中的n??时,
p、 此时,我们可以将非返回采样问题放在超几何分布中,这是近距离的
似看作是有放回抽样问题,再次说明n??时,可以把超几何分布看作是二项分布。
结论:综上所述,当问题涉及“使用样本数据估计总体数据”时,它是二项分布。在
高考解题中,我们仍然需要区分超几何分布和二项式分布,这样才能正确解题并获得满分。
我相信所有的学生都应该有多年的真实试卷和2022的模拟试卷。试试二项式分布和超几
何分布的概率问题,争取全概率分数。来吧
再比如:
第4页,共7页
18.(本小题满分12分)(百所名校高考模拟金典卷五)
为了调查观众对电视娱乐节目的喜爱程度,有人从a、B两个地方随机抽取了8名观
众进行问卷调查(满分100分),结果统计如下图所示。(1) 计算所选a、B两地观众
问卷得分的平均分和方差,并根据统计知识简要说明两地观众对电视娱乐节目的喜爱程度;
(2)以频率估计概率,若从甲地观众中再随机抽取3人进行问卷调查,记问卷分数超过
80分的人数为e,求的分布列与数学期望
看原始问题的答案。这实际上是一个错误的解决方案:
正解:(1)同上。
(2) 因为问题是这样的:用频率来估计概率,也就是用这个频率来估计a区的整体
情况,“如果从a区的观众中随机选择三个人”,这是即时而有力的证据,所以这个问题
应该是二项分布,而不是超几何分布。
第5页共7页
2024年5月6日发(作者:松妃)
超几何分布和二项分布的联系和区别
开滦一中张智民
在最近的考试中,有一半的学生不知道二项分布和超几何分布。如何区分它们?什么
时候可以用二项分布公式来解决这个概率问题?什么时候用超几何公式来求解?
好多学生查阅各种资料甚至于上网寻找答案,其实这个问题的回答就出现在教材上,人
教版新课标选修2-3从两个方面给出了很好的解释.
诚实可以被描述为:人们成千上万次地在寻找他。突然回过头来,那人在昏暗的灯光
下!1、 这两个定义是不同的
教材中的定义:(一)超几何分布的定义
在包含m个缺陷产品的N个产品中,取任意N个产品,其中X为缺陷产品,然后取p
(X=k)=
ckmn-kn-mcnc,k?0,1,2,?,m,其中m=min{m,n},且n≤n,m≤n,n,m,n∈n,称随机变量x
服从超
N几何分布
(二)独立重复试验和二项分布的定义
1) 独立重复试验:在相同条件下重复n次试验,每次试验结果相互独立,称为n次
独立重复试验,其中a(I=1,2,…,n)为第一次,然后
p(a1a2a3…an)=p(a1)p(a2)p(a3)…p(an)2)二项分布
在n个独立的重复测试中,X代表事件a发生的次数。假设每次试验中发生事件a的
概率为p,那么p(x=k)=cknp(1?p)kn?K(K=0,1,2,…,n),此时,据说随机变量
x服从二项分布,记录为x~B(n,P),
并称p为成功概率。
1.本质区别
(1)超几何分布描述的是不放回抽样问题,二项分布描述的是放回抽样问题;
(2) 超几何分布中的概率计算本质上是一个经典的概率问题;二项分布中的概率计
算本质上是相互独立事件的概率问题
2.计算公式
超几何分布:在包含m个缺陷产品的N个产品中,取任意N个产品,其中正好有x个
缺陷产品,然后取p(x=k)
第1页共7页
=
ckmcnn-kn-mc,k?0,1,2,?,m,
N二项分布:在N个独立的重复测试中,X代表事件A的发生次数。如果每个测试中
事件A的发生概率为p,那么p(X=k)=cknp(1?p)kn?k(k=0,1,2,…,n),
温馨提示:当题目中出现“用样本数据估计xxx的总体数据”时,均为二项分布问题。
比如2021-2021高三上学期期末考试19题。二、二者之间是有联系的
人民教育版新课程标准选修2-3第59页练习2.2b第3组:
例.某批n件产品的次品率为2%,现从中任意地依次抽出3件进行检验,问:
(1) 当n=500、500和500000时,通过放回去和不放回去的方式提取一个缺陷产品
的概率是多少?
(2)根据(1)你对超几何分布与二项分布的关系有何认识?人教版配套的教学参考上给
出了如下的答案与解释说明【解】(1)在不放回的方式抽取中,每次抽取时都是从这n件产
品中抽取,从而抽到次品的概率都为0.02.次品数x~b(3,0.02),恰好抽到1件次品的概率
为p(x=1)=c31×0.02×(1-0.02)2=3×0.02×0.982≈0.057624。
在不回收的提取中,缺陷产品数量X是一个随机变量,X服从超几何分布,X的分布
与产品总数n有关,因此需要在三种情况下分别计算
①n=500时,产品的总数为500件,其中次品的件数为500×2%=10,合格品的件数为490.
从500件产品中抽出3件,其中恰好抽到1件次品的概率为
p(x?1)?c10c490c500312?30? 490? 489500? 499? 498? 当0.057853② n=5000,
产品总数为5000,其中不良品数为5000×2%=100,合格品数为
4900.从5000件产品中抽出3件,其中恰好抽到1件次品的概率为
p(x?1)?c100c4900c5000312?300? 4900? 48995000? 4999? 4998? 当
0.0576747③ n=50000,产品总数为50000件,其中不良品数为50000×2%=1000件,合格
品
数为49000.从50000件产品中抽出3件,其中恰好抽到1件次品的概
p(x?1)?c1000c49000c50000312?3000? 49000? 4899950000? 49999? 49998? 零
点零五七六二六
(2)根据(1)的计算结果可以看出,当产品的总数很大时,超几何分布近似为二项分布.
这也是可以理解的,当产品总数很大而抽出的产品较少时,每次抽出产品后,次品率近似不
变,这样就可以近似看成每次抽样的结果是互相独立的,抽出产品中的次品件数近似服从二
项分布
【说明】由于数字比较大,可以通过计算机或计算器进行计算。此外,本课题还可以
帮助学生理解超几何分布和二项式分布之间的关系:
第一,n次试验中,某一事件a出现的次数x可能服从超几何分布或二项分布.当这n次
试验是独立重复试验时,x服从二项分布;当这n次试验是不放回摸球问题,事件a为摸到某
种特性(如某种颜色)的球时,x服从超几何分布。
第二,在不把球放回去的情况下触摸球的N次中,触摸某一颜色的次数X服从超几何
分布,但当在包中时
第2页共7页
当球数n较大时,X的分布列近似为二项式分布,且该近似的精度随球数n的增加而
增加。
从以上分析可以看出两者之间的联系:
当调查研究的样本量很大时,在有收益提取和无收益提取的条件下,计算出的概率非
常接近。超几何分布可以近似地看作二项分布。参见下面的相关示例
例1.(2021漯河模拟)寒假期间,我市某校学生会组织部分同学,用“10分制”随机调
查“阳光花园”社区人们的幸福度.现从调查人群中随机抽取16名,如图所示的茎叶图记
录了他们的幸福度分数(以小数点前的一位数字为茎,小数点后的一位数字为叶),若幸福度
分数不低于8.5分,则称该人的幸福度为“幸福”
(1) 从这16人中随机选择3人,至少有2人是“幸福”的概率;
(2)以这16人的样本数据来估计整个社区的总体数据,若从该社区(人数很多)任选3
人,记ξ表示抽到“幸福”的人数,求ξ的分布列及数学期望
不要急着先看答案。我们先自己解决这个问题,然后再往下看。将会有意想不到的收
获
[错解](1)由茎叶图可知,抽取的16人中“幸福”的人数有12人,其他的有4人;记
“从这16人中随机选取3人,至少有2人是“幸福”,”为事件a.由题意得
p(a)?1.c433c16?补体第四成份?c12c16321?1.1140? 970? 十二万一千一百四
十
(2)ξ的可能取值为0,1,2,3则p(??0)?c4c12c1612330?4560?1140;
p(??1)?c4c12c163321?72560?970;
p(?2)?c4c12c163?264560? 3370;p(?3)?c4c12c1630?220560? 1128;
所以ξ的分布列为
第3页,共7页
[错解分析]第二问的选人问题是不放回抽样问题,按照定义先考虑超几何分布,但是题
目中又明确给出“以这:16人的样本数据来估计整个社区的总体数据,从该社区(人数很多)
任选3人”,说明不是从16人中任选3人,而是从该社区(人数很多)任选3人,所以可以近
似看作是3次独立重复试验,应该按照二项分布去求解,而不能按照超几何分布去处理
[阳性溶液](1)(1)根据茎叶图,在选定的16人中,12人“快乐”,其他4人;
16人中有3人是随机选择的,其中至少有两人“快乐”
p(a)?1?c433c16?c4?c12c16321?1?1140?970?121140
342)根据茎叶图,如果你选择任何一个人,这个人的幸福是“幸福”的概率是
~b(3,34)
3,ξ的可能值显然是0,1,2,3
1则p(??0)4??164;p(?27?1)?c313?14?4?2?964;
p(?2)?c32?3.1.4.4.2.3.p(?3)64? 4.3.2764;
从以上解题过程中我们还发现,错解中的期望值与正解中的期望值相等,好多学生都觉
太不可思议了。同样的结果怎么可能发生?事实上,这是由于前面解释的原因。超几
何分布与二项式分布有关。参见他们的期望公式:
(1)在含有m件次品的n件产品中,任取n件,其中恰有x件次品,随机变量ⅹ服从超几
何分布,超几何分布的期望计算公式为ex=
Mnnmn(可根据组合数公式和期望的定义推导);
(2)随机变量x服从二项分布,记作x~b(n,p),ex=np;当超几何分布中的n??时,
p、 此时,我们可以将非返回采样问题放在超几何分布中,这是近距离的
似看作是有放回抽样问题,再次说明n??时,可以把超几何分布看作是二项分布。
结论:综上所述,当问题涉及“使用样本数据估计总体数据”时,它是二项分布。在
高考解题中,我们仍然需要区分超几何分布和二项式分布,这样才能正确解题并获得满分。
我相信所有的学生都应该有多年的真实试卷和2022的模拟试卷。试试二项式分布和超几
何分布的概率问题,争取全概率分数。来吧
再比如:
第4页,共7页
18.(本小题满分12分)(百所名校高考模拟金典卷五)
为了调查观众对电视娱乐节目的喜爱程度,有人从a、B两个地方随机抽取了8名观
众进行问卷调查(满分100分),结果统计如下图所示。(1) 计算所选a、B两地观众
问卷得分的平均分和方差,并根据统计知识简要说明两地观众对电视娱乐节目的喜爱程度;
(2)以频率估计概率,若从甲地观众中再随机抽取3人进行问卷调查,记问卷分数超过
80分的人数为e,求的分布列与数学期望
看原始问题的答案。这实际上是一个错误的解决方案:
正解:(1)同上。
(2) 因为问题是这样的:用频率来估计概率,也就是用这个频率来估计a区的整体
情况,“如果从a区的观众中随机选择三个人”,这是即时而有力的证据,所以这个问题
应该是二项分布,而不是超几何分布。
第5页共7页