多少样本量能确定随机变量分布?

8787℃ JEREMY

多少样本量能确定随机变量分布?

问卷调查样本量的确定

调查问卷的样本量就是样本中所包含的单位的个数,也就是抽样个体的数量。样本量可以影响抽样误差、调查需要的时间、调查所需的费用和调查组成员的一些情况。那么样本量如何确定呢,主要有以下几个因素。

第一,预测值要有一定的精确度。因为抽样误差的大小会直接影响到估计值的准确程度。

第二,总体指标的变异情况。这会影响到应答率的准确率,从而对样本量产生影响,在计算样本的过程中,还要考虑好以下几个重要环节。

一是为保证抽样率的准确性,必须要做好抽样推断,使之有一定的可信度;

二是根据方差的大小来确定总体变异程度,方差大就多抽一些,方差小就少抽一些;

三是要根据方差的大少来决定抽样的多少;

四是要根据经费的情况确定样本的数量,这里包括调查人员的开支、调查途径的费用,调查问卷的成本等。

第三,样本量是与估计值紧紧相关的,在样本量不断增加的情况下,估计值的精确度也会有相符的提高。

在确定样本后,样本量的计算是一个很关键的问题,这需要一个科学的公式,是专业性的,在这里我们就不对公式进行具体介绍了。总体来主,样本量要根据估计的域的多少来决定样本量的多少。

总之样本量的确定要遵循一人原则,即:精度和费用的互相作用,费用一定精度最高,精度一定费用最低。

判断样本中位数的抽样分布很接近正太分布时至少需要多大样本量

会。样本均值的抽样分布是所有的样本均值形成的分布,样本均值的抽样分布在形状上却是对称的。随着样本量的增大,不论原来的总体是否服从正态分布,样本均值的抽样分布都将趋于正态分布。

问卷调查样本量如何确定?

确定样本量的基本公式

  在简单随机抽样的条件下,我们在统计教材中可以很容易找到确定调查样本量的公式:

Z2 S2

n = ------------ (1)

d2

  其中:

  n代表所需要样本量

  Z:置信水平的Z统计量,如95%置信水平的Z统计量为1.96,99%的Z为2.68。

  S:总体的标准差;

  d :置信区间的1/2,在实际应用中就是容许误差,或者调查误差。

  对于比例型变量,确定样本量的公式为:

Z2 ( p ( 1-p))

n = ----------------- (2)

d2

  其中:

  n :所需样本量

  z:置信水平的z统计量,如95%置信水平的Z统计量为1.96,99%的为2.68

  p:目标总体的比例期望值

  d:置信区间的半宽

统计随机分布

概率分布-正文   概率论的基本概念之一,用以表述随机变量取值的概率规律。为了使用的方便,根据随机变量所属类型的不同,概率分布取不同的表现形式。

  离散型分布与分布列  只取有限个或可列个实数值的随机变量称为离散型随机变量。例如,1000件产品中有50件次品,从中随意抽取100件,则其中的次品数X 就是一个只取 0到50之间的整数值的离散型随机变量。又如一个电话交换台每天收到的呼叫次数X 就是一个可取全部非负整数值的离散型随机变量。设离散型随机变量X所取的全部值为{x<sub>1</sub>,x<sub>2</sub>,…,x<sub>n</sub>,…},记事件{X=x<sub>k</sub>}的概率P(X=xk)=pk,k=1,2,…,n,…,于是二元序列{(xk,pk),k=1,2,…,n,…}表述了X取值的概率规律。这个二元序列称为分布列。可用分布列来表述的离散型随机变量取值的概率规律称为离散型分布。由概率的基本性质可知,任一分布列必然满足条件:pk≥0,(若随机变量只取n个值,则有)。

  上述表达形式也适用于随机向量的情形,这只须把X理解为m 维随机向量X =(X1,X2,…,Xm),xk理解为m 维向量值,事件{X=x<sub>k</sub>}的概率pk理解为 。相应的分布列所表述的概率规律称为m 维离散型分布。

  分布函数与边缘分布函数  对于那些取值充满一个区间【α,b】、 甚至充满整个实数轴R=(-∞,∞)的随机变量,就不可能用分布列的形式来表述它取值的概率规律,一般可统一用分布函数来表述。设X是一个随机变量,x是任一实数,事件{X≤x}的概率P(X≤x)=F(x),x∈R,称为X的分布函数;在数理统计学中也称为累积分布函数。由概率的性质知道,任何分布函数F(x)都满足以下三个条件:

  ① 单调非降,即当α<b时,F(α)≤F(b);

  ② 右连续,即,其中b→α 表示b>α且趋近于α;

  ③ ,。反之,任一满足这三个条件的函数,必是某一随机变量的分布函数。用分布函数可以表示X落入某个区间的概率,例如当α<b时,P(α<X≤b)=F(b)-F(α),P(α≤X≤b)=F(b)-F(x)=F(b)-F(α-)。图1画出了一个分布函数的图像。   如果X是一个离散型随机变量,它的分布列为{(xk,pk),k=1,2,…,n,…},那么由概率的可列可加性知道,X的分布函数可以表为 其中右边的求和式表示对满足 xk≤x的一切下标k求和。图2画了一个这种类型的分布函数。

  分布函数的定义也容易推广到随机向量的情形。设X=(X1,X2,…,Xm)是一个m 维随机向量,x=(x1,x2,…,xm)是任一m 维实向量,令 ,则函数F(x1,x2,…,xm)称为X 的m 维分布函数,或称为m个随机变量X1,X2,…,Xm的联合分布函数。m 维分布函数也有与一维情形相应的充分必要条件,但叙述较为复杂。

  利用X1,X2,…,Xm的联合分布函数F(x1,x2,…,xm),可以求出其中任何一部分随机变量的分布函数,后者称为前者的边缘分布函数。以两个随机变量X1、X2为例,设它们的联合分布函数为F(x1,x2),则X1,X2的两个边缘分布函数分别为 及 。  连续型分布与密度函数  实际中最常遇到的随机变量的类型除离散型以外,还有连续型随机变量。如果存在一非负实函数p(x),使随机变量X的分布函数F(x)可以表成: ,则称X为连续型随机变量,p(x)称为X 的密度函数,它一定满足条件 。可以用密度函数来表述的随机变量取值的概率规律称为连续型分布。连续型随机变量 X取任何一个实数值的概率等于0;当实数α<b时,可以用密度函数在区间【α,b】上的积分计算事件{α≤X≤b}的概率,即: ,这个概率又可以用图3中阴影部分的面积来表示。   如果存在一个m元实函数p(x1,x2,…,xm),使m 维随机向量X=(X1,X2,…,Xm)的分布函数F(x1,x2,…,xm)可以表示成

   ,则p(x1,x2,…,xm)称为随机向量X 的m 维密度函数,或称为m个随机变量X1,X2 ,…,Xm的联合密度函数。若两个随机变量X1,X2有联合密度函数p(x1,x2),则X1、X2自身也分别有密度函数p1(x1)和p2(x2),且可以由下式算出: ,p1(x1),p2(x2)分别称为p(x1,x2)的边缘密度函数。类似地,可以考虑m 维密度函数的边缘密度函数。

  概率分布的测度形式  有时,主要是为了理论研究的方便,还需要有一种表述随机变量与随机向量取值的概率规律的更一般的形式。对给定的正整数m,用Rm表示全体m 维实向量构成的集,称为m 维实空间,对于α=(α1,α2,…,αm),用符号(α,b】表示Rm中如下的超长方体:(α,b】={x∈R<sup>m</sup>:x=(x<sub>1</sub>,x<sub>2</sub>,…,x<sub>m</sub>),α<sub>j</sub><x<sub>j</sub>≤b<sub>j</sub>(j=1,2,…,m),又用B<sup>m</sup>表示由R<sup>m</sup>中的一切超长方体产生的σ域,称为m维波莱尔域,B<sup>m</sup>中的成员称为R<sup>m</sup>中的波莱尔集。由随机变量的公理化定义可知,若X为概率空间(Ω,F,P)上的m 维随机向量,则对任一B∈B<sup>m</sup>有{X∈B}∈F。对每一B∈Bm,定义PX(B)=P(X∈B),则PX是可测空间(Rm,Bm)上的一个概率测度(见概率)。这个概率测度PX一般也称为随机向量X 的概率分布。

  实际上,对于不同类型的随机变量X,它的概率分布PX分别被它的分布列、密度函数和分布函数完全确定。以一维情形(m=1)为例,对于任一B∈B1,其PX(B)分别为: 式中最后一个积分是勒贝格-斯蒂尔杰斯积分。

  随机变量的函数的分布  一个或多个随机变量的连续函数或初等函数(甚至更一般的波莱尔可测函数)仍然是随机变量,而且后者的分布由前者的分布完全确定。这一事实无论在理论上或实际计算上都是重要的。例如,设随机变量X的分布函数为F(x),α(>0)及b是二实数,则Y=αX b也是随机变量,它的分布函数 。又如随机变量X1,X2有联合密度函数p(x1,x2),则X=X1 X2及Y=X1/X2也是随机变量(在后者中,假定X2≠0)),它们分别有密度函数 及 。  数学期望  见数学期望。

  方差  见方差。

  中位数与分位数  设X是随机变量,同时满足P{X≤x}≥1/2及P{X≥x}≥1/2二式的实数x,称为X的中位数,记作mX或x1/2。中位数对于任何随机变量都是存在的,但可能不惟一。它是反映随机变量取值中心的一个数值。在理论上,特别对数学期望不存在的情形,它可以起到类似于数学期望的作用。它与期望相比,主要优点是受极端值的影响较小,因此在某些应用统计问题中,用它代替平均数作为一个主要指标。

  将中位数的概念推广,可以引进数理统计学中常用的分位数的概念。给定0<α<1 ,随机变量X的上α分位数是指同时满足下列两条件的数xα:P{X≤xα}≥1-α,P{X≥xα}≥α。中位数就是1/2分位数。x1-α 又称为X的下α分位数。

  特征函数  傅里叶变换是数学分析中非常重要而有效的工具,将它应用于概率论,对分布函数作傅里叶-斯蒂尔杰斯变换,就得到特征函数。由于它具有很好的性质,因此在研究随机变量之和及其概率分布时起着十分重要的作用。在P.莱维于1919年至1925年系统地建立概率论中的特征函数性质以后的15年间,它被用来完整地解决了普遍极限定理(见中心极限定理),并深入地研究了独立增量过程。

  设F(x)是随机变量X的分布函数,则称 (t∈R)为F(x)或X 的特征函数。特别,若分布是具有密度函数p(x)的连续型分布,则 ;若分布为

       P(X =xk)=pk (k=1,2,…),的离散型分布,则 。  特征函数的重要性质有:①