切比雪夫定理 chebyshev's theorem 任意一个数据集中,位于其平均数m个标准差范围内的比例(或部分)总是至少为1-1/㎡,其中m为大于1的任意正数。对于m=2和m=3有如下结果: 所有数据中,至少有3/4(或75%)的数据位于平均数2个标准差范围内。 所有数据中,至少有8/9(或89%)的数据位于平均数3个标准差范围内。伯特兰—切比雪夫定理 若整数n > 3,则至少存在一个质数p,符合n < p < 2n − 2。另一个稍弱说法是:对于所有大于1的整数n,存在一个质数p,符合n < p < 2n。
定义 分布数列是反映总体单位在各组分布状况的一系列数字。 分布数列包括两要素: 一是组的名称(即按一定标准划分出来的各个组), 二是各组次数(即各组所对应的总体但为数)。 变量数列 按照数量标志分组形式的分布数列称为变量分布数列,简称变量数列。根据分组变量在各组取值形式的不同,变量数列可分为单项式分布数列和组距式分布数列。
方法简介 分层随机抽样(Stratified sampling)是随机抽样中的一种抽样方法。 在抽样前先对母群体依某些特征分成若干层,再利用简单随机抽样,自各层中抽取样本. 类型随机抽样,又称分层随机抽样,它是先将总体各单位按一定标准分成各种类型(或层);然后根据各类型单位数与总体单位数的比例,确定从各类型中抽取样本单位的数量;最后,按照随机原则从各类型中抽取样本。案例学习 比如,我们要了解某市400个国营企业的生产经营情况,决定采取类型随机抽样法抽取20个企业作为样本进行调查,其具体做法是:首先,将这400个企业按产业(也可按行政区划、盈利情况、规模大小等)分为三类,假定第一产业40个,第二产业200个,第三产业160个。然后,按各类企业在总体中的比重,确定各类企业抽取样本单位的数量。其中,第一产业的企业占总体10%,按比例应抽样本企业2个;按同样方法计算,第二产业中应抽样本企业10个,第三产业中应抽样本企业8个。最后,采用简单随机抽样或等距随机抽样方法,从各类企业中抽出上述数量的样本单位。 搞好类型随机抽样的关键,是分类的标准要科学、要符合实际情况,许多复杂的事物还应该根据多种标准作多种分类或综合分类。分类的结果必须是每一个单位都归属于某一类,而不允许既可属于这一类、又可属于那一类,也不允许互相交叉或有所遗漏;必须是各类型单位的数量之和等于总体单位的数量,而不允许大于或小于总体单位的数量。类型随机抽样的优点 类型随机抽样的优点是,它适用于总体单位数量较多、内部差异较大的调查对象。与简单随机抽样和等距随机抽样相比较,在样本数量相同时,它的抽样误差较小;在抽样误差的要求相同时,它所需的样本数量较少。类型随机抽样的缺点是,必须对总体各单位的情况有较多的了解,否则无法作出科学的分类。而这一点在实际调查之前又往往难以做到。
学术定义 先将总体的单位按某种特征分为若干次级总体(层),然后再从每一层内进行单纯随机抽样,组成一个样本。 一般地,在抽样时,将总体分成互不交叉的层,然后按一定的比例,从各层次独立地抽取一定数量的个体,将各层次取出的个体合在一起作为样本,这种抽样方法是一种分层抽样。 又称分类抽样或类型抽样。将总体划分为若干个同质层,再在各层内随机抽样或机械抽样,分层抽样的特点是将科学分组法与抽样法结合在一起,分组减小了各抽样层变异性的影响,抽样保证了所抽取的样本具有足够的代表性。 分层抽样根据在同质层内抽样方式不同,又可分为一般分层抽样和分层比例抽样,一般分层抽样是根据样品变异性大小来确定各层的样本容量,变异性大的层多抽样,变异性小的层少抽样,在事先并不知道样品变异性大小的情况下,通常多采用分层比例抽样。适用条件 分层抽样尽量利用事先掌握的信息,并充分考虑了保持样本结构和总体结构的一致性,这对提高样本的代表性是很重要的。当总体是由差异明显的几部分组成时,往往选择分层抽样的方法实例应用 例如,一个单位的职工有500人,其中不到35岁有125人,35岁至49岁的有280人,50岁以上的有95人.为了了解这个单位职工与身体状况有关的某项指标,要从中抽取一个容量为100的样本,由于职工年龄与这项指标有关,决定采用分层抽样方法进行抽取.因为样本容量与总体的个数的比为1:5,所以在各年龄段抽取的个数依次为125/5,280/5,95/5,即25,56,19。
就某一可疑致病因素是否与某病的发生有联系所进行的追踪调查,是群体调查的基本方法之一。一般是将特定范围的未患某病的人群划分为暴露于某因素的暴露组和非暴露于该因素的对照组,追踪观察一定时间,记录各组发生该病(或该病死亡)的例数,并对两组的该病发病率和死亡率作比较,以研究该因素是否与该病的发生或死亡有关。前瞻性调查多用于分析病因,考察特定因素的致病作用和社会保健措施的效果。进行前瞻性调查,明确调查的因素和目的,恰当地划分调查范围和对象,设置有代表性的暴露组和对照组,规定追踪调查的时间和方法,详确地登记所调查人群的人口变化,对可疑因素的关系进行分析和统计处理。
简介 利科特标量(Likert) 常用于调查问卷,一般分为五或七等评级,从最好到最不好(最满意到最不满意,最喜欢到最不喜欢……)标量简介 亦称“无向量”。有些物理量,只具有数值大小,而没有方向。这些量之间的运算遵循一般的代数法则。这样的量叫做“标量”。如质量、密度、温度、功、能量、路程、速率、体积、时间、热量、电阻等物理量。无论选取什么坐标系,标量的数值恒保持不变。矢量和标量的乘积仍为矢量。矢量和矢量的乘积,可构成新的标量,也可构成新的矢量,构成标量的乘积叫标积;构成矢量的乘积叫矢积。如功、功率等的计算是采用两个矢量的标积。a=f•s,p=f•v。力矩、洛仑兹力等的计算是采用两个矢量的矢积。m=r×f,f=qv+b。
分位差是对极差指标的一种改进,就是从变量数列中剔除了一部分极端值之后重新计算的类似于极差的指标。常用的分位差有四分位差、八分位差、十分位差、十六分位差、三十二分位差以及百分位差。
卡方测验(x2test,chi-squared test),统计学名词,测定实测值与理论值间符合程度的一种统计方法。如发现实测值与理论值有差异时,就需确定该差异是由于随机抽样误差还是由于理论假说有问题而引起的。通常首先建立无效假说,即认为观测值与理论值的差异是由于随机误差所致;再确定由于随机误差而导致该特定差异的概率;最后根据该概率作出相应的结论,如该概率大于某特定概率标准(即显著水准,生物统计学上一般定为0.05),则认为无效假设成立,即实测值与理论值的差异是由于随机误差引起的,进而得出实验值与理论值相符合的结论。