沙斯通量表的定义 沙斯通量表是由一系列要求测试对象加以评判的表述组成,然后由被测试者选出他所同意的表述。这种量表和评比量表及语义差异量表的区别是,上述两种量表中的各种询问语句及答案是由调查者事先设计拟定的,而这种量表的语句是由回答者自行选定的,调查者在回答者回答的基础上建立起差异量表。 沙斯通量表的步骤 沙斯通量表基本设置步骤为: (1)收集大量的与要测量的态度有关的语句,一般应在100条以上,保证其中对主题不利的、中立的和有利的语句都占有足够的比例,并将其分别写在特制的卡片上。 (2)选定二十人以上的评定者,按照各条语句所表明的态度有利或不利的程度,将其分别归入十一类。第一类代表最不利的态度,依次递推…,第六类代表中立的态度…,第十一类代表最有利的态度。 (3)计算每条语句被归在这十一类中次数分布。 (4)删除那些次数分配过于分散的语句。 (5)计算各保留语句的中位数,并将其按中位数进行归类,如果中位数是n,则该态度语句归到第n类。 (6)从每个类别中选出一、二条代表语句(各评定者对其分类的判断最为一致的),将这些语句混合排列,即得到所谓的沙氏通量表。 沙氏通量表构作比较麻烦,但使用操作很简单,它只要求受测者指出量表中所同意的陈述或语句。每条语句根据其类别都有一个分值,量表中的语句排列可以是随意的,但每个受测者都应该只同意其中的分值相邻的几个意见,如果在实测中一个受测者的语句或意见的分值过于分散,则判定此人对要测量的问题没有一个明确一致的态度,或者量表的构作可能存在问题。 沙斯通量表的优缺点 沙斯通量表的语句是根据各评定人员的标准差确定的,有一定的科学性;其缺点:一是量表确定费时、费力;二是评定人员的选择有一定的差异性,因此,当评定人员态度和实际被调查者态度发生较大差异时,会使这种方法失去信度;三是无法反映被调查者的态度在程度上的区别。
水表历史起源 从1825年英国的克路斯发明了真正具有仪表特征的平衡罐式水表以来,水表的发展已有近二百年的历史。中国的水表使用和生产起步较晚。1879年,李鸿章为操办海军,在旅顺口创建了我国第一家水厂。1883年英殖民主义者在上海建立了第二个水厂,水表开始进入中国。随着一些沿海城市相继建造水厂,至20世纪年代,当时的上海光华机械厂(现上海光华仪表厂前身)等从国外进口部分零件生产水表。在相当长的时间里,英法日德等国家的水表一直占据着中国水表行业,这些不同品种、规格繁杂的水表,由于标准不一、零件不能互换,给以后自来水公司的水表维修带来了很大的困难。水表1949年解放后,随着城市供水事业的发展,中国的水表工业也相应地发展起来。从1955年起,上海、北京、天津、南京、武汉、广州等城市自来水公司先后开始生产水表。20世纪80年代初,水表行业在机械工业部上海市工业自动化仪表研究所组织下,根据当时水表国际标准ISO4046的要求,对小口径水表又推出了八位指针、整体叶轮的全国统一设计的水表。统一设计和水表零部件的塑料化,为组织水表专业化生产创造了有利的条件,大大推动中国水表工业进步与发展,满足了日益发展的城乡自来水工业的发展需求。20世纪90年代,中国的经济建设持续高速发展,水表行业也快速发展,企业数量和总产量都增加了一倍多,同时各种智能型水表、水表抄表系统等产品也开始兴起。准确的计量可以节约资源,请选择正规大厂生产的水表。水表发展前景1.计量等级高的水表 用计量等级高的水表,可使水表在包括微小流量在内的较大的流量范围内工作,也从根本上真正提高了水表灵敏度和计量能力。活塞式(又称容积式)水表的计量等级一般可达C级或D级,但对水质要求较高。 说明:国际上大多数国家要求使用达到计量等级B级以上的水表,国内行业里也有取消计量等级A级的水表的呼声。 在此拟定的水表新国际标准和国际建议中,还把基于电磁或电子原理工作的、用于测量水的流量计也包括在水表内。2.远传户外抄读 和计算机物业管理相结合的水表 远传水表、集中抄表系统和二次仪表相配套的水表是有发展前途的,因为它改善了水表抄读方法,提高了信息化\数字化和自动化程度,减少了对使用水表的用户的打扰和治安方面的忧虑。国内部分地区实施一户一表时,也采用这种型式的水表。3.预付费类水表 IC卡水表预付费水表适用于“先付费后用水”原则下的管理系统。我国一些地区收水费难\水费欠账赖账现象严重,使用预付费类水表彻底改变了抄表和用水量的结算方式,避免激化矛盾,同时提高了水表产品的技术含量,一些自来水公司和物业管理公司对这种产品表示欢迎。预付费水表可以及及时合理地收取水费,减少水费流失,减轻劳动强度,避免因抄表活动而给用户带来的不方便和不安全感。典型的产品有IC卡水表(插卡式或感应式)、TM卡水表、代码交换式预付费水表等。4.防倒流水表或双向计量水表 目前的国内水表一般为单流向水表,大部分在逆向流动(又称倒流或反向流)时也可走动并使累计数减少,现有的水表铅封机构并无防止水表倒装功能,因此有引起计量纠纷和作弊的可能。防倒流水表通过在表入口处加装单向阀可将水表的连接接管与水管铅封在一起,防止了人为倒装水表而作弊的可能。双向计量水表的功能是,在逆向流动时水表的计数机构仍然是累加的并且符合计量准确度的要求。 说明:现行国家标准中对防倒流水表或双向计量水表并无详细的规定,只要求水表能”经受意外逆流并显示这逆流量”。水表结构原理传统水表 传统水表的结构传统水表的内部结构从外向里可分为壳体、套筒、内芯三大件。壳体是生铁铸成的,水从进水口出来之后通过壳体的下部环形空间,这里叫做“下环室”。在这个环形空间的上面有“上环室”和出水口相通。套筒的底部有个带有小孔的过滤网,滤出水中的杂物。套筒侧面有上下两排圆孔,孔的位置恰好与壳体的上下环室对着,显然,下排是进水孔,上排是出水孔。特别值得注意的是,这两排孔都是沿圆的切线方向斜着打的。注意上下两排孔的方向相反。水从下排孔沿切线方向流进去,势必形成旋转的水流,这对于水表的工作是十分重要的。内芯分为上、中、下三层,从玻璃窗看到的是上层,只有指针和刻度盘。其实最关键的是下层,这里面有个塑料轮,轮边上有许多塑料叶片,叫做“叶轮”。 叶轮所处的位置正好在套管下层孔所形成的旋转流里,水流冲击轮周的叶片,产生转矩,使叶轮旋转起来。龙头开得越大,水流越急,叶轮就转得越快。 叶轮的轴垂直向上到达中层,轴上面有个小齿轮,用它和“十进制数齿轮”啮合,达到累计转数的目的。“十进制数齿轮”的作用是每当个位数齿轮转十圈,十位数齿轮就转一圈。换句话说,个位数齿轮转一圈,十位数齿轮就转十分之一圈。个位数齿轮是主动者,靠它来带动十位数齿轮。实际上每一级十进位用两对齿轮完成,以使转动方向一致,其中一对传动比是9:30,另一对是10:30,这两对串联在一起,总的传动比就是这两个的乘积,即0.099999,完全可以近似为0.1。照这样计算,如果要读七位数(小数点前读四位是黑刻度,小数点后读三位是红刻度),就得用12对齿轮。再加上别的一些用途,在这个中层小小的空间要挤进18根轴和34个齿轮,也可算是高密度安装了。这类水表凭借其简单价廉,能在潮湿环境里长期使用而无需维修,而且不用电源,停电也不影响工作的优点依然会长期服务。智能IC卡水表 智能IC卡水表是一种利用现代微电子技术、现代传感技术、智能IC卡技术对用水量进行计量并进行用水数据传递及结算交易的新型水表。这与传统水表一般只具有流量采集和机械指针显示用水量的功能相比,是一个很大的进步。智能IC卡水表除了可对用水量进行记录和电子显示外,还可以按照约定对用水量自动进行控制,并且自动完成阶梯水价的水费 计算,同时可以进行用水数据存储的功能。由于其水表数据传递和交易结算通过IC卡进行,因而可以实现由工作人员上门操表收费到用户自己去营业所交费的转变。IC卡交易系统还具有交易方便,计算准确,可利用银行进行结算的特点。IC 卡水表的外观与一般水表的外观基本相似,其安装过程也基本相同。IC卡水表的使用很简单,从用户的角度看,就时把IC卡卡片向水表里插一下。 IC 卡水表的工作过程一般如下:将含有金额的IC卡片插入水表中的IC卡读写器,经微机模块识别和下载金额后,阀门开启,用户可以正常用水。当用户用水时,水量采集装置开始对用水量进行采集,并转换成所需的电子信号供给微机模块进行计量,并在LCD显示模块上显示出来。当用户的用水金额下降到一定数值时,微机模块进行声音报警,提示用户应该去持卡交费购水。如超过用水金额,则微机模块会自动将电控阀门关闭,切断供水。直至用户插入已经交费的IC卡片重新开始开启阀门进行供水。水表品种类型1.按测量原理分 分为速度式水表和容积式水表。 (1)速度式水表:安装在封闭管道中,由一个运动元件组成,并由水流运动速度直接使其获得动力速度的水表。 典型的速度式水表有旋翼式水表、螺翼式水表。旋翼式水表中又有单流束水表和多流束水表。 螺翼式水表(2)容积式水表:安装在管道中,由一些被逐次充满和排放流体的已知容积的容室和凭借流体驱动的机构组成的水表,或简称定量排放式水表。 容积式水表一般采用活塞式结构。2.按计量等级分 按旧版标准,可分为A级表、B级表、C级表、D级表。 计量等级反映了水表的工作流量范围,尤其是小流量下的计量性能。按照从低到高的次序,一般分为A级表、B级表、C级表、D级表,其计量性能分别达到国家标准中规定的计量等级A,B,C,D等级的相应要求。 新版标准发布后,计量等级分类方法变得相当复杂,主要根据流量值与量程比等各项参数来确定。简单说来,量程越大,则计量等级越高。3.按公称口径分 分为大口径水表、小口径水表。 按公称口径通常分为小口径水表和大口径水表。 公称口径50mm及以下的水表通常称为小口径水表,公称口径50mm以上的水表称为大口径水表。这二种水表有时又称为民用水表和工业用水表,同时这种分法也可以从水表的表壳连接形式区别开来,公称50mm及以下的水表用螺纹连接,50mm及以上的水表用法兰连接。但有些特殊类型的水表也有40mm用法兰连接的。4.按用途分 分为民用水表和工业用水表。5.按安装方向分 速度式水表可分为水平安装水表和立式安装水表。 按安装方向通常分为水平安装水表和立式安装水表(又称立式表),是指安装时其流向平行或垂直于水平面的水表,在水表的标度盘上用“H”代表水平安装、用“V”代表垂直安装。 容积式水表可于任何位置安装,不影响精度。6.按介质的温度分 分为冷水水表和热水水表。 按介质温度可分为冷水水表和热水水表,水温30℃是其分界线 (1) 冷水水表:介质下限温度为0℃、上限温度为30℃的水表。 (2) 热水水表:介质下限温度为30℃、上限为90℃或130℃或180℃的水表。 各个国家的要求都有些微区别,有些国家冷水表上限可达50摄氏度。7.按介质的压力分 分为普通水表和高压水表。 按使用的压力可分为普通水表和高压水表。在中国,普通水表的公称压力一般均为1MPa。高压水表是最大使用压力超过1MPa的各类水表,主要用于流经管道的油田地下注水及其他工业用水的测量。8.按计数器是否浸在水中分 分为湿式水表、干式水表、液封水表。 (1) 湿式水表:计数器浸入水中的水表,其表玻璃承受水压,传感器与计数器的传动为齿轮联动,使用一段时间后水质的好坏会影响水表读数的清晰程度。 (2) 干式水表:计数器不浸入水中的水表,结构上传感器与计数器的室腔相隔离,水表表玻璃不受水压,传感器与计数器的传动一般用磁钢传动。 (3) 液封水表:用于抄表的计数字轮或整个计数器全部用一定浓度的甘油等配制液体密封的水表,密封隔离的计数器内的清晰度不受外部水质的影响,其余结构性能与湿式水表相同。9.按计数器的指示形式分 分为模拟式、数字式、模拟数字组合式。水表常用术语 容积式水表速度式水表:安装在封闭管道中,由一个运动元件组成,并由水流运动速度直接使其获得动力速度的水表。 容积式水表:安装在管道中,由一些被逐次充满和排放流体的已知容积的容室和凭借流体驱动的机构组成的水表,或简称定量排放式水表。 过载流量(Q4):要求水表在短时间内能符合最大允许误差要求,随后在额定工作条件下仍能保持计量特性的最大流量 常用流量(Q3):额定工作条件下的最大流量。在此流量下,水表应正常工作并符合最大允许误差要求。 分界流量(Q2):出现在常用流量Q3和最小流量Q1之间、将流量范围划分成各有特定最大允许误差的“高区”和“低区”两个区德流量。 最小流量(Q1):要求水表的示值符合最大允许误差的最低流量。 压力损失(Δp):在给定的流量下,管道中存在水表所造成的水头损失。水表智能IC卡水表的优越性 采用智能IC卡水表技术方案可以为供水管理部门和用户带来许多方便,并会产生很多积极的和有益的影响,而采用智能IC卡水表作为基本技术元件,还可以为传统的供用水管理模式进行现代化改水表造提供基础性的技术支持。与传统的用水计量仪表相比,采用智能IC卡水表技术可以带来许多新变化。 1、 对供水部门来说,可以实现先交费再供水的用水模式。这是打大家都普遍认可的一个优点。这对解决水费拖欠这个过去难以解决的问题会有帮助。煤气部门推行IC卡煤气表的经验表明,人们普遍接受这一模式,供气部门不仅解决了拖欠交费的老大难问题,还可以提前收到资金。对用户来说,由于水费的支出在总支出中占的比重很小,这种改变,对用户来说,只是把水费的交付时间提前了一段时间,所以,用户并不敏感。但对供水部门来说,这种变化则是不能小看的。随着水资源的紧张和水的商品属性逐步被社会认可,水的交易将会逐渐采用一般商品的交易模式,显然,先交费后用水,是更合理的一种交易模式LXS型旋翼湿式水表。 2、 改变了入户操表收费的模式。 这种模式改变的意义是巨大的。由于城市规模不断扩大和居民户数快速增加,供水部门抄表和收费的工作量将不断加大。沿用传统的上门抄表模式,将很难适应这种变化。而现在由于各种原因的影响,人工入户操表的效率已经在逐渐下降并且使这种模式的成本不断增加。解决这个问题,可以采用多种途径,但依靠技术进步来解决这个问题,应当是更值得提倡的方式。显然,采用智能IC卡水表极其管理系统,将可以从根本上改变由供水部门派人去千家万户抄表收费的模式。只要供水部门合理设置交费机构,基本上不会给用户带来麻烦。如果得到金融系统的配合,还可以减少布点的成本。因此大规模采用智能IC 卡水表技术对降低供水部门的管理成本是会有显著帮助的。而使用IC卡进行交易结算,用户可以自主决定交费时间和数量,增大了用户的自主性。特别是随着人们家庭安全意识和隐私意识的增强,入户抄表和上门收费等随意进入私人住户的做法将逐渐不受欢迎甚至受到抵制,这是一个必须给予重视的社会发展趋势。而使用智能IC卡进行交易结算,将可以有效解决这个会带来很多社会隐患的问题。 3、 可以有效解决一些技术难题 。 比如,随着水资源的紧张,将会逐步实行超计划水价甚至阶梯式水价等较为复杂的用水管理模式。这些,将对供用水交易提出较高的技术要求。采用普通水表和人工抄表的模式,是难以解决这些技术问题的,而采用智能IC 卡水表,将很容易解决这些问题。 4、 随着科学技术的发展,供水行业也需要逐步实现用高科技手段进行供水管理。采用传统水表,这个跨越是很难完成的,而采用智能IC卡水表,将为运用计算机技术进行现代化管理奠定一个技术基础。 5、 当然,使用智能IC卡水表还有其它优点,比如可以有效解决计量扯皮、用水纠纷,贪污水费、人情用水、用水统计困难等问题。 6、 与远传抄表系统相比,智能IC卡水表具有使用和维护成本很低,没有布线造成的混乱和高故障率等问题。智能IC卡水表的以上优点,将会使智能IC卡水表逐渐被社会所接受并成为一种基本配置。
概述 point estimation 由样本数据估计总体分布所含未知参数的真值,所得到的值,称为估计值。点估计的精确程度用置信区间表示。 当母群的性质不清楚时,我们须利用某一量数作为估计数,以帮助了解母数的性质.如:样本平均数乃是母群平均数μ的估计数.当我们只用一个特定的值,亦即数线上的一个点,作为估计值以估计母数时,就叫做点估计. 点估计目的是依据样本X=(X1,X2,…,Xn)估计总体分布所含的未知参数θ或θ的函数 g(θ)。一般θ或g(θ)是总体的某个特征值,如数学期望、方差、相关系数等。 点估计的常用方法有矩估计法、顺序统计量法、最大似然法、最小二乘法等。正文 参数估计的一种形式。目的是依据样本X=(X1,X2,…,Xn)估计总体分点估计布所含的未知参数θ或θ的函数 g(θ)。一般θ或g(θ)是总体的某个特征值,如数学期望、方差、相关系数(见相关分析)等。θ或 g(θ)通常取实数或k维实向量为值。点估计问题就是要构造一个只依赖于样本X的量抭(X),作为g(θ)的估计值。抭(X)称为g(θ)的估计量。因为k维实向量可表为k维欧几里得空间的一个点,故称这样的估计为点估计。 例如,设一批产品的废品率为θ,为估计θ,从这批产品中随机地抽出 n个作检查,以X 记其中的废品个数,用 X/n估计θ,就是一个点估计。又如用样本方差(见统计量)估计总体分布的方差,或用样本相关系数估计总体分布的相关系数,都是常见的点估计。构造点估计的方法矩估计法 这是英国统计学家К.皮尔森在1894年提出的方法,其要旨是用样本矩的点估计函数估计总体矩的同一函数。例如,若总体分布服从正态分布 N(μ,σ2),其中μ是总体均值,σ2是总体方差,未知参数可记为θ=(μ,σ)。σ/μ(μ≠0)称为变异系数,它是总体的一阶原点矩(即均值)μ与二阶中心矩(即方差)σ2的函数。设有样本X=(X1,X2,…,Xn),其一阶样本原点矩为,二阶样本中心矩为,而用估计 σ/μ,就是一个典型的矩估计方法。最大似然估计法 此法作为一种重要而普遍的点估计法,由英国统计学家R.A.费希尔在1912年提出。后来在他1921年和1925年的工作中又加以发展。设样本X=(X1,X2,…,Xn)的分布密度为L(X,θ),若固定X点估计而将L视为θ的函数,则称为似然函数,当X是简单随机样本时,它等于ƒ(X1,θ)ƒ(X2,θ)…ƒ(Xn,θ),其中,ƒ(X,θ)是总体分布的密度函数或概率函数(见概率分布)。一经得到样本值x,就确定(x),使 ,然后用估计g(θ),这就是g(θ)的最大似然估计。例如,不难证明,前面为估计正态分布N(μ,σ2)中的参数μ和σ2而提出的估计量和2,就是μ和σ2的最大似然估计。最小二乘估计法 这个重要的估计方法是由德国数学家C.F.高斯在1799~1809年和法国数学家A.-M.勒让德在1806年提出,并由俄国数学家Α.Α.马尔可夫在1900年加以发展。它主要用于线性统计模型中的参点估计数估计问题。 贝叶斯估计法 是基于“贝叶斯学派”的观点而提出的估计法(见贝叶斯统计)。小样本优良性准则 可以用来估计g(θ)的估计量很多,于是产生了怎样选择一个优良估计量的问题。首先必须对点估计“优良性”定出准则。这种准则不是惟一的,它可以根据问题的实际背景和理论上的方便进行选择。优良性准则有两大类:一类是小样本准则,即在样本大小固定时的优良性准则;另一类是大样本准则,即在样本大小趋于无穷时的优良性准则。最重要的小样本优良性准则是无偏性及与此相关的一致最小方差无偏估计。若一个估计量抭(X)的数学期望等于被估计的g(θ),即对一切θ,,则称抭(X)为g(θ)的无偏估计,这种估计的特点是:在多次重复点估计用时, 抭(X)与g(θ)的偏差的算术平均值随使用次数的增加而趋于零。因此,无偏性只在重复使用中,并且各次误差能相互抵消时,才显出其意义。无偏估计并不总是存在。例如,设总体服从二项分布B(n,θ),0<θ<1,则1/θ的无偏估计就不存在。有时,无偏估计虽然存在,但很不合理。在一些点估计问题中,无偏估计有很多,它们的优良性由其方差来衡量,方差愈小愈好。若一无偏估计的方差比任何别的无偏估计的方差都小,或至多相等,则称它为一致最小方差无偏估计。寻找一致最小方差无偏估计的一个普遍方法,是D.布莱克韦尔、E.L.莱曼和H.谢菲在1950年提出的,它基于统计量的充分性与完全性的概念:设抭(X)是一个无偏估计,T是一个完全充分统计量,则抭(X)在给定T时的条件期望就是一个一致最小方差无偏估计。 克拉默-拉奥不等式是寻求一致最小方差无偏估计的另一重要工具,是由印度统计学家点估计C.R.拉奥和瑞典统计学家H.克拉默在1945年和1946年先后独立地证明的。当样本的似然函数 L(X,θ)满足一定条件时,则 g(θ)的任一无偏估计 抭(X)的方差 ,对于一切θ满足不等式这个不等式的右边只与样本的分布及待估函数 g有关,而与抭(X)无关。通常称这个不等式为克拉默-拉奥不等式,或C-R不等式。它的右边给出了 g(θ)的无偏估计的方差的最小下界,称为克拉默-拉奥下界或C-R下界。因此,若某一无偏估计的方差达到上述C-R下界,则它必是一致最小方差无偏估计。C-R不等式在其他统计问题中也有应用。点估计在点估计问题中还使用其他一些小样本准则,如容许性准则、最小化最大准则、最优同变准则(见统计决策理论)等。大样本优良性准则重要的如下 相合性 若g(θ)的估计量 抭n(X1,X2,…,Xn)在n趋于无穷时,在某种收敛意义下点估计(见概率论中的收敛)收敛于g(θ),则称抭n(X1,…,Xn)是 g(θ)的在这种收敛意义下的相合估计。这是点估计最基本的大样本准则。例如依概率收敛意义下的相合性称为弱相合,几乎必然收敛意义下的相合性称为强相合。矩估计一般具有相合性。最大似然估计在一定条件下为强相合的证明始自A.瓦尔德1949年的工作,并在以后为许多学者所发展。线性统计模型中参数的最小二乘估计的强相合性研究始于20世纪60年代,近年来取得很大的进展。最优渐近正态估计 简称BAN估计。设X1,X2,…,Xn为从一总体中随机独立地抽出的样本,总体分布具有密度函数或概率函数 ƒ(x,θ),满足一定的正则条件,设g(θ)为待估函数,记 式中称为费希尔信息量,若g(θ)点估计的估计量为抭n(X1,X2,…,Xn),当n→时,依分布收敛于正态分布 N(0,v2(θ)),就称此估计量为g(θ)的 BAN估计。在g(θ)的一类渐近正态估计中,以这种估计的渐近方差最小,故称为最优渐近正态估计。在一般条件下,最大似然估计是BAN估计。渐近有效估计 当样本大小为n时,C-R不等式的右边(即C-R下点估计界)就是 v2(θ)/n。在BAN估计定义中,并未要求估计量抭n(X1,X2,…,Xn)的方差存在,如果去掉渐近正态性的要求,而要求抭n(X1,X2,…,Xn)的方差存在且渐近于C-R下界,则得到克拉默于1946年定义的渐近有效估计的概念。不少情况下,BAN估计也是渐近有效估计。1960年印度统计学家R.R.巴哈杜尔提出另一种渐近有效性的概念,还可以用于假设检验问题。近年来,日本统计学家竹内启又在两个方面发展了估计的渐近有效性概念:一是渐近分布不必是正态分布;二是收敛于渐近分布的阶不必是。 点估计理论是数理统计学得到较多和较深入发展的一个方面。在小样本方面,1955年C.施坦提出了一个反例,证明当维数大于2时,多维正态分布均值向量的通常估计(样本均值)在平点估计方损失下不可容许。这个简单的但出乎意料的反例启发了关于点估计的容许性的一系列研究。在大样本方面,值得提到的发展还有自适应估计、稳健估计及非参数估计方面许多深入的结果。参考书目 H.克拉默著,魏宗舒等译:《统计学数学方法》,上海科学技术出版社,上海,1966。(H.Cramér,MatheMatical Methods of Statistics,Princeton Univ. Press点估计,Princeton, 1946.) 成平等著:《参数估计》,上海科学技术出版社,上海,1985。
理论提出者 首先是由华中科技大学的邓聚龙教授提出的理论。理论概念 通过少量的、不完全的信息,建立灰色微分预测模型,对事物发展规律作出模糊性的长期描述(模糊预测领域中理论、方法较为完善的预测学分支)。关联度 提出系统的关联度分析方法,是对系统发展态势的量化比较分析。关联度的一般表达式为: n ri=1/n∑ xi(k) i=1 ri 是曲线xi对参考曲线x0的关联度。生成数 通过对原始数据的整理寻找数的规律,分为三类: a、累加生成:通过数列间各时刻数据的依个累加得到新的数据与数列。累加前数列为原始数列,累加后为生成数列。 b、累减生成:前后两个数据之差,累加生成的逆运算。累减生成可将累加生成还原成非生成数列。 c、映射生成:累加、累减以外的生成方式。基本关系式 记x(0)为原始数列 x(0)=( x(0)(k)xk=1,2,…,n)=(x(0)(1),x(0)(2),…,x(0)(n)) 记x(1)为生成数列 x(1)=( x(1)(k)xk=1,2,…,n)=(x(1)(1),x(1)(2),…,x(1)(n)) 如果x(0) 与x(1)之间满足下列关系,即 k x(1)(k)= ∑x(0)(i) i=a 称为一次累加生成。建立模型 a、建模机理 b、 把原始数据加工成生成数; c、 对残差(模型计算值与实际值之差)修订后,建立差分微分方程模型; d、 基于关联度收敛的分析; e、 gm模型所得数据须经过逆生成还原后才能用。 f、采用“五步建模(系统定性分析、因素分析、初步量化、动态量化、优化)”法,建立一种差分微分方程模型gm(1,1)预测模型。基本算式为: 令 x(0)=(x(0)(1),x(0)(2),…,x(0)(n)) 作一次累加生成, k x(1)(k)= ∑x(0)(m) m=1 有 x(1)=(x(1)(1),x(1)(2),…,x(1)(n)) =(x(0)(1),x(1)(1)+x(0)(2),…,x(1)(n-1)+x(0)(n)) x(1)可建立白化方程:dx(1)/dt+ax(1)=u 即gm(1,1). 该方程的解为: x(1)(k+1)=(x(1)(1)-u/a)e-ak+u/a预测方法: a、数列预测 b、灾变预测 c、季节灾变预测 d、拓扑预测 e、系统综合预测 f、模糊预测特点 对于一个模糊系统来说,传统的预测方法就会失去作用。处理模糊预测问题的数学方法是模糊数学。模糊数学的基础是模糊集合论,而模糊集合是普通集合的扩展。美国学者l.a.zadeh教授建立的模糊集合论,为模糊预测理论与方法的研究奠定了理论基础。它用简捷有力的方法处理复杂系统,在某种程度上弥补了经典数学与统计数学的不足。应用 在预测应用上,如气象预报、地震预报、病虫害预报等,国内学者做出了许多有益的研究。基于混沌理论的分析预测 混沌理论是近年来长足发展的一门学科。混沌向世界规律运动的假定性提出挑战。一方面,它告诉我们,宇宙远比我们想得到的要怪异,它使许多传统的科学方法受到怀疑。另一方面,混沌认为许多无规则的事物实际上可能是简单规律的结果。混沌展现给我们的是一些新的规律。混沌理论 遵从简单规律的系统会以令人惊讶的复杂方式表现其行为。混沌是隐秘形式的秩序。 混沌系统是指敏感地依赖于初始条件的内在变化系统,对外来变化的敏感性本身并不意味着混沌。混沌理论最令人兴奋的是:一个非常简单的决定论系统能够产生异常复杂的输出结果。给定一个简单规则和初始条件,系统将产生复杂连续系列,这一点类似“无中生有”。研究应用实例 美国科学家帕卡德和他的同事基于混沌和生物进化理论,借助计算机,致力于用图形来描述金融市场的混沌现象。帕卡德认为,世界上有大量不同的随机现象,他所研究的是大体只需几个变量就能描述系统行为的一种混沌现象。他试图建立一种学习算法,对进化模型进行处理。而对于众多的模型,帕卡德采用一种称为遗传算法的方法处理数据。它用类似生物繁殖中突变和杂交现象的方法来改变模型。这种方法的核心是,计算机不断设定新的假设环境,从而使学习算法更具有适应性。认为一个好的学习算法不仅能建立适应模型,它还能时刻观测数据的变化。所谓“学习算法”是一种特别的程序,他擅长对大量的、各种各样的模型进行比较研究,找出哪个模型最适用于分析目前和未来的数据。matlab程序 %下面程序是灰色模型GM(1,1)程序二次拟合和等维新陈代谢改进预测程序,matlab6.5 ,使用本程序请注明,程序存储为gm1.m %x = [5999,5903,5848,5700,7884];gm1(x); 测试数据 %二次拟合预测GM(1,1)模型 function gmcal=gm1(x) ynyz = [ 124 113 154.1666667 240.0909091 224.3333333 180.9 155.0909091 223.4166667 274.8333333 327.25 33.33333333 92.5 57.5 382.5 101.3333333 60 69.75 62.66666667 136.6666667 202.75 48.66666667 60.33333333 49.75 97.25 139.6666667 111.4 98.18181818 118.75 168.8 243.5454545 280.25 296.125 316.7777778 354 458.8888889 62.66666667 61.33333333 95.75 39.66666667 79 223.1 205 235.3636364 303.8 355 148.25 162 161.1666667 243 361.6 650 522.8 629.7142857 915.6666667 1270.4 780.3333333 726.6666667 924 1483.666667 1656.666667 140 104.75 168.2 322 337.3333333 292.6666667 344.3333333 454.3333333 416.3333333 943.5 168.3333333 161.5 339 415.6666667 262.8 290.3333333 270.25 317 548 494 313.25 543 565.6666667 696.75 713 308 328.4285714 379 432.1428571 521.8333333 1723.25 2060 2107 3643.666667 2416.6 285.75 508 364.25 526.25 1142 386.3333333 511.2 558.1666667 549.5 674.5 348.2857143 412.3461538 502.96 694.88 747.56 4091.914286 4137.055556 4823.685714 6175.722222 7706.305556 520 619 547.5 786 1142 643.2352941 489.8095238 699.6666667 1133.25 1298.533333 964.25 972 1220.809524 1408.565217 2286.909091 210.6 234.8 304 428.5 544.8571429 79.75 110.6666667 107.2 283 415 265.7333333 286.5714286 400.8125 415 425.6875 1873.285714 1623 1854.222222 2042.9 2665.5 219.175 311.7 406.8928571 480.75 642.0769231 88.2 171 233 178.8 438 33.33333333 183 223 269 733 105.4 122.8125 130.5625 265.5 235.9444444 134.4 104.3333333 247.25 293 385.1666667 134.8 147 216.8571429 186.6666667 246.25 33.33333333 44.25 116.75 96 54.6 124.2 147 253 544 530.75 114.5 109.5 150.5 219.3333333 300.8571429 57.66666667 51.6 89.6 166.6666667 253 959.75 1120.25 2188 3439.5 4430 2461.857143 3007.714286 4046.571429 4783 6518.5 1871.2 1785.833333 3962.25 2489 7272 2396.833333 2322.714286 2950.142857 3408 4164.25 5154.25 5092 8304.333333 19573 13888.33333 2737 2675.428571 3227 3299.75 6860.4 1500.75 1813.857143 2180.166667 2722 3583.857143 1417 1205.8 1414.5 1211.777778 1276.9 255 278.6363636 305.1666667 386.4615385 596.0769231 20 33.33333333 100 132 217.5 894 614.3333333 545 425.3333333 563 285.8 308.4615385 443.75 511.2 710.1 299.6 316 443 893.3333333 1023.666667 240 278.5714286 361.6666667 704 848.6 50 61.33333333 100 273 841 119.2 192.25 251 445 715 159.6 142.4 225.5 396.3333333 357.5 33.33333333 63.66666667 71 177.5 137 256.6666667 257 375.6666667 664.5 677 215.1666667 194 329.6666667 361.1428571 385 296.6666667 265 244.25 249 240.6666667 292.5 355.75 415.75 407.2 574.4 317.5 306.2 408.5 389.2 543.6 315 409.4 504.8 472.6666667 711.4 84.33333333 116.5 153 128 253 632 1013 855.3333333 1089.333333 1361.333333 227.25 275.75 348 361 520 225.3333333 260.4 264.5 305 426.5 237.5 351.8 378 375.6666667 550.8333333 77 106.6 104.3333333 166.8 346.8 148 443 189.3333333 379.5 604.5 474.5 1182 1250 1019 1263.5 ]; x = ynyz(72,:); sizexd2 = size(x,2); %求数组长度 k=0; for y1=x k=k+1; if k>1 x1(k)=x1(k-1)+x(k); %累加生成 z1(k-1)=-0.5*(x1(k)+x1(k-1)); %z1维数减1,用于计算B yn1(k-1)=x(k); else x1(k)=x(k); end end %x1,z1,k,yn1 sizez1=size(z1,2); %size(yn1); z2 = z1'; z3 = ones(1,sizez1)'; YN = yn1'; %转置 %YN B=[z2 z3]; au0=inv(B'*B)*B'*YN; au = au0'; %B,au0,au afor = au(1); ufor = au(2); ua = au(2)./au(1); %afor,ufor,ua %输出预测的 a u 和 u/a的值 constant1 = x(1)-ua; afor1 = -afor; x1t1 = 'x1(t+1)'; estr = 'exp'; tstr = 't'; leftbra = '('; rightbra = ')'; %constant1,afor1,x1t1,estr,tstr,leftbra,rightbra strcat(x1t1,'=',num2str(constant1),estr,leftbra,num2str(afor1),tstr,rightbra,'+',leftbra,num2str(ua),rightbra) %输出时间响应方程 %****************************************************** %二次拟合 k2 = 0; for y2 = x1 k2 = k2 + 1; if k2 > k else ze1(k2) = exp(-(k2-1)*afor); end end %ze1 sizeze1 = size(ze1,2); z4 = ones(1,sizeze1)'; G=[ze1' z4]; X1 = x1'; au20=inv(G'*G)*G'*X1; au2 = au20'; %z4,X1,G,au20 Aval = au2(1); Bval = au2(2); %Aval,Bval %输出预测的 A,B的值 strcat(x1t1,'=',num2str(Aval),estr,leftbra,num2str(afor1),tstr,rightbra,'+',leftbra,num2str(Bval),rightbra) %输出时间响应方程 nfinal = sizexd2-1 + 1; %决定预测的步骤数5 这个步骤可以通过函数传入 %nfinal = sizexd2 - 1 + 1; %预测的步骤数 1 for k3=1:nfinal x3fcast(k3) = constant1*exp(afor1*k3)+ua; end %x3fcast %一次拟合累加值 for k31=nfinal:-1:0 if k31>1 x31fcast(k31+1) = x3fcast(k31)-x3fcast(k31-1); else if k31>0 x31fcast(k31+1) = x3fcast(k31)-x(1); else x31fcast(k31+1) = x(1); end end end x31fcast %一次拟合预测值 for k4=1:nfinal x4fcast(k4) = Aval*exp(afor1*k4)+Bval; end %x4fcast for k41=nfinal:-1:0 if k41>1 x41fcast(k41+1) = x4fcast(k41)-x4fcast(k41-1); else if k41>0 x41fcast(k41+1) = x4fcast(k41)-x(1); else x41fcast(k41+1) = x(1); end end end x41fcast,x %二次拟合预测值 %***精度检验p C************////////////////////////////////// k5 = 0; for y5 = x k5 = k5 + 1; if k5 > sizexd2 else err1(k5) = x(k5) - x41fcast(k5); end end %err1 %绝对误差 xavg = mean(x); %xavg %x平均值 err1avg = mean(err1); %err1avg %err1平均值 k5 = 0; s1total = 0 ; for y5 = x k5 = k5 + 1; if k5 > sizexd2 else s1total = s1total + (x(k5) - xavg)^2; end end s1suqare = s1total ./ sizexd2; s1sqrt = sqrt(s1suqare); %s1suqare,s1sqrt %s1suqare 残差数列x的方差 s1sqrt 为x方差的平方根S1 k5 = 0; s2total = 0 ; for y5 = x k5 = k5 + 1; if k5 > sizexd2 else s2total = s2total + (err1(k5) - err1avg)^2; end end s2suqare = s2total ./ sizexd2; %s2suqare 残差数列err1的方差S2 Cval = sqrt(s2suqare ./ s1suqare); Cval %nnn = 0.6745 * s1sqrt %Cval C检验值 k5 = 0; pnum = 0 ; for y5 = x k5 = k5 + 1; if abs( err1(k5) - err1avg ) < 0.6745 * s1sqrt pnum = pnum + 1; %ppp = abs( err1(k5) - err1avg ) else end end pval = pnum ./ sizexd2; pval %p检验值 %arr1 = x41fcast(1:6) %预测结果为区间范围 预测步长和数据长度可调整程序参数进行改进
是指不能被直接精确观测或虽能被观测但尚需通过其它方法加以综合的指标,是在记录单元之间变化且其变化影响记录特征的任何未记录到的特征.结果是记录特征之间的联系,这种联系实际上并不是由记录特征本身的任何因果关系产生的 在结构方程模型中包括两种主要变量:潜变量(Latent Variable),显变量(Manifest Variable)。潜变量是实际工作中无法直接测量到的变量,包括比较抽象的概念和由于种种原因不能准确测量的变量。一个潜变量往往对应着多个显变量,可以看做其对应显变量的抽象和概括,显变量则可视为特定潜变量的反应指标。
疏离系数(coefficient of alienation)的平方(1-r2)是表Y之变异中,不能由自变数X所决定或解释的部份,疏离系数以表之.
发展简况 最早提出生物统计思想的是比利时数学家L.A.J.凯特莱,他试图把统计学的理论应用于解决生物学、医学和社会学中的问题。1866年,揭示了遗传的基本规律,这是最早运用数理统计于生物实验的一个成功的范例(见)。1889年,在《自然的遗传》一书中,通过对人体身高的研究指出,子代的身高不仅与亲代的身高相关,而且有向平均值“回归”的趋势,由此提出了“回归”和“相关”的概念和算法,从而奠定了生物统计的基础。高尔顿的学生K.皮尔逊进一步把统计学应用于生物研究,提出了实际测定数与理论预期数之间的偏离度指数即卡方差()的概念和算法,这在属性的统计分析上起了重要作用。1899年,生物统计他创办了《生物统计》杂志,还建立了一所数理统计学校。他的学生W.S.戈塞特对样本标准差作了许多研究,并于1908年以“Student”的笔名将t-检验法发表于《生物统计》杂志上。此后,t-检验法就成了生物统计学中的基本工具之一。英国数学家指出,只注意事后的数据分析是不够的,事先必须作好实验设计。他使实验设计成了生物统计的一个分支。他的学生G.W.斯奈迪格把变异来源不同的均方比值称为F值,并指出当值大于理论上 5%概率水准的值时,该项变异来源的必然性效应就从偶然性变量中分析出来了,这就是“方差分析法”。上述这些方法对于农业科学、生物学特别是的研究,起了重大的推动作用,20世纪20年代以来,各种数理统计方法陆续创立,它们在实验室、田间、饲养和临床实验中得到广泛应用并日益扩大到整个工业界。70年代,随着计算机的普及,使本来由于计算量过大而不得不放弃的统计方法又获得了新的生命力,应用更为广泛,并在现代科技中占有十分重要的地位。个体与总体参数 一个观测对象(如一个7岁男孩)的某些性状(如身高等)的量度结果,称为一个个体。来源相同的各个个体(如各个 7岁男孩的身高值)之间的差异称为个体变异。总体是通过统计所欲了解的对象,其中的个体可以是有限的也可以是无限的。观测数据可以是计数的(离散的)(如单位面积中的昆虫数),也可以是计量的(如身高、体重、血压、肺活量等)。总体最基本的参数有两类:表示水平的称为位置参数或型值,如平均数、中位数、率等;反映个体差异大小的称为分散度参数,如标准差、极差等。总体参数是一个客观存在但通常却又是未知的常数。只能用样本去估计它。这样做自然会有误差。生物统计样本平均数,即 [1432-01]其中表示第 个个体的观测值;为样本中的个体数,称为样本大小;∑为求和号,∑表示的合计凡是从样本计算出来的数值都称为统计量,它是对相应的总体值的一种估计例如是总体均数 的一种估计。若总体均数正好等于,则称为 的无偏估计,意谓用估计虽有误差但平均来说是无偏的。此时又称 为 的期望,记作[1432-02]。率 反映事物或现象出现的机会或频度,常用百分率或小数表示。如:感染率、死亡率、男婴率等。若以代表阳性率,则阴性率=1-。若将男婴记作=1,女婴记作=0,则个婴儿的性别指标的均数=(∑/=就是男婴率。可见,率可以看成是个体取值为1或0的计数数据的均数。这种样本的率也是对应的总体率的无偏估计。总体的率又称为概率。 中位数 是数据按大小排列后位于中央的数值。对于分布不对称的指标(如机体内、外环境中的有害物质浓度等)往往会有少数特大值,此时,中位数比均数更具代表性,也更稳定。当为偶数时,则取中央两数的均数。 众数 即最常出现的数值。如正常妊娠天数的众数为280天。 极差 即最大值与最小值之差。是用于表示数据分散度的简单指标。 方差 比极差更全面地反映个体差异的大小。若总体中有个个体,则总体的方差为 [1432-05] (2)样本方差 [1432-06] (3)是总体方差的无偏估计。若(3)式的分母改用,就不是无偏估计。-1是自由度:样本中有个独立的观测指标,它们都是随机变量,它们对于总体均数的离差平方和∑(-),是个独立随机变量之和,称为有个自由度;而(3)式中的∑(-),是用代替了,等于对个的值加了一个限制,即∑必须等于,换言之,∑(-)只相当于-1个独立的随机变量之和,所以它只有-1个自由度。一般地说,对统计量每加上一种限制就用去了一个自由度。为了运算上的方便,离均差平方和有时也记作: [1432-09] (4) 标准差 是方差的平方根。它和观测值有相同的单位。是最常用的表示数据分散程度的指标。对于正态分布的数据,它的用处尤大。样本标准差是对总体标准差的一种估计。的值可在有统计功能的计算器上直接得出。计算值的功能键常用[on]表示。 变异系数 即 [1432-9a] (5)它是不受单位影响的量,可用于比较两种单位不同的指标(如生物体的长度与重量)的个体变异大小。例如,三只小白鼠的体重=22,24,27(克)。它们的均数 =(22+24+27)/3=24.3(克)[1432-11]标准差 [1432-21]变异系数 [1432-13]极差 Δ=27-22=5(克)。中位数是24克。 概率 表示客观事物可能发生的程度。它是实际观察到的率(如男婴率)的总体均值或期望值。它的通用符号是。常用小数或分数表示其大小。例如用0≤≤1表示概率的取值范围为0~1:假定(男婴)=22/43=0.512表示生男婴的概率为22/43或0.512,即略大于1/2。这一理论值是根据反复多次的大样本统计结果归纳出来的。概率可以从量的方面来说明总体的性质。所谓“小概率事件”是指实际上不大可能发生的事件。 为充分地了解一个总体,就须知道个体的取值范围,以及出现的各种可能值的概率,即概率分布,简称分布。 正态分布 一种理想的对称型分布。有些生物学指标远非正态分布,而是呈左右不对称的所谓偏态,但当样本增大时,它们的均数却趋向正态分布。这一性质有重要的实用价值。 直方图 一种根据频数表绘制的图,它以横轴上的长方形的面积表示各组的频数,长方形在横轴上的边长相当于组距(图1[1000名20岁男生的身高])。 如果一步步地缩小直方图的组距,同时增大样本含量,最终将要趋于图2[正态分布]那样的极限。在图2中,曲线以下横轴以上的面积表示概率,这种曲线称为“(概率)分布曲线”。 正态分布具有以下性质:以总体均数为中心,在中心处的分布曲线最高;两侧与 距离相等的对称区间的上方有相同的面积(概率);与 相距愈远的区间的概率愈小;可以用与(总体标准差)这两个参数来描述整个分布(图3[标准差与正态分布曲线])只要知道了 和,则个体落入任何区间的概率均可从(统计学书上)事先算好的正态分布表中查得。表1 [标准正态分布尾部概率简表]是这种表的一个摘要。 标准正态分布 凡是正态分布的数据,均可通过减去均数并除以标准差而使之成为均数为0、标准差为1的标准正态分布。经过这种变换的指标记为, [1433-11] (6) 遵从均数为 标准差为的正态分布,通常以简单的符号来表示:~( ,)。故可用~(0,1)表示“遵从标准正态分布”。这种分布很常用,尤其是表1所列几个界限值。 当样本含量增大时,不论原始数据是不是正态分布,它的大多数统计指标均趋向正态分布,从而可以进一步化为标准正态分布,再根据 的界值来作出推断(表1[标准正态分布尾部概率简表])。 正常范围 生物界的正常范围常用于诊断、鉴别和分类。制定正常范围需要一些先决条件:原始数据必须来自同一总体;样本对总体的代表性要好;仪器、试剂和方法都没有偏性。理想的界限应有较高的灵敏度与特异度。前者是对异常者的识别率=1-假阳性率;后者是对正常者的识别率=1-假阴性率。当尚未掌握异常者的情况时,可暂将特异度定在0.95(即95%的正常者为此范围所覆盖)的水平;待掌握了异常者的数据分布后,再酌情修改界限以便兼顾灵敏度与特异度这两个方面。抽样 为了估计总体的参数(如均数、率、标准差等)而从其中抽出一部分个体组成供分析的样本称为抽样。抽样方法应能防止主、客观因素造成偏性(即系统误差),保证样本对总体的代表性。简单随机抽样是以抽签或相当于抽签的方式从总体中抽取个体组成样本。其要点是:总体中每个个体被抽中的机会必须均等。系统抽样是将总体划分为时间或空间顺序相等的个部分,再机械地取每一部分的第个个体组成样本,是一次随机抽定的。例如,欲抽查十分之一学生的成绩,可从0到9这10个整数中随机地抽定一个数,假设为3,则凡学生证号最后一个数是 3者均为被抽中的对象。分层抽样是事先将总体分为不同的层次(如地区、年龄、性别等),再分别从各层次中按适当比例抽样。用此法可以从层间差异较大的总体中获取代表性较好的样本。整群抽样是以群体为单位进行抽样,凡抽中的单位就全面调查。此法便于实施,但抽样误差较大,一般不可沿用基于简单随机抽样的普通公式计算抽样误差。此外,还可以分阶段地、混合地使用上述方法。如两阶段抽样、多阶段抽样、分层整群抽样、多阶段等概率抽样等。 用样本统计量去估计总体参数难免会有抽样误差,它的大小与个体变异(标准差)的大小成正比;与样本含量的平方根成反比。表示抽样误差大小的统计指标是标准误 [1434-01]或代以统计量 [1434-02] (7)相当于将每一个样本(设想有许多来自同一总体的样本)的均数(或率)看成为一个个体时的标准差,它反映了取自同一总体的不同样本之间的差异(7)式适用于简单随机抽样和系统抽样。其他几种抽样方法的算式较繁。 差异的显著性 两个或两组数据相比,总会有或大或小的差异。问题是这种差异仅仅是抽样误差的反映呢还是由于它们来自不同的总体?即是否存在着实质性差异?用统计学的术语来说,就是要判断数据间的差异是否“显著”。用统计方法来推断差异的性质称为差异的显著性检验。显著性检验的方法很多,基本步骤大体如下:先假定数据均来自同一总体,即假设要比较的数据并无实质性差异,称为零假设;根据原始数据计算因抽样误差而出现此种程度差异的概率;若甚小,则根据“小概率事件实际上不大可能发生”这一原理否定零假设,认为“差异显著”,即这种差异从统计学的角度来看是有意义的;反之,若不算小,就不否定零假设,认为“差异不显著”,即不能排除抽样误差范围内的波动。正确地运用显著性检验,可使实验或调查的结论建立在更科学、稳妥的基础之上,避免简单化和绝对化。 显著性水准 概率的大小只能相对而言,在生物学数据的差异显著性检验中,已习惯用=0.05为小概率的上限。有时,为严格起见,也规定=0.01。称为显著性水准,它是当零假设正确时却错误地将其否定(第Ⅰ类错误)的概率。但也不是 定得愈小愈好。倘若零假设是不对的却未能否定,它(第Ⅱ类错误)的概率 将因规定得愈小而愈大。增大样本可以减小出现第Ⅰ或第Ⅱ类错误的概率。 两个计数数据的比较 最简单的差异显著性检验是比较按零假设系“来自同一总体”的两个计数与。 [1434-03] (8)服从标准正态分布。换言之,>1.96的概率<0.05(表1[标准正态分布尾部概率简表])。 例如,用“714”试治喘息型气管炎,与用氨茶碱进行比较:在每名患者身上交替使用这两种药各一疗程。半数患者先服甲药,另一半先服乙药。结果16名患者用氨茶碱效果较好(=16),5名用“714”较好(=5)。 将上述结果代入(8)式 [1434-03a]因>1.96,<0.05,故否定零假设,因此可以认为两药的疗效并不相同,即“714”的疗效不及氨茶碱。 凡用标准正态分布统计量进行的显著性检验,均可称为检验。 两个均数的比较 也可用检验: [1434-04] (9)其中和分别表示第1个样本的均值标准和含量,余类推。为总体方差,通常是未知的,故常用右边的近似式。当两样本的含量 +=<25时,(9)式的近似程度欠佳,最好用检验。 检验是根据统计量的概率分布(称为分布,见表2[禾苗喷雾后净增长度(cm)])而进行的显著性检验。比较两个均数时, [1434-05] (10)其中为合并的方差,即 [1434-06] [1434-07] (11)其中表示第1个样本中的数据,表示第2个样本中的数据,其余符号意义同前自由度=+-2用[tav]表示显著性水准为、自由度为的临界值,可从表 3中查得。若按(10)式算得的的绝对值大于[tav],则<,有显著性差异。 例如,在一块小区田里选20兜长势均匀的禾苗作试验,随机抽取其中10兜喷以粗制“920”溶液,其余喷水作对照。三日后,测量禾苗净增长度,结果如表2[禾苗喷雾后净增长度(cm)]。 由(11)式 [1434-08]代入(10)式 [1434-09]查表3[值表]值表" class=image>,当=0.01,=10+10-2=18,0.01,18=2.88;此例=4.55>2.88,<0.01,有显著性差异。 结论:粗制“920”有加速禾苗生长的作用。 两个率的比较 当样本较大,以致两个样本的阳性数、阴性数都大于5时,可用检验: [1434-10] (12)、和,分别表示第1组的阳性率、阴性率和含量,余类推。若应用检验的上述条件不能满足,可用近似程度较好的检验: [1434-11] (13)其中[p-1]=(1+1)(+2),1是第 1组的阳性数,[q-1]=1-[p-1],余类推。自由度=+-2。 例如,甲组=23,其中两个呈“+”反应,乙组=77,全为“―”反应。现在来检验差异的显著性。[p-1]=(2+1)/(23+2)=0.120,[q-1]=1-0.120=0.880;[p-2]=(0+1)/(77+2)=0.013,[q-2]=1-0.013=0.987。代入(13) 式得=1.65,=23+77-2=98,接近100,由表3[值表]值表" class=image>知[1435-33],>0.05,故无显著性差异。 置信限 由样本估计总体,难免会有抽样误差,这就产生了统计量的可信程度和可信范围的问题。如果我们将统计量(或)看成为一个个体,的总体均数为,标准差为=/[1435-0];而且不论的分布是否正态,只要不是很小,就近似正态分布,亦即=(-)/近似标准正态分布。于是下式 [1435-01] (14)成立的概率为0.95。用代替其中的,稍作变换,即得由样本统计量 和来估计总体参数 的一个区间(范围): [1435-02] (15)这一区间的实际计算值随样本而异,但它们覆盖[u1]的机会──称为置信水准──是95%,所以称(15)式为95%置信区间,它的上、下限就是置信限。 例如按表 4 [161名 7岁男孩身高的频数分布]中数据可算出161名7岁男孩的身高均值=115.01(厘米),标准差=4.63,标准误由(7)式得[1435-03]。由 (15)式得 7岁男孩身高总体均数 的95%置信限为[114.95,115.73]。 两总体均数之差-的置信限可按下式计算: [1435-04] (16)式中符号意义同前当置信水准(1-)为95%时,=0.05;=1+2-2;据此,从表2[禾苗喷雾后净增长度(cm)]中即可查出[tav]的值。 方差分析 也是基本的统计分析方法之一,较常用于分析实验数据。用于检验多组均数间差异的显著性和多因素的单独效应与交互影响的显著性等。基本思路:正态分布数据的变差,可分为未能控制与未能解释的“误差”和来源明确与能够解释的“效应”这两大部分。后者还可以进一步划分成各种不同因素及其交互影响所引起的效应。 按一个因素的不同水平分组的数据结构: 观测值=平均效应+该水平(组)效应+误差 (17)当检验组数据间的差异显著性时,零假设相当于“各组效应均为零”;当零假设被否定时备选假设相当于“在种处理(水平)中至少有一种的效应不为零”。 一般用离均差平方和(记作)来衡量数据间的变异,再除以自由度()则称为均方,记作=/,它反映了平均的变异程度。设每组各有个数据,则组共有=个。它们的总变异[1435-05],表示第组的第个数据;各组之间的变异[1435-06],是第组的均数;组内变异(即误差)[1435-07]。三者之间有以下关系: =+ (18)它们的自由度也同样可加: (-1)=(-1)+(-) (19)组间均方 =/(-1)与组内均方 =/(-)之比 =/ (20)可用来检验组间差异的显著性。的界值可从值表中查得。用于方差分析的软件可以打印出包含 及相应的尾部概率值的表格(表6[表5中数据的方差分析表])。 例如将 30名收缩压在200毫米汞柱左右的高血压患者随机分为3组,每组各用一种药物,一个疗程后测血压,结果如表5[三组病人用药后的血压(mmHg)]。 利用现成的计算机软件打印的结果如表6[表5中数据的方差分析表]。表中<0.01,表明组间有显著性差异。即自由变。 按两个因素分组的数据结构: 观测值=均数+行效应+列效应 +交互影响+误差 (21)其中“均数”指平均效应,行效应指按第1因素分组的组效应,列效应指按第2因素分组的组效应。交互影响的含义:当数据按两个以上的因素分组时,如果这些因素的效应并不是彼此独立的,即一个因素的效应随另一因素的水平不同而异,则称这两个因素之间存在着交互影响。 例如在三种病型的患者身上试用 4种药物后的血压改变如表7 [原始数据]所示。其中每个数据代表一个病人的用药结果。 表8[方差分析表]是计算机给出的结果。 从 值可以看出:三种病型之间无显著性差异;药物间有显著性差异;药物与病型的交互影响无显著性。“均数”除非来源于配对数据之差或两均数之差,一般都是有显著性的,即不为零。 只有进行了重复实验,即两因素的各种不同水平的搭配均有两个以上数据,才有可能算出交互影响项的变异。这是在设计时应该想到的。 上述内容不难推广到三个以上因素的方差分析。 理论的验证──检验 生物科学注重实验、调查。归纳得来的理论、演绎得来的假说,还须经过实践来验证。由于个体差异大是生物学数据的固有特点,所以这种验证也只能是统计的。统计量 是 个独立标准正态分布统计量的平方和,它的分布与自由度V有关(表9[表]表" class=image>,图4[分布]分布" class=image>)。在生物学研究中用处很大,常用于衡量某种理论与实际计数的吻合性,或按两种指标分组的列联表的独立性。实际观察到的分配在表中每个小格里的计数数据,可以假定是服从泊松分布规律的数据──它的特点是方差等于平均数,且当样本不很小时,近似于正态分布。由此可以理解下列这个常用的基本公式。 =[1436-01] (22)其中的理论数可按欲检验的生物学理论或零假设计算,自由度 =中蕴含独立统计量的个数。对于普通的只有一行格的单向表──1×表,因受合计的约束, V=-1而双向的有行列的×表,则因受行合计与列合计的约束, =(-1)(-1)对计算结果的分析可参照差异的显著性检验。 例如番茄的真实紫茎、缺刻叶植株AACC与真实绿茎、马铃薯叶植株aacc杂交,子2代得如下结果(株数):紫茎缺刻叶 紫茎马铃薯叶 绿茎缺刻叶 绿茎马铃薯叶 247 90 83 34上述观察频数是否与遗传学的独立分配定律的理论比例:9:3:3:1相符,可用分布来衡量实验观察结果与理论频数之间的吻合度。将上述理论比例改为构成比即: [1436-02]或0.5625:0.1875:0.1875:0.0625子2代总株数为247+90+83+34=454;理论频数是总株数与构成比的乘积,故得255.375:85.125:85.125:28.375,代入(22)式: =[1437-01]自由度=4-1=3,查表9[表]表" class=image>,[x053]=2.37>1.72,故>0.5,高度吻合。衡量吻合度不能用小样。列联表 即按两种指标分成行列的所谓×表,常用于衡量指标间的联系或独立性,为此亦可用(22)式。 例如根据表10[白血病人按病型与血型分组]中数据分析血型与白血病病型间有无联系。零假设是“二者没有联系”。括号中数据是根据零假设计算的理论频数=行合计×列合计÷总计。代入(22)式得=1.84,=行数-1×列数-1=(2-1)×(4-1)=3。查表3,[x053]=2.37>1.84,>0.5,故不能否定零假设。即不能认为血型与白血病病型有联系。 回归与相关 用来建立或明确两种指标之间的关系的统计技术。前者可用于分析一个变量受另一变量影响的程度;后者则用于分析两个对称或“平等”的指标之间的关联程度。 直线回归是用简单的直线方程=+来拟合依变量(表示它的估计值)受自变量影响的情形。式中的与可以在有回归功能键的计算器上直接得出,但需按说明书将成对的观测数据(,)输入。计算程序的原理在于使 [1437-02]极小化。若自变量不止一个,则有=+++…,称为多元回归,可用于预测、判别与指标的综合等。一般的微电脑常有计算多元回归系数等的程序。 直线相关系数=/(其中为回归系数,、分别为与的标准差),其绝对值反映两个指标相关的程度。的取值范围是-1到+1它也可以在计算器上直接得出。 概率单位分析法 主要用于处理生物对化学或物理刺激的反应曲线。是一种以剂量的对数为自变量,以反应率的概率单位为依变量,从而使S型曲线直线化而便于分析的一种方法,可用于测定药物、毒物或物理因素对机体作用的强度和分析它们的联合作用。无分布法 大多数统计分析方法都建立在“数据为正态分布”这一基本假定之上,而许多生物学数据远非正态分布,采用无分布法可以绕过这一困难。这类方法往往比较直观,而且计算简便。有时,一部分(或全部)观测结果并不能直接用数据表示,只能用反映大小或程度的等级或秩次表示。例如,观测结果是“-”,“±”,“+”及“++”以上,排序后的等级便是1,2,3,4……许多很有效的无分布法就是基于数据或观测结果的大小顺序的。由于无分布法通常并不涉及数据分布的参数(如平均数),所以有时也称为非参数方法。生存分析 许多生物现象的动态观察结果都比一次性的横断面观察更能说明问题。例如:恶性肿瘤患者接受手术治疗的效果,要看他们术后经过一段时间的生存率,或者有必要描绘出在不同条件下的生存率曲线(以时间为横轴,生存率为纵轴),以便进行分析与比较;器官移植的效果,要看异体器官在体内正常工作和不被排斥的时间等。生存分析的用途是广泛的。多元分析 又称多指标或多变量分析,是对多个观测指标同时进行综合性分析,所以比普通的一元统计分析更为全面、有效。这是40年代就已出现的一系列好方法。由于涉及较深的数学知识和很复杂的计算,妨碍了它们的普及,随着计算机和统计软件包的日益完善,预料多元分析不久将会成为生物科学研究的常规武器。多重回归是指多个自变量和一个因变量的回归;而多元回归是指不止一个因变量的回归。但二者常被混淆使用。它们可用于预测、指标的综合或自变量的筛选。判别分析是利用形如多重回归方程的判别函数来进行个体种类的判断或诊断。聚类分析是将许多个体或指标按它们的相似程度来归类。对个体进行聚类称为Q型聚类;对指标进行聚类称为R型聚类。Q型聚类和判别分析是数量分类学的两种基本方法。趋势面是以地理上的经、纬度为自变量的高次方程,可用于绘制研究对象在地理上的分布密度的等高线图,亦可用于预测。主成分分析的目的在于将许多彼此相关的指标变换成少数几个彼此独立的综合指标,而且它们包含了原来那些指标的几乎全部统计信息。因子分析的计算程序与主成分分析类似,但它不是研究指标的变换,而是分析个体间的内在联系,此法为心理学家所首创,也可用于研究复杂的疾病。统计模型 几乎所有的统计方法都有一个数学模型作为背景。除了上述方法之外,在生物科学研究中用处较大的还有:捉放捉模型,用于个体总数的估计;对数线性模型,用于多维列联表(即按多个指标分组的计数资料)的分析;Logit模型,既可用来同时排除多个混杂因素的影响,又可用于处理定量的混杂变量与危险因子。如果所有指标都是定性的,Logit模型就成了对数线性模型的一个特例。
理论统计学是统计学的一个分支 它是把研究对象一般化、抽象化、以概率论为基础,从纯理论的角度,对统计方法加以推导论证,中心的内容是统计推断问题,实质是以归纳方法研究随机变量的一般规律。 例如统计分布理论,统计估计和假设检验理论,相关与回归分析,方差分析,时间序列分析、随机过程理论等。