总体单位的含义 总体单位是构成总体的各个个别单位,它是组成总体的基本单位,也是调查项目的直接承担者。如:对工业企业进行调查,全国工业企业是总体,每一个工业企业就是单位。若研究目的不同,总体和总体单位可以互换,总体有可能变成总体单位,总体单位有可能变成总体。
1、把数变为(0,1)之间的小数 主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速,应该归到数字信号处理范畴之内。 例1:{2.5 3.5 0.5 1.5}归一化后变成了{0.3125 0.4375 0.0625 0.1875}解:2.5+3.5+0.5+1.5=8, 2.5/8=0.3125, 3.5/8=0.4375, 0.5/8=0.0625, 1.5/8=0.1875. 这个归一化就是将括号里面的总和变成1.然后写出每个数的比例。2、把有量纲表达式变为无量纲表达式 归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。 比如,复数阻抗可以归一化书写:Z = R + jωL = R(1 + jωL/R) ,复数部分变成了纯数量了,没有量纲。 另外,微波之中也就是电路分析、信号系统、电磁波传输等,有很多运算都可以如此处理,既保证了运算的便捷,又能凸现出物理量的本质含义。 1、线性函数转换,表达式如下: y=(x-MinValue)/(MaxValue-MinValue) 说明:x、y分别为转换前、后的值,MaxValue、MinValue分别为样本的最大值和最小值。 2、对数函数转换,表达式如下: y=log10(x) 说明:以10为底的对数函数转换。 3、反余切函数转换,表达式如下: y=atan(x)*2/PI 4、式(1)将输入值换算为[-1,1]区间的值,在输出层用式(2)换算回初始值,其中 和分别表示训练样本集中负荷的最大值和最小值。 在统计学中,归一化的具体作用是归纳统一样本的统计分布性。归一化在0-1之间是统计的概率分布,归一化在-1--+1之间是统计的坐标分布。
异方差性(heteroscedasticity )是为了保证回归参数估计量具有良好的统计性质,经典线性回归模型的一个重要假定是:总体回归函数中的随机误差项满足同方差性,即它们都有相同的方差。如果这一假定不满足,则称线性回归模型存在异方差性。 若线性回归模型存在异方差性,则用传统的最小二乘法估计模型,得到的参数估计量不是有效估计量,甚至也不是渐近有效的估计量;此时也无法对模型参数的进行有关显著性检验。 对存在异方差性的模型可以采用加权最小二乘法进行估计。 异方差性的检测——White test 在此检测中,原假设为:回归方程的随机误差满足同方差性。对立假设为:回归方程的随机误差满足异方差性。判断原则为:如果nR^2>chi^2 (k-1), 则原假设就要被否定,即回归方程满足异方差性。 在以上的判断式中,n代表样本数量,k代表参数数量,k-1代表自由度。chi^2值可由查表所得。异方差性的含义 回归模型的随机扰动项ui在不同的观测值中的方差不等于一个常数,Var(ui)= 常数(i=1,2,…,n),或者Var(u ) Var(u )(i j),这时我们就称随机扰动项ui具有异方差性(Heteroskedasticity)。 在实际经济问题中,随机扰动项ui往往是异方差的,但主要在截面数据分析中出现。 例如 (1)调查不同规模公司的利润,发现大公司的利润波动幅度比小公司的利润波动幅度大; (2)分析家庭支出时发现高收入家庭支出变化比低收入家庭支出变化大。 在分析家庭支出模型时,我们会发现高收入家庭通常比低收入家庭对某些商品支出有更大的方差;图5-1显示了一元线性回归中随机变量的方差ui随着解释变量 的增加而变化的情况。 异方差性破坏了古典模型的基本假定,如果我们直接应用最小二乘法估计回归模型,将得不到准确、有效的结果。异方差性的来源 1.模型中缺少某些解释变量,从而随机扰动项产生系统模式 由于随机扰动项ui包含了所有无法用解释变量表示的各种因素对被解释变量的影响,即模型中略去的经济变量对被解释变量的影响。如果其中被略去的某一因素或某些因素随着解释变量观测值的不同而对被解释变量产生不同的影响,就会使ui产生异方差性。 例如,以某一时间截面上不同收入家庭的数据为样本,研究家庭对某一消费品(如服装、食品等)的需求,设其模型为: (5-1) 其中Qi表示对某一消费品的需求量,Ii为家庭收入,ui为随机扰动项。ui包括除家庭收入外其他因素对Qi的影响。如:消费习惯、偏好、季节、气候等因素,ui的方差就表示这些因素的影响可能使得Qi偏离均值的程度。在气候异常时,高收入家庭就会拿出较多的钱来购买衣服,而低收入的家庭购买衣服的支出就很有限,这时对于不同的收入水平Ii,Qi偏离均值的程度是不同的,Var(ui) 常数,于是就存在异方差性了。 再比如,以某一时间截面上不同地区的数据为样本,研究某行业的产出随投入要素的变化而变化的关系,建立如下模型: (5-2) 其中Yi表示某行业的产出水平。Li表示劳动力对产出的影响。Ki表示资本对产出的影响,ui表示除劳动力和资本外其他因素对产出水平的影响,诸如地理位置、国家政策等。显然,对于不同的行业 ,这些因素对产出 的影响程度是不 同的,引起 偏离零均值的程度也是不同的,这就出现了异方差。 异方差性容易出现在截面数据中,这是因为在截面数据中通常涉及某一确定时点上的总体单位。比如个别的消费者及其家庭、不同行业或者农村、城镇等区域的划分,这些单位各自有不同的规模或水平,一般情况下用截面数据作样本时出现异方差性的可能性较大。 2.测量误差 测量误差对异方差性的作用主要表现在两个方面:一方面,测量误差常常在一定时间内逐渐积累,误差趋于增加,如解释变量X越大,测量误差就会趋于增大;另一方面,测量误差可能随时间变化而变化,如抽样技术或收集资料方法的改进就会使测量误差减少。所以测量误差引起的异方差性一般都存在于时间序列中。 例如,研究某人在一定时期内学习打字时打字差错数Yt与练习打字时间Xt之间的关系。显然在打字练习中随时间的增加,打字差错数将减少,即随着Xt的增加Yt将减小。这时Var(ut)将随Xt的增加而减少,于是存在异方差性。 不仅在时间序列上容易出现异方差性,利用平均数作为样本数据也容易出现异方差性。因为许多经济变量之间的关系都服从正态分布,例如不同收入组的人数随收入的增加是正态分布,即收入较高和较低的人是少数的,大部分人的收入居于较高和较低之间,在以不同收入组的人均数据作为样本时,由于每组中的人数不同,观测误差也不同,一般来说,人数多的收入组的人均数据较人数少的收入组的人均数据具有较高的准确性,即Var(ui)随收入Ii呈现先降后升的趋势,这也存在着异方差性。 3.模型函数形式设置不正确 模型函数形式的设定误差。如将指数曲线模型误设成了线性模型,则误差有增大的趋势。 4.异常值的出现 随机因素的影响,如政策变动、自然灾害、金融危机、战争和季节等。异方差性的类型 异方差一般可归结为三种类型: (1)单调递增型: 随X的增大而增大,即在X与Y的散点图中,表现为随着X值的增大Y值的波动越来越大 (2)单调递减型: 随X的增大而减小,即在X与Y的散点图中,表现为随着X值的增大Y值的波动越来越小 (3)复杂型: 与X的变化呈复杂形式,即在X与Y的散点图中,表现为随着X值的增大Y值的波动复杂多变没有系统关系。异方差性的后果 在古典回归模型的假定下,普通最小二乘估计量是线性、无偏、有效估计量,即在所有无偏估量中,最小二乘估计量具有最小方差性——它是有效估计量。如果在其他假定不变的条件下,允许随机扰动项ui存在异方差性,即ui的方差随观测值的变化而变化,这就违背了最小二乘法估计的高斯——马尔柯夫假设,这时如果继续使用最小二乘法对参数进行估计,就会产生以下后果: 1.参数估计量仍然是线性无偏的,但不是有效的 2.异方差模型中的方差不再具有最小方差性 3.t检验失去作用 4.模型的预测作用遭到破坏
定义 异常值outlier:一组测定值中与平均值的偏差超过两倍标准差的测定值。 与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。 在处理数据时,应剔除高度异常的异常值。异常值是否剔除,视具体情况而定。在统计检验时,指定为检出异常值的显著性水平α=0.05,称为检出水平;指定为检出高度异常的异常值的显著性水平α=0.01,称为舍弃水平,又称剔除水平(reject level)。准确性 在回弹法检测砼强度中,按批抽样检测的测区数量往往很多,这就不可避免出现较多的检测异常值,怎样判断和处理这些异常值,对于提高检测结果的准确性意义重大。格拉布斯检验法是土木工程中常用的一种检验异常值的方法,其应用于回弹法检测砼强度,能有效提高按批抽样检测结果的准确性。判断处理 检验批中异常数据的判断处理 1、依据标准 《计数抽样检验程序》(GB2828)、《正态样本异常值的判断和处理》(GB4883)。 2、异常值定义 异常值是指样本中的个别值,其数值明显偏离它(或他们)所属样本的其余观测值。 3、异常值的种类 (1)可能是总体固有的随机变异性的极端现,属同一总体; (2)可能是试验条件和方法的偶然偏离,不属同一总体。 4、判断异常值的统计学原则 (1)上侧情形:异常值为高端值; (2)下侧情形:异常值为低端值; (3)双侧情形:异常值在两端可能出现极端值。 5、判断异常值的规则: (1)标准差已知——奈尔(Nair)检验法; (2)标准差未知——格拉布斯(Grubbs)检验法和狄克逊(Dixon)检验法。 6、格拉布斯(Grubbs)检验法 (1)计算统计量 μ=(X1+X2+…+Xn)/n s=(∑(Xi-μ)/(n-1))½(i=1,2…n) Gn=(X(n)-μ)/s 式中μ——样本平均值; s——样本标准差; Gn——格拉布斯检验统计量。 (2)确定检出水平α,查表(见GB4883)得出对应n,α的格拉布斯检验临界值G1-α(n)。 (3)当Gn>G1-α(n),则判断Xn为异常值,否则无异常值。 (4)给出剔除水平α’的G1-α’(n),当当Gn>G1-α’(n)时,Xn为高度异常值,应剔除。 三、格拉布斯检验法在回弹法检测砼强度中的应用 将测区混凝土强度换算值按从小到大的顺序排列f1、f2、…fn,计算格拉布斯检验统计量: Gn=(fn-m)/s Gn’=(m-f1)/s 式中m——测区混凝土强度换算值的平均值; s——测区混凝土强度标准差。 取检出水平α为5%,剔除水平α’为1%,按双侧情形检验,从附表中查得检出水平α对应格拉布斯检验临界值G0.975,剔除水平α’对应格拉布斯检验临界值G0.995。 若Gn>Gn’,且Gn>G0.975,则判断fn为异常值,否则,判断无异常值; 若Gn>Gn’,且Gn>G0.995,则判断fn为高度异常值,可考虑剔除; 若Gn’>Gn,且Gn’>G0.975,则判断f1为异常值,否则,判断无异常值; 若Gn’>Gn,且Gn’>G0.995,则判断f1为高度异常值,可考虑剔除; 分析异常值出现原因,判断异常值是否舍弃。不得随意舍去异常值,应检查异常值出现是否系材料或施工质量变化等原因所致。 若检出了一个异常值,对除去已检出异常值后余下得数值继续用格拉布斯检验法检验,直到不能检出异常值为止。
异众比率(variation ratio)是统计学名词,指非众数组的频数占总频数的比例。 异众比率的计算公式为: 其中Vr表示异众比率,∑f i为变量值的总频数;∑f m为众数组的频数。 异众比率主要用于衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。 譬如,我们通过计算求出一项50人调查中,购买其它品牌饮料(指除可口可乐之外的品牌)的人数达到70%的异众比率,异众比率比较大,那么,说明用“可口可乐”来代表消费者购买饮料品牌的状况,其代表性比较差,其众数代表性就不是很明显。 异众比率主要适合测度分类数据的离散程度,当然,对于顺序的数据以及数值型数据也可以计算异众比率。
建设过程中投资滞留在未完工程的平均持续时间。
指建设总规模与年度建设规模的比值。它反映国家、一个地区或行业完成建设总规模平均需要的时间,同时也反映建设速度与建设过程中人力、物力和财力集中的程序。作为考查投资效益的重要指标,可用总投资额与年度投资额表示。即: 建设周期(年)=总投资格/年度投资额 也可用项目总个数与年度竣工项目个数表示,即:建设周期(年)=项目总个数/年建成项目个数。 全国或一个地区、一个部门在一定时期内,所有施工项目全部建成平均需要的时间。反映建设速度,分析宏观经济投资效果的重要指标。建设周期的计算,不建设周期仅包括计算期内建成投产的项目,也包括未建成投产的在建工程。建成投产项目所占比重越大,建设周期就越短;相反,未完建设工程越多,建设周期就越长。建设周期拖长,会使固定资产交付使用率下降,未完工程占用率上升。 建设周期的计算方法主要有:①按全部施工项目的计划总投资额与全年完成的施工项目投资额进行对比,求得全部建成平均需要的时间(年)。它反映按照当年投资水平,全部完成在建项目的计划总投资需要的时间。②按全年施工项目个数与建成投产项目个数进行对比,求得全部建成平均需要的时间。它表明按照当年的投产率,全部建成全年施工项目需要的时间。这种方法计算简便,但项目有大有小,它们的建设工期长短各异,需要注意项目构成的变化对建设周期的影响。 缩短建设周期对加快现代化建设具有十分重要的意义。合理确定基本建设投资规模,适当控制基本建设项目数量,集中力量保证计划期内投产项目按期竣工,以及合理压缩未完建设工程数量,是缩短建设周期的重要措施。
建筑总产值(建筑工作量):企业在一定时期内生产的,以货币表现的建筑产品总量。