网站首页 公文大全 个人文档 实用范文 讲话致辞 实用工具 心得体会 哲学范文 总结范文 范文大全 报告 合同 文书 信函 实用
  • 读书心得体会
  • 培训心得体会
  • 军训心得体会
  • 教师心得体会
  • 工作心得体会
  • 学习心得体会
  • 百花范文网 > 心得体会 > 工作心得体会 > [计量经济学数学基础]计量经济学与数学的关系

    [计量经济学数学基础]计量经济学与数学的关系

    时间:2021-09-15 23:07:02来源:百花范文网本文已影响

    《计量经济学》数学基础 数学基础 (Mathematics) 第一节 矩阵(Matrix)及其二次型(Quadratic Forms) 第二节 分布函数(Distribution Function),数学期望(Expectation)及方差(Variance) 第三节 数理统计(Mathematical Statistics) 第一节 矩阵及其二次型(Matrix and its Quadratic Forms) 1.1 矩阵的基本概念与运算 一个m×n矩阵可表示为:
    矩阵的加法较为简单,若C=A+B,cij=aij+bij 但矩阵的乘法的定义比较特殊,若A是一个m×n1的矩阵,B是一个n1×n的矩阵,则C=AB是一个m×n的矩阵,而且,一般来讲,AB≠BA,但如下运算是成立的:
    l 结合律(Associative Law) (AB)C=A(BC) l 分配律(Distributive Law) A(B+C)=AB+AC 问题:(A+B)2=A2+2AB+B2是否成立? 向量(Vector)是一个有序的数组,既可以按行,也可以按列排列。

    行向量(row vector)是只有一行的向量,列向量(column vector)只有一列的向量。

    如果α是一个标量,则αA=[αaij]。

    矩阵的转置矩阵(transpose matrix)记为,是通过把的行向量变成相应的列向量而得到。

    显然()′=,而且(+)′=+, l 乘积的转置(Transpose of production ) ,。

    l 可逆矩阵(inverse matrix),如果n级方阵(square matrix)A和B,满足AB=BA=I。则称A、B是可逆矩阵,显然,。如下结果是成立的:

    1.2 特殊矩阵 1)恒等矩阵(identity matrix) 对角线上元素全为1,其余全为0,可记为I;

    2)标量矩阵(scalar matrix) 即形如αI的矩阵,其中α是标量;

    3)幂等矩阵(idempotent matrix) 如果矩阵具有性质,这样的矩阵称为幂等矩阵。

    定理:幂等矩阵的特征根要么是1,要么是零。

    4)正定矩阵(positive definite)和负定矩阵(negative definite),非负定矩阵(nonnegative ) 或 半正定矩阵(positive semi-definite ),非正定矩阵(nonpositive definite) 或 半负定矩阵(negative semi-definite);

    对于任意的非零向量,如有>0(<0),则称A是正(负)定矩阵;
    如有≥0(≤0),非负(非正)定矩阵。如果A是非负定的,则记为A≥0;
    如果是正定的,则记为A>0。协方差矩阵是半正定矩阵,几个结论:
    a)恒等矩阵或单位矩阵是正定的;

    b)如果是正定的,则也是正定的;

    c)如果是正定的,是可逆矩阵,则是正定的;

    d)如果是一个n×m矩阵,且n>m,,则是正定的,是非负定矩阵。

    5)对称矩阵(symmetric matrix);

    如果=′,则称为对称矩阵。

    1.3 矩阵的迹(trace) 一个n×n矩阵的迹被定义为它的对角线上的元素之和,记为,则,如下结论是显然的。

    1) (是标量) 特例 2) 3) 4),特例 5)循环排列原则 tr(ABCD)=tr(BCDA)=tr(CDAB)=tr(DABC) 定理:实对称矩阵A的迹等于它的特征根之和。

    因为A是实对称矩阵,故有在矩阵C,使得,其中,所以,。

    1.4 矩阵的秩(rank) 一个矩阵A的行秩和列秩一定相等,一个矩阵的秩就可以定义为它的行秩或列秩,记为r(A),不加证明,我们给出如下结果:
    1)≤(行数、列数) 2)≤≤,其中A、B分别为m×n1、n1×n矩阵,特例:如果A、B为n×n矩阵,而且AB=0,则≤ 3),其中是n×n的方阵 4)≤ 5)设是n×n矩阵,且,则 6)设是n×n矩阵,且,则 1.5 统计量的矩阵表示 向量可理解为特殊的矩阵。是一个其元素都为1的n维列向量,即=(1,1,…,1),如果我们再假定,计量经济模型中的许多统计量就可以用矩阵的形式表示出来,很方便进行数学推导。

    显而易见,,,样本的均值与方差的矩阵表示如下:
    1)样本均值矩阵表示;

    事实上即,而,;

    2)样本方差矩阵表示 易知:。其中矩阵是一个每个元素都为的阶方阵,从而。

    矩阵的对角线上的元素为,非对角线的元素为,是一个对称矩阵。

    故样本方差:

    定理:矩阵是幂等矩阵。

    1.6 矩阵的二次型与多元正态分布 1)矩阵的二次型(Quadratic Forms)和线性变换(linear transferring) 设P是一数域,一个系数在数域P中的的二次齐次多项式 …………………………… (1) 称为数域P上的一个n元二次型,或者,在不致引起混淆时简称二次型。例如 就是有理数域上的一个三元二次型,为了以后讨论上的方便,在(1)中,<的系数写在。而不简单地写成。

    和在几何中一样,在处理许多其它问题时也常常希望通过变量的线性替换简化有关的二次型,为此,我们引入 定义1 设;
    是两组文字,系数在数域P中的一级关系式 (2) 称为由,到的一个线性替换,或简称线性替换,如果系数行列式 那么线性替换(2)就称为非退化的。

    在讨论二次型时,矩阵是一个有力的工具,因此我们先把二次型与线性替换用矩阵来表示。

    令 , < 由于 所以二次型(1)可以写成 …………………………………… (3) 把(3)的系数排成一个n×n矩阵 (4) 它就称为二次型(3)的矩阵,因为,,所以 我们把这样的矩阵称为对称矩阵,因此,二次型的矩阵都是对称的。

    令 于是,二次型可以用矩阵的乘积表示出来, 故 应该看到,二次型(1)的矩阵的元素正是它的项的系数的一半,因此二次型和它的矩阵是相互唯一决定的,由此还能得到,若二次型 且,,则。

    令 于是线性替换(2)可以写成 或者 我们知道,经过一个非退化的线性替换,二次型还是变成二次型,现在就来看一下,替换后的二次型与原来的二次型之间有什么关系,也就是说,找出替换后的二次的矩阵与原二次型的矩阵之间的关系。

    设 (5) 是一个二次型,作非退化线性替换 (6) 我们得到一个的二次型 现在来看矩阵B与A的关系。

    把(6)代入(5),有 容易看出,矩阵也是对称的,事实上, 由此,即得 这就是前后两个二次型的矩阵的关系,与之相应,我们引入 定义2 数域P上n×n矩阵A,B称为合同的,如果有数域P上可逆的n×n矩阵C,使 合同是矩阵之间的一个关系,不难看出,合同关系具有 1)反身性:;

    2)对称性:由即得;

    3)传递性:由即得 因之,经过非退化的线性替换,新二次型的矩阵与原二次型的矩阵是合同的。这样,我们就把二次型的变换通过矩阵表示出来,为以下的探讨提供了有力的工具。

    最后指出,在变换二次型时,我们总是要求所作的线性替换是非退化的。从几何上看,这一点是自然的,因为坐标变换一定是非退化的,一般地,当线性替换 是非退化时,由上面的关系即得 这也是一个线性替换,它把所得的二次型还原。这样就使我们从所得二次型的性质可以推知原来二次型的一些性质。

    定理:若A是实对称矩阵,则存在可逆矩阵C,满足:。

    2)多元正态分布 a)二元正态分布 直观上,二元正态分布是两个正态随机变量的联合分布。如果两个随机变量X1和X2的联合密度函数为 这里<,<,>0,>0,<<1, , 我们称X1和X2服从二元正态分布。通过计算可得X1和X2的边际分布分别为和。上式中的参数是X1和X2的相关系数。

    如果X1和X2服从二元正态分布,那么在给定的条件下X2的条件分布也是正态的。它的条件密度函数为 这里 条件均值是的线性函数。并且,二元正态分布具有一个独特的性质,那就是如果,那么X1和X2是相互独立的。这是由于当时,我们有。这对于一般的两个随机变量是不对的。

    有时如果把联合概率密度函数写成矩阵的形式,则从形式上来看就简单多了。记,那么二元正态概率密度函数可以写成如下的简单形式 这里 b)多元正态分布 ,这就是均值为协方差矩阵为的多元正态分布,记为。

    c)多元正态分布的二次型的分布 如果,那么 这里n是X的维数。我们可以简单地证明这个结果。由于是对称可逆矩阵,那么存在一个可逆的矩阵A,使得。我们有,所以。

    1.7 幂等矩阵与二次型 1、幂等矩阵满足A2=A的矩阵称为幂等矩阵。

    幂等矩阵可以是对称的,也可以是非对称的,但在我们计量统计学中,所研究的幂等矩阵都是对称的。与幂等矩阵的有关的结果有:
    1)幂等矩阵的特征根要么是1,要么是零。

    证明:设是A的特征根,则AE=,同时=A=A2=,故,从而或。

    2)唯一满秩的对称幂等矩阵是单位矩阵。

    证明:∵A2=A 即除了单位矩阵外,所有幂等矩阵是奇异的。

    3)A是幂等矩阵,则I-A也是幂等矩阵,且秩(A)+秩(I-A)=n。

    4)对称幂等矩阵的秩等于它的迹。

    从而我们很容易知道M0的秩。

    因M0的每个对角元素都是,因此。

    5)的服从分布(如果 这是因为:和。

    6) X是一个n×m的矩阵,秩(X)=m 则M是幂等矩阵。

    1.8 微分及其矩阵的微分表示 1)微分的应用 微分的应用在经济学领域中被广泛地用来作近似计算。为了说明这种技巧如何运作,考虑一个例子。设P代表GDP平减指数,Y代表实际GDP,则名义GDP为P×Y,于是有:
    (P×Y)变动的百分比的≈(P变动的百分比)+(Y变动的百分比);

    同样一个比率变动的百分比近似地是分子变动的百分比减去分母变动的百分比。例如:设Y代表GDP,而L代表人口数,则人均GDP为,则:
    (Y/L)变动的百分比≈(Y变动的百分比)-(L变动的百分比) 问题1:1)上述2个近似公式在什么条件下成立? 2)推导上述两个公式 3)宏观经济中,GDP的确定由4个组成部分,即:GDP=C+I+G+NX。能否按如下公式计算GDP变动百分比:
    GDP变动的百分比≈(消费C变动的百分比)+(投资I变为的百分比)+(政府购买G变动的百分比)+(净出口NX变动百分比)。

    如果不能,哪边的值较大?为什么? 2)计量模型的推导 带技术进步的Solow模型 假定生产函数为希克斯(Hicks)中性技术进步条件下的产出增长型函数,其一般形式Solow模型为:
    (1) 对A(t)作进一步假定,令,这里A0为基本的技术水平,表示由于技术进步而使产出增长的部分,称为技术进步增长率。于是(1)式变为:
    (2) 对(2)式两边取对数并求导得到:
    (3) 由于Y、L、K的实际数据都是离散的,故对(3)进行离散化,并令年,于是有:
    (4) 表示产出的劳动力弹性,表示产出的资本弹性。于是(4)式实际上就是我们的科技进步贡献率的测算模型,注意到:
    这里表示科技进步对产出增长的贡献率,表示劳动力增长对产出增长的贡献率,表示资本增长对产出增长的贡献率。从而有:
    (5) (5)式就给出了技术进步贡献率的测算公式。

    通过假定一定规模报酬不变,即这一条件,比较合理有效地预防或克服了变量间可能出现的共线性。由(4)式,根据,有:
    设,则有:
    (6) 一般来讲,只要D1序列不存在异方差性,(6)式就是测算科技进步增长率所用的最终模型。

    3)矩阵的微分 如果或写成,那么梯度向量为 二阶偏导数矩阵为 特别地,如果,那么 同样地可得 如果A是对称矩阵,那么 一般地,有 4)矩阵的分块(partitioned matrix) 在表述一个矩阵的元素时——如构造一个方程组——将一些元素以子矩阵的形式进行分组有时是有用的,例如,我们可以写 A称为一个分块矩阵,子矩阵的下标和矩阵中的元素的下标按同样方式定义,一个普通的特殊情形是分块对角矩阵。

    其中A11和A22都是方阵。

    分块矩阵的加法和乘法 加法和乘法可以推广到分块矩阵,对一致的分块矩阵A和B有:
    (1) 和 (2) 其中所有矩阵必须适于所用运算,对于加法,Aij和Bij的阶数必须相同;
    在乘法中,对所有的数对i和j,Aij的列数必须等于Bij的行数,即矩阵相乘所必需的条件都要得到满足。

    两个经常遇到的情况是如下的形式:
    (3) 和 (4) 分块矩阵的行列式 类似于对角矩阵的行列式,分块对角矩阵的行列式可以得到 (5) 一个一般的2×2分块矩阵的结果为:
    (6) 大于2×2分块矩阵的结果极其繁琐,且在我们的工作中也不必要。

    分块矩阵的逆 分块对角矩阵的逆是:
    (7) 这可由直接相乘证实。

    对一般的2×2分块矩阵,分块逆的一个形式是:
    (8) 其中 这可以最简单地用逆去乘A来证实。由于计算的对称性,左上块可以写作:
    问题:请推倒上面的公式(5)、(6)、(7)和(8)。

    对均值的偏差 上述内容的一个有用的应用是如下的计算:假设我们从一个n个元素的列向量x开始。且令 我们关心的是A-1中的右下角元素,根据(8)中F2的定义,这将是 所以,逆矩阵中的右下角值是 现在,假设以含有若干列的矩阵X代替只有一列的x,我们要求[Z′Z]-1中的右下块,这里Z=[i,X],类似的结果是 这暗示着[Z′Z]-1的右下块,K×K矩阵是第jk元素为的K×K矩阵的逆,这样,当一个数据矩阵含有一列1时,平方和及交叉积矩阵的逆的元素将用原始数据以对其相对应列均值的离差的形式计算得出。

    第二节 分布函数(Distribution function)、数学期望(Expectation)与 方差(Variance) 本节主要介绍概率及其分布函数,数学期望,方差等方面的基础知识。

    一、概率(Probability) 1、概率定义(Definition of Probability) 在自然界和人类社会中有着两类不同的现象,一类是决定性现象,其特征是在一定条件必然会发生的现象;
    另一类是随机现象,其特征是在基本条件不变的情况下,观察到或试验的结果会不同。换句话说,就个别的试验或观察而言,它会时而出现这种结果,时而出现那样结果,呈现出一种偶然情况,这种现象称为随机现象。

    随机现象有其偶然性的一面,也有其必然性的一面,这种必然性表现为大量试验中随机事件出现的频率的稳定性,即一个随机事件出现的频率常在某了固定的常数附近变动,这种规律性我们称之为统计规律性。

    频率的稳定性说明随机事件发生可能性大小是随机事件本身固定的,不随人们意志而改变的一种客观属性,因此可以对它进行度量。

    对于一个随机事件A,用一个数P(A)来表示该事件发生的可能性大小,这个数P(A)就称为随机事件A的概率,因此,概率度量了随机事件发生的可能性的大小。

    对于随机现象,光知道它可能出现什么结果,价值不大,而指出各种结果出现的可能性的大小则具有很大的意义。有了概率的概念,就使我们能对随机现象进行定量研究,由此建立了一个新的数学分支——概率论。

    概率的定义 定义在事件域F上的一个集合函数P称为概率,如果它满足如下三个条件:
    (i)P(A)≥0,对一切F (ii)P(Ω)=1;

    (iii)若,i=1,2…,且两两互不相容,则 性质(iii)称为可列可加性(conformable addition)或完全可加性。

    推论1:对任何事件A有;

    推论2:不可能事件的概率为0,即;

    推论3:。

    2、条件概率(Conditional Probability) 如果P(B)>0,记,称P(A|B)为在事件B发生的条件下事件A发生的条件概率。

    转化后有:如果(P(A)>0),称为概率的乘法原理。

    推广后的乘法原理:
    其中>0。

    3、全概率公式与贝叶斯(Bayes)公式 设事件A1,A2,…,An……是样本空间Ω的一个分割,即AiAj=φ,i≠j,而且:。

    从而,这里AiB也两两互不相容。

    则。

    这个公式称为全概率公式。

    由于 故 再利用全概率公式即得 这个公式称为贝叶斯公式。

    贝叶斯公式在概率论和数理统计中有着多方面的应用,假定A1,A2,…是导致试验结果的“原因”,P(Ai)称为先验概率,它反映了各种“原因”发生的可能性大小,一般是以往经验的总结,在这次试验前已经知道,现在若试验产生了事件B,这个信息将有助于探讨事件发生的“原因”,条件概率P(Ai|B)称为后验概率,它反映了试验之后对各种“原因”发生的可能性大小的新知识。

    4、事件(Random event)独立性(Independence) 1)两个事件的独立性 定义 对事件A及B,若 P(AB)=P(A)P(B) 则称它们是统计独立的,简称独立的。

    推论1 若事件独立,且P(B)>0,则 P(A|B)=P(A) [证明]由条件概率定义 因此,若事件A,B相互独立,由A关于B的条件概率等于无条件概率P(A),这表示B的发生对于事件A是否发生没有提供任何消息,独立性就是把这种关系从数学上加以严格定义。

    推论2 若事件A与B独立,则下列各对事件也相互独立:
    [证明] 由于 所以与B相互独立,由它立刻推出与相互独立,由又推出A,相互独立。

    2)多个事件的独立性 定义 对n个事件A1,A2,…,An,若对于所有可能的组合1≤i<j<…≤n成立着 则称A1,A2,…An相互独立。

    这里第一行有个式子,第二行有个式子,等等,因此共应满足 个等式。

    二、随机变量(Random Variable)和概率分布函数(Probability Distribution Function) 1、随机变量(Random Variable) 如果A为某个随机事件,则一定可以通过如下示性函数使它与数值发生联系:
    这样试验的结果就能有一个数来表示,这个数是随着试验的结果的不同而变化,也即它是样本点的一个函数,这种量以后称为随机变量,随机变量可分为离散型随机变量和连续型随机变量。

    2、概率分布函数(p.d.f=probability density function) 称F(x)=P{<x},<x<为随机变量的分布函数cdf,对于连续型随机变量,存在可能函数f(x),使 ,f(x)称为随机变量的(分布)密度函数(density function)。

    3、随机向量(Random Vector)及其分布 在有些随机现象中,每次试验的结果不能只用一个数来描述,而要同时用几个数来描述。试验的结果将是一个向量(Χ1,Χ2,…Χn),称n维随机向量。

    随机向量的联合分布函数也有离散型与连续型的分别,在离散型场合,概率分布集中在有限或可列个点上,多项分布,就是一个例子;
    在连续型场合,存在着非负函数f(x1,x2,…xn),使 这里的f(x1,…,xn)称为密度函数,满足如下两个条件 ≥0 一般地,若(ξ,η)是二维随机向量,其分布函数为F(x,y),我们能由F(x,y)得出ξ或η的分布函数,事实上, <<< 同理 < F1(x)及F2(y)称为F(x,y)的边际分布函数(Marginal Distribution Function)。

    [例] 若F(x,y)是连续型分布函数,有密度函数f(x,y),那么 因此F1(x)是连续型分布函数,其密度函数为 同理F2(x)是连续型分布函数,其密度函数为 f1(x)及f2(y)的边际分布密度函数。

    [二元正态分布] 函数 这里a,b,,r为常数,>0,>0,|r|<1,称为二元正态分布密度函数。

    定理:二元正态分布的边际分布仍为正态分布。

    条件分布(Conditional Distribution) 离散型:若已知ξ=xi,(p1(xi)>0)则事件{η=yi}的条件概率为 这式子定义了随机变量η关于随机变量ξ的条件分布。

    连续型:在给定ξ=x的条件下,η的分布密度函数为 同理可行在给定η=y的条件下,ξ的分布密度函数为 这里当然也要求f2(y)≠0 定理:二元正态分布的条件分布仍然是正态分布 其均值 是x的线性函数,这个结论在一些统计问题中很重要。

    4、随机变量的独立性 定义 设ξ1,…,ξn为n个随机变量,若对于任意的x1,…,xn成立 <<<< (1) 则称是相互独立的。

    若的分布函数为,它们的联合分布函数为,则(1)等价于对一切x1,…,xn成立 在这种场合,由每个随机变量的(边际)分布函数可以唯一地确定联合分布函数(Joint Distribution Function)。

    对于离散型随机变量,(1)等价于任何一组可能取的值(x1,…,xn)成立 对于连续型随机变量,条件(1)的等价形式是对一切x1,…,xn成立 这里f(x1,…,xn)是联合分布密度函数(Joint density function),而fi(xi)是各随机变量的密度函数。

    此外,注意到若相互独立,则其中的任意r(2≤r<n)个随机变量也相互独立,例如,我们证明相互独立。

    <<<<< <<< << 随机变量的独立性概念是概率论中最基本的概念之一,也是最重要的概念之一。

    5、随机向量变换(Transformation)及其分布 若的密度函数为,求的分布,这时有 << (1) 若对存在唯一的反函数,且的密度函数为,那么 (2) 比较(1)与(2)可知 其中J为坐标变换的雅可比行列式(Jacobian Determinant) 这里,我们假定上述偏导数存在而且连续。

    随机变量的函数的独立性 定理 若ξ1,…,ξn是相互独立的随机变量,则也是相互独立的,这里是任意的一元函数。

    三、数字期望及方差 1、数学期望 一般地,如果X是随机变量,它的概率密度函数为f(x),那么它的期望值为 在许多问题中我们不仅需要知道E[X],而且还想知道X的某个函数g(X)的数学期望。

    我们可以用同样的方法定义多元随机变量的函数的数学期望。假设随机变量X1,X2,…Xn的联合概率密度函数为,,那么 如果随机变量是离散的,那么上面公式里的积分号用和号代替。

    利用这个定义我们可以得到下列结果 (1)如果a0,a1…,an是常数,那么 (2)如果X1,X2…,Xn是相互独立的随机变量,那么 2、方差(Variance)与协方差(Covariance) 一个随机变量X的r阶中心矩被定义为记为。如果被称为X的分布的方差或X的方差,常常记为。的正平方根被称为X的标准差。关于方差,我们有一个有用的公式 X和Y之间的协方差,记为或 X和Y之间的协方差是对它们之间的相关性的一个测度。如果X和Y是相互独立的,那么=0。这导致下面的相关系数的定义,X和Y之间的相关系数记为被定义为 由这个定义,的取值一定在-1和1之间。如果X和Y是相互独立的,那么=0。如果Y=aX+b,这里a,b是不等于0的常数,那么|ρXY|=1,此时,我们说X和Y是完全相关的。X和Y的值越接近线性关系,|ρXY|值接近1。

    利用这些定义,我们可以得到下面的结果:如果a0,a1…,an是常数,X1,X2…,Xn是随机变量,那么 特别地,有 3、随机向量的协方差矩阵 对于随机向量而言,我们可以相似地定义它的期望和协方差矩阵。用X表示随机变量组成的向量,即 假设。那么X的期望值为 也即是一个随机向量的期望值等于它的各个分量的期望值组成的向量。

    我们定义一个随机向量X的协方差矩阵(Covariance Matrix)如下 X的协方差矩阵常常记为,它是一个正定矩阵,如下是证明:
    对于任意的不为零的向量, 我们构造一个变量 那么Y的方差 ,即证明了是非负定的。

    线性变换后的向量的均值与协方差 如果P是一个m×n常数矩阵,m≤n,那么Z=PX是一个m维随机向量,可以得到 a) b) 四、条件分布(Conditional Distribution)、条件数学期望(Conditional Expectation)及其条件方差(Conditional Variance) 条件均值(Conditional Mean)是条件分布的均值,其定义为 条件均值函数。

    条件方差(Conditional Variance) 条件方差是条件分布的方差:
    或 (离散时) 利用下式可以简化计算 并且有:
    记号Ex[·]表示对X的值的期望。

    几个重要的公式 1)、 思考:是否成立? 2)、 3)、方差分解公式(Decomposition of Variance ) 推导:分两步,先证明 i) 这是因为:
    进而有 我们考察 ∴ ii)对于任意Y有:
    因为X与E(Y|X)是不相关,故 而 我们得到方差分解公式:
    方差分解结果表明,在双变量分布中,y的变差出自两个来源:
    1、由于E[y|x]随x变化的事实所产生的变差为回归方差(Regression Variance):
    回归方差=Varx[E[y|x]] 2、由于在每一条件分布中,y都围绕条件均值变化而产生的变差为残差方差(Residual Variance):
    残差方差=Ex[Var[y|x]] 这样, Var[y]=回归方差 + 残差方差。

    由方差分解公式,我们得到,这个是非常重要的公式,它常被应用到寻求最小方差估计量的方法中.我们可以看一个实际的例子。

    [例子] 设X和Y服从二元正态分布联合分布,我们已经知道,在给定X的条件下,其条件分布仍然是正态分布,并且 则,然而 = 在-1<ρ<1条件下,>。满足方差分解公式,并且我们很容易知道,。

    六、极限分布理论(Limit Distribution Theory) 1 几个极限的定义 1)分布函数的弱收敛(Weak Convergence of the Distribution Function) 定义1 对于分布函数列{Fn(x)},如果存在一个非降函数F(x)使 在F(x)的每一连续点上都成立,则称Fn(x)弱收敛于F(x),并记为。

    中心极限定理就是一个分布函数弱收敛的例子。

    2)随机变量的收敛性(Convergence of the Random Variable) 概率论中的极限定理研究的是随机变量序列的某种收敛性,对随机变量收敛性的不同定义将导致不同的极限定理,而随机变量的收敛性的确可以有各种不同的定义,理解这些不同的极限定义,对于我们分析线性回归的大样本结果很重要。现在就来讨论这个问题。

    a)依分布收敛(Convergence in Distribution) 分布函数弱收敛的讨论启发我们引进如下定义。

    定义2(依分布收敛) 设随机变量ξn、ξ的分布函数分别为Fn(x)及F(x),如果,则称{ξn}依分布收敛于ξ,并记为。

    b)依概率收敛(Convergence in Probability) 定义3(依概率收敛) 如果 对任意的ε>0成立,则称依概率收敛于,并记为。

    c)r-阶收敛 定义4(r-阶收敛) 设对随机变量<,<,其中r>0为常数,如果 ,则称-阶收敛于,并记为。

    下面定理揭示了r-阶收敛与依概率收敛的关系。

    定理8 。

    2)极限的应用 贝努里分布与普松分布 a)近似计算 在n次贝努里试验中正好出现k次成功的概率b(k;n,p):
    其中q=1-p。b(k;n,p),k=0,1,2,…,n称为二项分布。

    在很多应用问题中,我们常常遇到这样的贝努里试验,其中,相对地说,n大,p小,而乘积大小适中,在这种情况下,有一个便于使用的近似公式。

    定理(普松) 在贝努里试验中,以pn代表事件A在试验中出现的概率,它与试验总数n有关,如果,则当时, b) 中心极限定理(Central Limit Theorem) 若X1,X2,…Xn,…是一串相互独立相同分布的随机变量序列,且 我们来讨论标准化随机变量和 的极限分布。

    林德贝格与勒维(Lindeberg and Levy)建立了下列中心极限定理。

    定理2(林德贝格-勒维) 若0<<,则 < 2 契比雪夫(Chebyshevs Inequality)不等式 对于任何具有有限方差的随机变量X,都有 ≥≤ (1) 其中是任一正数。

    [证明] 若F(x)是X的分布函数,则显然有 ≥ ≤ ≤ (2) 这就证得了不等式(1),有时把(1)改写成 <≥ 或 ≤ (3) 契比雪夫不等式利用随机变量X的数学期望EX及方差=对X的概率分布进行估计。例如(3)断言不管X的分布是什么,X落在中的概率不小于,因为契比雪夫不等式只利用数学期望及方差就描述了随机变量的变化情况,因此它在理论研究及实际应用中很有价值。

    3、大数定律 定义 若ξ1,ξ2,…,ξn,…是随机变量序列,令 如果存在这样的一个常数序列a1,a2,…,an,…,对任意的ε>0,恒有 < 则称序列{ξn}服从大数定律(或大数法则)。

    契比雪夫大数定律 设X1,X2,…,Xn,…是由两两不相关的随机变量所构成的序列,每一随机变量都有有限的方差,并且它们有公共上界C,即 ≤C,≤C,…,≤C,… 则对任意的>0,皆有 <=1 (4) [证明] 因为{ξk}两两不相关,故 ≤ 再由契比雪夫不等式得到 <≥≥ 所以 1≥<≥ 于是,当时有(4),因此定理得证。

    贝努里大数定律 设是n次贝努里试验中事件A出现的次数,而p是事件A在每次试验中出现的概率,则对任意>0,都有 <=1 [证明] 定义随机变量,则 , ≤ 而 ≤≤ 贝努里大数定律建立了在大量重复独立试验中事件出现频率的稳定性,正因为这种稳定性,概率的概念才有客观意义,贝努里大数定律还提供了通过试验来确定事件概率的方法,既然频率与概率p有较大偏差的可能性很小,那么我们便可以通过做试验确定某事件发生的频率并把它作为相应概率的估计,这种方法称为参数估计,它是数理统计中的主要研究课题之一,参数估计的重要理论基础就是大数定律。

    第三节 数理统计(Mathematical Statistics) 数理统计的方法及考虑的问题不同于一般的资料统计,它更侧重于应用随机现象本身的规律性来考虑资料的收集、整理和分析,从而找出相应的随机变量的分布律或它的数字特征。由于大量的随机试验必能呈现出它的规律性,因而从理论上讲,只要对随机现象进行足够多次观察,被研究的随机现象的规律性一定能清楚地呈现出来,但是实际上所允许的观察永远只能是有限的,有时甚至是少量的。因此我们所关心的问题是怎样有效地利用有限的资料,便能去掉那些由于资料不足所引起的随机干扰,而把那些实质性的东西找出来,一个好的统计方法 就在于能有效地利用所获得的资料,尽可能作出精确而可靠的结论。

    1、数理统计的基本概念 1)母体和子样 我们把所研究的全部元素组成的集合称为母体或总体,而把组成母体的每个元素称为个体。

    为了对母体的分布律进行各种研究,就必需对母体进行抽样观察。一般来说,我们还不止进行一次抽样观察,而要进行几次观察。设X1,X2,…Xn是所观察到的结果,显然它是随机变量,称它为容量是n的子样。把X1,X2,…Xn所取值的全体称为子样空间。

    我们抽取子样的目的是为了对母体的分布律进行各种分析推断,因而要求抽取的子样能很好地反映母体的特性,这就必须对随机抽样的方法提出一定的要求。通常提出下面两点:
    (i)代表性:要求子样的每个分量Xi与所考察的母体X具有相同的分布F(x);

    (ii)独立性:X1,X2,…,Xn为相互独立的随机变量,也就是说,每个观察结果即不影响其它观察结果,也不受其它观察结果的影响。

    满足上述两点性质的子样称为简单随机子样,获得简单随机子样的抽样方法称为简单随机抽样。

    对于简单随机子样X=(X1,X2,…,Xn),其分布可以由母体的分布函数F(x)完全决定,X的分布函数是。

    2)统计量 一般来说,子样的某种不含任何未知参数的函数,在统计学中都可以称为统计量。

    统计量:
    非统计量:
    3)常用的统计量—子样矩 r阶矩(或r阶原点矩):为子样均值。

    r阶中心矩:为子样方差。

    总结:对于母体,我们有母体均值μ,母体方差,母体的k阶原点矩和k阶中心矩;

    对于子样,我们有子样均值,子样方差,子样的r阶矩Ar和r阶中心矩Br。

    我们可以得到如下结论:
    定理1 设母体服从分布F(x),X=(X1,…,Xn)是从该母体中抽得的一个简单随机子样,如果F(x)的二阶矩阵存在,则对子样均值,有 和 [证明] 思考:是否存在更简单的证明方法? 定理2 对于子样方差,其均值 证明:因为,所以 (其中) 4)顺序统计量、经验分布函数与子样矩 设(X1,…,Xn)是从母体 中抽取的一个子样,记(x1,x2…,xn)是子样的一个观察值,将观察值的各分量按大小递增次序排列,得到 ≤≤…≤ 当(X1,…,Xn)取值为(x1,…,xn)时,我们定义取值为。称由此得到的为(X1,…,Xn)的一组顺序统计量。显然≤≤…≤,,即的观察值是子样观察值中最小的一个,而,的观察值是子样观察值中最大的一个。

    记 > < 显然0≤≤1,且作为x的函数是一非减左连续函数,把看作为x的函数,它具备分布函数所要求的性质,故称为经验分布函数(或子样分布函数)。

    经验分布函数也是子样的函数,它与子样矩之间具有下列关系:设(x1,x2,…,xn)是子样观察值,是对应的经验分布函数,则有:
    2、正态母体子样的线性函数的分布 定理1 设X1,…,Xn是抽自正态母体的一个子样,统计量U是子样的任一确定的线性函数 (1) 则U也是正态随机变量,均值、方差分别为 (2) (3) 在(1)式中,特别地取,此时行到的U是子样均值。

    由此可见,具有与X相同的均值,但是它更向数学期望集中,集中程度与子样容量n的大小有关。

    定理2 设 (1)X1,X2…,Xn是独立同分布随机变量,同服从于正态分布;

    (2)矩阵,记 则Y1,…,Yp也是正态随机变量,均值、方差、协方差分别为:

    特别地,当,且A是一n×n正交矩阵时,Y1,Y2…,Yp也是相互独立且同服从于分布的随机变量。

    3、几种与正态分布N(0,1)有关的常用分布 1)x2-分布 定义 设X1,X2,…,Xn是相互独立,且同服从于N(0,1)分布的随机变量, 所服从的分布为x2-分布,称为自由度为n的x2-变量。

    定理 设和,且X1,X2相互独立,则。

    2)t-分布 设,且X和Y相互独立,则称随机变量 所服从的分布为t-分布。n称为它的自由度,且记T~t(n)。

    3)F-分布 定义 设X和Y是相互独立的x2-分布随机变量,自由度分别为m和n,则称随机变量 所服从的分布为F-分布,(m,n)称为它的自由度,且通常写为F~F(m,n)。

    推论 如果,且相互独立,则分布。

    推论 如果X~F(m,n)分布,则1/X~F(n,m)分布。

    结论 设X1,…,Xm和Y1,…,Yn分别是从正态母体中所抽取的独立子样。则 服从于t(m+n-2)分布。

    ***[练习] 设X1,…,Xn是从正态分布的母体中抽取的简单子样,分别表示它的子样均值和子样方差。又设,且与X1,…,Xn独立。试求统计量 (提示:服从t(n-1)分布) 4、统计量的分布与独立性 定理 若x~N[0,I]且的两个幂等二次型,则时是独立的。

    [证明] 由于A和B都是对称的和幂等的,,所以二次型是:
    和 两个向量都有零均值向量,所以X1和X2协方差矩阵是 由于AX和BX都是一个正态分布随机向量的线性函数,因而它们也都服从正态分布,零协方差矩阵暗示它们是统计上独立的。所以,它们的函数形式是独立的,这就证明了两个二次型统计量的独立性。

    [例] 易知 因为 故 是相互独立的。

    5、线性变换及二次型的独立性 定理 标准正态向量的一个线性函数Lx和一个幂等二次型,当LA=0时两个统计量是独立的。

    证明遵循与对两个二次型的证明同样的逻辑,将写作,变量Lx和Ax的协方差矩阵是LA=0,这证实了这两个随机向量的独立性,线性函数和二次型的独立性就可以立即推导。

    [例] 所以上面两个统计量是相互独立的。

    从而 总结:设X1,X2,…,Xn是从正态母体中抽取的一个简单子样。记 则有 (1);

    (2);

    (3) [证明] 因为 所以 服从自由度为n-1的t-分布。

    6、参数估计的常用方法 在参数估计问题中,我们总是首先假设母体X具有一族可能的分布F,且F的函数形式是已知的,仅包含有几个未知参数,记θ是支配这分布的未知参数(可以是向量),在统计学上,我们把分布F的未知参数θ的全部可容许值组成的集合称为参数空间,记为。

    我们用F(·;
    θ)表示X的分布,又称集合{F(·;
    θ),θ∈}为X的分布函数族。类似地,如果X是连续型随机变量,我们有概率密度函数族,如果X是离散型随机变量,我们有概率分布族。

    一个参数估计问题就是要求通过子样估计母体分布所包含的未知参数θ。

    一般地,设母体具有分布族{F(·;
    θ),θ∈},X1,X2…,Xn是它的一个子样。点估计问题就是要求构造一个统计量T(X1,…Xn)作为参数θ的估计(T的维数与θ的维数相同)。在统计学上,我们称T为θ的估计量。

    1)矩方法 设{F(·;
    θ),θ∈}是母体X的可能分布族,θ=(θ1,…,θk)是待估计的未知参数,假定母体分布的k阶矩存在,则母体分布的v阶矩 1≤v≤k 是θ=(θ1,…,θk)的函数。

    对于子样X=(X1,…,Xn),其v阶子样矩是 1≤v≤k 现在用子样矩作为母体矩的估计,即令 (1) 这样,(1)式确定了包含k个未知参数θ=(θ1,…,θk)的k个方程式。

    [例] 母体均值和方差的矩估计。

    设X1,…,Xn是一子样,设母体的二阶矩存在,则有。用矩方法得方程组 解之得 所以母体均值和方差的矩估计分别是子样均值和子样方差。

    运用以前的有关定理有 和 由此可见,作为的估计它是在的真值的周围波动,且其平均值恰好是真值,这一性质在统计学上称为无偏性。

    2)最大似然估计方法 一般地,设母体具有分布密度族{F(x;θ),θ∈},其中θ=(θ1,θ2…,θk)是一个未知的k维参数向量,需待估计,又设(x1,…,xn)是子样(X1,…,Xn)的一个观察值,那么子样(X1,…,Xn)落在点(x1,…,xn)的邻域里的概率是。

    为方便起见,记 (θ可以是向量)它看作为θ的函数称为θ的似然函数。

    如果选取使下式 (2) 成立的作为θ的估计,则称是θ的最大似然估计。

    由于logx是x的单调函数,所以(2)式可等价地写为:
    如果是开集,且关于θ可微,则满足(4)式的解也一定满足下列似然方程 [例] 设X=(X1,…,Xn)是取自均匀分布 (θ>0) 0<x≤θ 0< 的子样,试求θ的最大似然估计。

    此时 (注意:条件0<xi≤θ,i=1,…,n和条件0<是等价的。

    显然当取到最大值,所以是θ的最大似然***估计。可以计算出。

    7、估计的有效性 1)无偏估计 定义 一般地,如果T(X)是未知参数θ的一个估计量,且满足下面的关系式, 则称T(X)是θ的无偏估计。

    2)有效估计 定义 对两个无偏估计量,若的方差小于的方差,即<,则称更有效。

    判别方式:在多数情形中,比较基于两个估计量的协方差矩阵,若—是非负定矩阵,则更有效。

    3)渐近无偏估计 如果有一列θ的估计满足下面的关系式 则称Tn是θ的渐近无偏估计。

    4)一致估计 设X1,…,Xn是取自分布族的子样,Tn=Tn(X1,…,Xn)是θ的一个估计。如果序列{Tn}随机收敛到真参数值θ,即对任意>0, > 则称Tn是θ的一致估计。

    5)最小方差无偏估计 一般地若T1是θ的一个无偏估计,关于θ的任一无偏估计T2成立下式 ≤ 则称T1是θ的最小方差无偏估计。

    6)线性估计 如果估计T是子样的线性函数,即T可以表示为,其中a1,…,an是固定常数,则称T为线性估计。类似地可以定义,如果T是线性估计,且满足无偏性条件,则T称为线性无偏估计;
    如果UL表示θ的具有有限方差的线性无偏估计的全体所组成的集合,而对T0∈UL,有 ≤,对一切 则称T0为θ的最小方差线性无偏估计。

    高斯—马尔科夫定理 在线性无偏估计量中,最小二乘估计量具有最小方差。

    7)克拉美—劳(Cramer-Rao)下界 克拉美—劳(Cramer-Rao)下界。假定x的密度满足一定的正则条件,参数θ的一个无偏估计量的方差将大于等于:
    量I(θ)是样本的信息数。

    再考虑一个多变量情形。若θ是一个参数向量,I(θ)是信息矩阵。

    克拉美—劳定理,任何无偏估计量的方差矩阵与信息矩阵的逆[I(θ)]-1 的差将是一个非负定矩阵,其中 即 这个矩阵的逆矩阵[I(θ)]-1称为C-R下界或CRLB。

    8、假设检验 1)正态母样参数检验 前面我们介绍了两种常用的参数估计方法。实践中还提出了统计推断问题。

    先看一个例子 [例] 某厂有一批产品,共一万件,须经检验后方可出厂。按规定标准,次品率不得超过5%,今在其中任意选取50件产品进行检查,发现有次品4件,问这批产品能否出厂? 在这个例子中,我们事先对这批产品次品率的情况一无所知,当然,从频率稳定性来说,我们可以用被检查的50件产品的次品率4/50来估计这整批产品的次品率,但是我们目前所关心的问题是:如何根据抽样的次品率/n(=4/50)推断这批产品的次品率是否超过了5%,也就是说,首先我们可以对整批产品作一种假设:次品率低于5%,然后利用子样的次品率/n来检验我们所作这一假设的正确性。

    我们把任何一个在母体的未知分布上所作的假设称为统计假设。并记为H0。对上面所举的例子中,统计假设分别是:H0:p(次品率)≤0.05。

    由于母体的真分布完全被几个未知参数所决定。因此任何一个关于母体未知分布的假设总可以等价地给出在它的未知参数上。这种仅涉及到母体分布中所包含的几个未知参数的统计假设称为参数假设。

    对于一个假设检验问题,首先是根据实际问题的要求提出统计假设H0,但这仅是第一步,提出统计假设的目的是要求进一步推断所提出的统计假设H0是否正确。这就要求建立推断统计假设H0的方法。在统计学上,称判断给定统计假设H0的方法为统计假设检验,或简称为统计检验。

    如果一个统计问题中仅提出一个统计假设, 而且我们的目的也仅仅是判断这一个统计假设是否成立,并不同时研究其它统计假设。这类检验问题称为显著性检验。

    显著性检验问题的处理一般步骤是:
    (1)建立统计假设H0;

    (2)构造一个合适的统计量U和从子样观察值计算出统计量U的观察值u;

    (3)规定一个显著水平α(一般取0.05或0.01),求出在H0成立条件下能使PH0{|U|≥u0}≤α满足的值u0;

    (4)比较观察值u和u0,如果|u|≥u0,则拒绝设H0。

    显然,寻找检验统计量U的分布,至少对于给定的α要找出满足PH0{|U|≥u0=α的临界值u0是很重要的。按进行检验时所取的子样容量的大、小,分为小样和大样两类问题,对于小样的显著性检验,需要给出检验统计量U的精确分布,而对于大样问题可利用U的极限分布作为近似。

    正态母体参数的显著性检验可总结如下表1。

    表1 正态母体参数的显著性检验 检验参数 假设H0 统 计 量 分 布 μ μ=μ0(σ=σ0) N(0,1) μ1=μ2(σ1,σ2已知) μ=μ0σ2>0 t(n-1) μ1=μ2,σ1=σ2 t(m+n-2) σ2 σ=σ0 x2(n-1) F(m-1,n-1) 例1的解:
    为简单起见,我们可将此问题归结为希望利用次品率v/n来检验母体次品率p是否满足假设H0:p=p0(=0.05)。

    用Y记母体元素的指标,有 Y 则在假设H0成立时P{Y=0}=1-p0,P{Y=1}=p0;
    EY=p0,Var(Y)=p0(1-p0),设X1,…,Xn是一子样,则 其中表示子样中的次品数。

    由中心极限定理知道,在H0(p=p0)成立的条件下, (1) 渐近于N(0,1)分布,因此当n较大时(一般在30以上),可把(1)式决定的U近似地作为正态变量来处理。

    现在p0=0.05, n=50, =4,代入(1)式得 对α=0.01,查表得uα/2=2.58,这时因 |u|=0.96<2.58=uα/2 所以不能拒绝假设H0(p=0.05)。

    2)正态母体参数的置信区间 在许多实际问题中,我们往往希望通过子样的观察给出一个范围,便得这个范围能按足够大的概率(给定的)包含我们所感兴趣的参数,在统计学上,我们称这个范围叫置信区间(或置信域),这类问题称为区间估计问题。

    参数的置信区间与参数的假设检验之间有着密切的联系。

    可以直接正从态母体参数的各种检验法构造正态母体参数的各种置信区间。

    正态母体参数的各科置信区间的情况可总结如下表2。

    表2 正态母体参数的置信区间 待估 参数 条件 置信区间下限 置信区间上限 对应的检验统计量 μ 单 子 样 σ=σ0 σ未知 μ1-μ2 双 子 样 已知σ1=σ2但数值未知 σ2 单 子 样 双 子 样 3)联合置信域 下面我们讨论正态分布均值和方差的联合置信域。

    (μ,σ2)的联合置信域可以运用的联合分布来构造。因为是独立的,因此,如果我们希望寻找置信水平为0.95的置信域,我们可以找到数a,和c1,c2,使得 << 和 << 联合概率是 <<<< 解得:
    <<< (1) 由此可见,的置信度为0.95的联合置信域是(1)式大括号内不等式对所给出的范围。

    4)广义似然比检验 设X=(X1,…,Xn)是从母体中抽取的子样,其可能分布族{f(x;θ),θ},其中θ(可以是向量)是未知参数(当母体是连续型变量时f表示分布密度,当母体是离散型变量时f表示概率分布)。要求检验假设H0:=θ0。这里应指出,θ0有时是表示一个集合,如在运用t-检验法检验假设H0:μ=μ0时,那里 <<> > 它是一个未知参数的集合而不是一个单点。

    现在我们引进一个统计量:
    习惯上称λ(x)为广义似然比,显然它是子样的函数,不依赖于未知参数θ。由于,所以 0≤λ(x)≤1 类似于最大似然原理,如果λ(x)取值较小,这说明当H0为真时观察到样点x的概率比H0不真时观察到样点x的概率要小得多,此时我们有理由怀疑假设H0不真。所以从广义似然比出发,该检验问题是当下式成立时拒绝H0, λ(x)≤λ0 (1) 其中λ0的选取是使得下式成立, ,对一切。

    (2) 给出的检验法称为水平为α的广义似然比检验。当θ0是一个单点时可写为 进一步分析这样一个参数假设的显著性检验过程,就会发现有一系列问题有待解决。如由于采取接受或拒绝假设H0的判断是根据子样观察值作出的,而子样是随机变量。子样观察值的出现带有随机性,因此判断有可能发生错误。则能发生那些类型的错误和发生各类错误的概率有多大? 可能犯下面两种类型的错误:当原假设H0为真的时候,即θ的真实值落在中时,作出拒绝H0的决策a1——它称为第一类错误;
    另一种错误是当备选假设为真时,即θ的真实值落在之中时,作出接受原假设H0的决策a0——它称为第二类错误(见图1)。这两类错误所造成的影响常常很不一样。例如我们要求检验病人是否患有某种疾病。若我们取原假设是该人患此种疾病,则第二类错误(无病当作有病)造成由于使用不必要的药品而引起病人的痛苦和经济上的浪费,但第一类错误(有病当作无病)就有可能导致死亡。

    H0为真 H1为真 接受H0 正 确 第Ⅱ类错误 拒绝H0 第Ⅰ类错误 正 确 图1 当然,我们希望所作出的检验能使得犯这两种类型错误的概率同时尽可能地小,最好全为零,但实际上这是不可能的,当子样的容量(即观察个数)给定后,犯这两种类型错误的概率就不能同时被控制。

    相关热词搜索:计量 经济学 数学 计量经济学数学基础 计量经济学与数学的关系 学习计量经济学的基础

    • 范文大全
    • 说说大全
    • 学习资料
    • 语录
    • 生肖
    • 解梦
    • 十二星座