文献综述
统计诊断是从70年代中期发展而来的一门统计学分支,其统计思想新颖,研究内容广泛,实际成果丰富,因而引起了大家的广泛重视。统计诊断作为数据分析的重要组成部分,其主要是利用诊断统计量来检测观测数据在用给定的模型进行拟合时的合理性。在对一个统计模型进行统计推断时,一般需要有一组假设条件,仅当观测数据满足这组假设条件时,相关统计推断才合理。而统计诊断就是为了检测观测数据是否满足假设条件,并指出不满足这些假设条件的数据点。
在实际问题中,总会出现一些数据与模型之间有着较大的偏差,为了解决这个问题,通常有两种方法。其一是寻找一种具有一定“抗干扰性”的统计推断方法,当观测数据与模型有较大偏差时,统计推断不受太大影响,即稳健统计。其二是找出与给定模型有较大偏差的数据,并采取补救措施,即统计诊断。
统计诊断过程中,我们可以检测出严重偏离给定模型的数据点,也就是异常点;而那些对统计推断结果影响特别大的数据点,即为强影响点。在统计诊断中,我们会经常用到数据删除模型,它主要通过比较删除数据点前后模型的统计量间的差异是否显著来检测出异常点或强影响点。通常我们会用到这些诊断统计量,例如广义Cook距离和Cook距离,它们是通过比较删除数据点前后模型的参数估计的差异大小来检测异常点,其中Cook距离最为常用;W-K统计量可以说是一个广义Cook距离,它表示的是删除数据点前后拟合值的差异;AP统计量是通过对方差估计以及回归系数估计精度进行综合考虑,其值越小,则删除点的影响越大,这与前两个统计量是不同的。而本文主要是基于K-S距离对模型删除数据前后的残差的经验分布函数进行分析比较,找出异常点,用实例验证该方法的有效性,并总结找出异常点的方法。
对于线性回归模型,韦博成、林金官[1][1]等在《统计诊断》中对其进行了详细介绍,并对数据删除模型进行了回归诊断,它表明Cook距离与广义Cook距离可以推广到线性以外的其他更加复杂的统计模型中,因而它们更为通用,然而目前无法确定是否存在一个界限D,使得Cook距离大于D时可以认为第个数据点为异常点或强影响点。在非线性回归模型中也只使用了Cook统计量,我们可以尝试使用K-S距离对非线性回归模型进行统计诊断。
我们一般使用最小二乘法进行参数估计,然而用这种方法并不总是理想的,有时会出现因子间具有相关性的情况,因此我们需要想办法消除这种情况。陶靖轩[2][2]在《关于最小二乘估计的改进》中对最小二乘估计的改进方法中的岭估计、 广义岭估计、压缩估计、主成分估计和稳健估计进行了详细介绍,对于消除多重共线性、找出各个因子间的多重共线性关系,使用主成分估计会更好一些。在回归分析中若残差不服从正态情况,就需要使用稳健估计,通过减小一些“超常点”的权重,来减小以至消除其影响,我们不能随意删除这些“超常点”,一定要严格分析,进而找出合适的模型。
在建立回归模型后,我们总会给出一些假设条件,然而通过分析发现观测数据并不满足其中的一些假设条件,这时就需要对观测数据进行合理的变换,因此我们需要检验模型假设的合理性。同时还有一个重要问题是找出异常点,即找出对统计推断有较大影响的数据,可以称之为影响分析。王松桂[3][3]在《回归诊断发展综述》中介绍了线性和非线性回归进行残差分析和数据变化以及影响分析的方法,他对Box-Cox变换进行了修正,使其效果更好;在对变换参数进行估计时他更推荐Atkinson方法,因为这个方法利用了协方差分析的结果,计算更为简便。在数据变换中Atkinson方法具有明显缺点,而Box-Cox变换更为实用,其依旧存在许多待研究的问题。
在矩阵的计算中,矩阵的逆原本只有当矩阵是满秩方阵时才能计算,但在数据分析过程中,并不总能遇到满秩方阵,此时我们就不知道怎么求其逆。倪国熙[4][4]在《常用的矩阵理论和方法》中详细介绍了广义逆矩阵,它与逆矩阵的性质类似,那么我们就可以把广义逆矩阵当做逆矩阵。其中也详细介绍了矩阵的基本不等式,以及与矩阵数值特征相关联的其他不等式。
在多元线性回归中,往往会出现自变量只有部分是与Y相关的,当那些不必要的自变量存在时,会加大计算量,影响模型估计的精度,那么应如何找出与Y最有关系的自变量呢?我们通常会想到用“残差平方和越小越好”的准则来选择出最有关系的自变量,因为残差平方和越小模型拟合越好,然而模型拟合越好其统计性质不一定越好。陈希孺、王松桂[5][5]在《近代实用回归分析》中对其做出了解释,并列出了基于RSS的三种变量选择准则,也对回归系数的有偏估计进行了详细介绍。
以上是毕业论文开题文献,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。