[转载]【转】标准误差standard error,均方根误差/中误

ovn47ovn

浏览: 13690 次

最近访客更多访客>>

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

2012-01 ( 17)
更多存档...

博客分类：

技术杂绘

[转载]【转】标准误差standard error,均方根误差/中误
2011年12月12日
　　 中误差root mean square error;RMSE 定义：带权残差平方和的平均数的平方根，作为在一定条件下衡量测量精度的一种数值指标。
　　中误差是衡量观测精度的一种数字标准。亦称“ 标准误差”或“均方根差”。在相同观测条件下的一组真误差平方中数的平方根。因真误差不易求得,所以通常用最小二乘法求得的观测值改正数来代替真误差。它是观测值与真值偏差的平方和观测次数n比值的平方根。
　　在实际测量中，观测次数n总是有限的，真值只能用最可信赖（最佳）值来代替。
　　标准误差对一组测量中的特大或特小误差反映非常敏感，所以，标准误差能够很好地反映出测量的精密度。这正是标准误差在工程测量中广泛被采用的原因。
　　由某种固定的原因造成的，使测定结果偏高或偏低，重复测定时会重复出现，系统误差的大小几乎是一个恒定值，因而又被称之为恒定误差或可测误差。它产生的原因有以下几点：
　　仪器误差：仪器本身不够精度或未经校正所引起的，如天平、砝码和量器刻度不够准确。为避免引起仪器误差，我们应对所使用的量器及天平进行校正。
　　试剂误差：由于试剂不纯或蒸馏水中含有微量杂质所引起的误差。消除方法可进行空白实验，在不加试样的情况下，按照被测试样的分析步骤和条件进行分析，得到的结果为空白值，从试样的分析结果中减去“空白值”就可以得到更接近真实含量的分析结果。
　　方法误差：这种误差是由于分析方法本身所造成的。如重量分析时，由于沉淀的溶解造成损失或因吸附某些杂质而产生误差；或滴定分析中，因为反应不完全或干扰离子的影响，以及滴定终点和等当点不符合等。
　　操作误差：正常操作条件下，由于分析人员掌握操作规程与正确控制条件捎有出入而引起的误差。如滴定管读数时偏高或偏低，对某种颜色的变化辨别不够敏锐等所造成的误差。
　　偶然误差也称不定误差，它是由某些偶然因素：测定时环境的温度、湿度气压的微小波动，或由于外界条件的影响而使安放在操作台上的天平受到微小的震动所引起的。其影响有时大、有时小。因而偶然误差难以察觉，也难以控制
　　随着测定次数的增加偶然误差的算术平均值将逐渐接近于零。因而有必要时，应多次测定，但并非实验次数越多越好，这样只浪费更多的人力、物力。一般测定中，做2~3次平行测定可达到不超过规定误差的目的。
　　1、衡量观测精度的一种数字标准。亦称“标准误差”或“均方根差”。在相同观测条件下的一组真误差平方中数的平方根。因真误差不易求得,所以通常用最小二乘法求得的观测值改正数来代替真误差。它是观测值与真值偏差的平方和观测次数n比值的平方根，
　　在实际测量中，观测次数n总是有限的，真值只能用最可信赖（最佳）值来代替.
　　标准误差对一组测量中的特大或特小误差反映非常敏感，所以，标准误差能够很好地反映出测量的精密度。这正是标准误差在工程测量中广泛被采用的原因。
　　分析误差有系统误差和偶然误差。
　　1. 系统误差：由某种固定的原因造成的，使测定结果偏高或偏低，重复测定时会重复出现，系统误差的大小几乎是一个恒定值，因而又被称之为恒定误差或可测误差。它产生的原因有以下几点：
　　1. 1仪器误差：仪器本身不够精度或未经校正所引起的，如天平、砝码和量器刻度不够准确。为避免引起仪器误差，我们应对所使用的量器及天平进行校正。
　　1. 2试剂误差：由于试剂不纯或蒸馏水中含有微量杂质所引起的误差。消除方法可进行空白实验，在不加试样的情况下，按照被测试样的分析步骤和条件进行分析，得到的结果为空白值，从试样的分析结果中减去“空白值”就可以得到更接近真实含量的分析结果。
　　1. 3方法误差：这种误差是由于分析方法本身所造成的。如重量分析时，由于沉淀的溶解造成损失或因吸附某些杂质而产生误差；或滴定分析中，因为反应不完全或干扰离子的影响，以及滴定终点和等当点不符合等。
　　1. 4操作误差：正常操作条件下，由于分析人员掌握操作规程与正确控制条件捎有出入而引起的误差。如滴定管读数时偏高或偏低，对某种颜色的变化辨别不够敏锐等所造成的误差。
　　2. 偶然误差：也称不定误差，它是由某些偶然因素：测定时环境的温度、湿度气压的微小波动，或由于外界条件的影响而使安放在操作台上的天平受到微小的震动所引起的。其影响有时大、有时小。因而偶然误差难以察觉，也难以控制
　　随着测定次数的增加偶然误差的算术平均值将逐渐接近于零。因而有必要时，应多次测定，但并非实验次数越多越好，这样只浪费更多的人力、物力。一般测定中，做2~3次平行测定可达到不超过规定误差的目的。 标准差（Standard Deviation），在概率统计中最常使用作为统计分布程度（statistical dispersion）上的测量。标准差定义为方差的算术平方根，反映组内个体间的离散程度。测量到分布程度的结果，原则上具有两种性质：为非负数值，
　　与测量资料具有相同单位。
　　一个总量的标准差或一个随机变量的标准差，及一个子集合样品数的标准差之间，有所差别。其公式如下所列。
　　标准差的观念是由卡尔??皮尔逊 (Karl Pearson)引入到统计中。简单来说，标准差是一组数值自平均值分散开来的程度的一种测量观念。一个较大的标准差，代表大部分的数值和其平均值之间差异较大；一个较小的标准差，代表这些数值较接近平均值。
　　例如，两组数的集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是 7 ，但第二个集合具有较小的标准差。
　　标准差可以当作不确定性的一种测量。例如在物理科学中，做重复性测量时，测量数值集合的标准差代表这些测量的精确度。当要决定测量值是否符合预测值，测量值的标准差占有决定性重要角色：如果测量平均值与预测值相差太远（同时与标准差数值做比较），则认为测量值与预测值互相矛盾。这很容易理解，因为如果测量值都落在一定数值范围之外，可以合理推论预测值是否正确。
　　标准差应用于投资上，可作为量度回报稳定性的指标。标准差数值越大，代表回报远离过去平均数值，回报较不稳定故风险越高。相反，标准差数值越细，代表回报较为稳定，风险亦较小。假设有一组数值
　　
　　（皆为实数），其平均值为：
　　
　　此组数值的标准差为：
　　
　　上述公式可以变换为一个较简单的公式：
　　
　　上述代数变换的过程如下：
　　
　　须注意并非所有随机变量都具有标准差，因为有些随机变量不存在期望值。如果随机变量 X 为
　　
　　具有相同机率，则可用上述公式计算标准差。在真实世界中，除非在某些特殊情况下，找到一个总体的真实的标准差是不现实的。大多数情况下，总体标准差是通过随机抽取一定量的样本并计算样本标准差估计的。
　　从一大组数值
　　
　　当中取出一样本数值组合
　　
　　，常定义其样本标准差：
　　
　　样本方差 s2 是对总体方差σ2的无偏估计。 s 中分母为 n - 1 是因为
　　
　　的自由度为 n?? 1 ，这是由于存在约束条件
　　
　　。概率密度为 p(x) 的连续随机变量 x 的标准差是：
　　
　　其中
　　
　　对于常数 c 和随机变量 X 和 Y：
　　
　　
　　这里示范如何计算一组数的标准差。例如一群孩童年龄的数值为 { 5, 6, 8, 9 } ：
　　第一步，计算平均值
　　
　　
　　n = 4 （因为集合里有 4 个数），分别设为：
　　
　　
　　
　　
　　
　　
　　
　　
　　第二步，计算标准差
　　
　　
　　
　　
　　
　　
　　
　　
　　
　　
　　
　　标准差（Standard Deviation），也称均方差（mean square error），是各数据偏离平均数的距离的平均数，它是离均差平方和平均后的方根，用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的，标准差未必相同。
　　简介
　　标准差也被称为标准偏差，或者实验标准差，公式如图。简单来说，标准差是一组数据平均值分散程度的一种度量。一个较大的标准差，代表大部分数值和其平均值之间差异较大；一个较小的标准差，代表这些数值较接近平均值。例如，两组数的集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是 7 ，但第二个集合具有较小的标准差。标准差可以当作不确定性的一种测量。例如在物理科学中，做重复性测量时，测量数值集合的标准差代表这些测量的精确度。当要决定测量值是否符合预测值，测量值的标准差占有决定性重要角色：如果测量平均值与预测值相差太远（同时与标准差数值做比较），则认为测量值与预测值互相矛盾。这很容易理解，因为如果测量值都落在一定数值范围之外，可以合理推论预测值是否正确。标准差应用于投资上，可作为量度回报稳定性的指标。标准差数值越大，代表回报远离过去平均数值，回报较不稳定故风险越高。相反，标准差数值越细，代表回报较为稳定，风险亦较小。例如，A、B两组各有6位学生参加同一次语文测验，A组的分数为95、85、75、65、55、45，B组的分数为73、72、71、69、68、67。这两组的平均数都是70，但A组的标准差为17.07分，B组的标准差为2.37分（此数据时在R统计软件中运行获得），说明A组学生之间的差距要比B组学生之间的差距大得多。 如是总体，标准差公式根号内除以n 如是样本，标准差公式根号内除以（n-1) 因为我们大量接触的是样本，所以普遍使用根号内除以（n-1) 公式意义 所有数减去其平均值的平方和，所得结果除以该组数之个数（或个数减一)，再把所得值开根号，所得之数就是这组数据的标准差。
　　 标准差的意义
　　标准差越高,表示实验数据越离散,也就是说越不精确反之,标准差越低,代表实验的数据越精确
　　离散度
　　标准差是反应一组数据离散程度最常用的一种量化形式，是表示精密确的最要指标。说起标准差首先得搞清楚它出现的目的。我们使用方法去检测它，但检测方法总是有误差的，所以检测值并不是其真实值。检测值与真实值之间的差距就是评价检测方法最有决定性的指标。但是真实值是多少，不得而知。因此怎样量化检测方法的准确性就成了难题。这也是临床工作质控的目的：保证每批实验结果的准确可靠。虽然样本的真实值是不可能知道的，但是每个样本总是会有一个真实值的，不管它究竟是多少。可以想象，一个好的检测方法，基检测值应该很紧密的分散在真实值周围。如何不紧密，那距真实值的就会大，准确性当然也就不好了，不可能想象离散度大的方法，会测出准确的结果。因此，离散度是评价方法的好坏的最重要也是最基本的指标。一组数据怎样去评价和量化它的离散度呢?人们使用了很多种方法：
　　极差
　　最直接也是最简单的方法，即最大值－最小值（也就是极差）来评价一组数据的离散度。这一方法在日常生活中最为常见，比如比赛中去掉最高最低分就是极差的具体应用。
　　离均差的平方和
　　由于误差的不可控性，因此只由两个数据来评判一组数据是不科学的。所以人们在要求更高的领域不使用极差来评判。其实，离散度就是数据偏离平均值的程度。因此将数据与均值之差（我们叫它离均差）加起来就能反映出一个准确的离散程度。和越大离散度也就越大。但是由于偶然误差是成正态分布的，离均差有正有负，对于大样本离均差的代数和为零的。为了避免正负问题，在数学有上有两种方法：一种是取绝对值，也就是常说的离均差绝对值之和。而为了避免符号问题，数学上最常用的是另一种方法－－平方，这样就都成了非负数。因此，离均差的平方和成了评价离散度一个指标。
　　方差（S2）
　　由于离均差的平方和与样本个数有关，只能反应相同样本的离散度，而实际工作中做比较很难做到相同的样本，因此为了消除样本个数的影响，增加可比性，将标准差求平均值，这就是我们所说的方差成了评价离散度的较好指标。样本量越大越能反映真实的情况，而算数均值却完全忽略了这个问题，对此统计学上早有考虑，在统计学中样本的均差多是除以自由度（n-1)，它是意思是样本能自由选择的程度。当选到只剩一个时，它不可能再有自由了，所以自由度是n-1。
　　标准差（SD）
　　由于方差是数据的平方，与检测值本身相差太大，人们难以直观的衡量，所以常用方差开根号换算回来这就是我们要说的标准差。在统计学中样本的均差多是除以自由度（n-1)，它是意思是样本能自由选择的程度。当选到只剩一个时，它不可能再有自由了，所以自由度是n-1。
　　变异系数（CV）
　　标准差能很客观准确的反映一组数据的离散程度，但是对于不同的检目，或同一项目不同的样本，标准差就缺乏可比性了，因此对于方法学评价来说又引入了变异系数CV。
　　 标准差与平均值之间的关系
　　一组数据的平均值及标准差常常同时做为参考的依据。在直觉上，如果数值的中心以平均值来考虑，则标准差为统计分布之一“自然”的测量。   定义公式：
　　 标准差公式
　　1、方差s^2=[(x1-x)^2+(x2-x)^2+......(xn-x)^2]/n 2、标准差=方差的算术平方根
　　 几何学解释
　　从几何学的角度出发，标准差可以理解为一个从 n 维空间的一个点到一条直线的距离的函数。举一个简单的例子，一组数据中有3个值，X1,X2,X3。它们可以在3维空间中确定一个点 P = (X1,X2,X3)。想像一条通过原点的直线。如果这组数据中的3个值都相等，则点 P 就是直线 L 上的一个点，P到 L 的距离为0, 所以标准差也为0。若这3个值不都相等，过点 P 作垂线 PR 垂直于 L，PR 交 L 于点 R，则 R 的坐标为这3个值的平均数：运用一些代数知识，不难发现点 P 与点 R 之间的距离(也就是点 P 到直线 L 的距离)是。在 n 维空间中，这个规律同样适用，把3换成 n 就可以了。
　　 标准差与标准误的区别
　　标准差与标准误都是心理统计学的内容，两者不但在字面上比较相近，而且两者都是表示距离某一个标准值或中间值的离散程度，即都表示变异程度，但是两者是有着较大的区别的。首先要从统计抽样的方面说起。现实生活或者调查研究中，我们常常无法对某类欲进行调查的目标群体的所有成员都加以施测，而只能够在所有成员（即样本）中抽取一些成员出来进行调查，然后利用统计原理和方法对所得数据进行分析，分析出来的数据结果就是样本的结果，然后用样本结果推断总体的情况。一个总体可以抽取出多个样本，所抽取的样本越多，其样本均值就越接近总体数据的平均值。
　　标准差（standard deviation, STD）
　　表示的就是样本数据的离散程度。标准差就是样本平均数方差的开平方，标准差通常是相对于样本数据的平均值而定的，通常用M±SD来表示，表示样本某个数据观察值相距平均值有多远。从这里可以看到，标准差收到极值的影响。标准差越小，表明数据越聚集；标准差越大，表明数据越离散。标准差的大小因测验而定，如果一个测验是学术测验，标准差大，表示学生分数的离散程度大，更能够测量出学生的学业水平；如果一个侧样测量的是某种心理品质，标准差小，表明所编写的题目是同质的，这时候的标准差小的更好。标准差与正态分布有密切联系：在正态分布中，1个标准差等于正态分布下曲线的68.26%的面积，1.96个标准差等于95%的面积。这在测验分数等值上有重要作用。
　　标准误（standard error, SE)
　　表示的是抽样的误差。因为从一个总体中可以抽取出无多个样本，每一个样本的数据都是对总体的数据的估计。标准误代表的就是当前的样本对总体数据的估计，标准误代表的就是样本均数与总体均数的相对误差。标准误是由样本的标准差除以样本人数的开平方来计算的。从这里可以看到，标准误更大的是受到样本人数的影响。样本人数越大，标准误越小，那么抽样误差就越小，就表明所抽取的样本能够较好地代表样本。
　　Excel函数
　　关于这个函数在EXCEL中的 STDEVP函数有详细描述，EXCEL中文版里面就是用的“标准偏差”字样。但我国的中文教材等通常还是使用的是“标准差”。在EXCEL中STDEVP函数是另外一种标准差，也就是总体标准差。在繁体中文的一些地方可能叫做“母体标准差” 在R统计软件中标准差的程序为： sum((x-mean(x))^2)/(length(x)-1)
　　 外汇术语
　　标准差指统计上用于衡量一组数值中某一数值与其平均值差异程度的指标。标准差被用来评估价格可能的变化或波动程度。标准差越大，价格波动的范围就越广，股票等金融工具表现的波动就越大。在excel中调用函数 “STDEV“ 估算样本的标准偏差。标准偏差反映相对于平均值 (mean) 的离散程度。
　　样本标准差
　　在真实世界中，除非在某些特殊情况下，不然找到一个总体的真实的标准差是不现实的。大多数情况下，总体标准差是通过随机抽取一定量的样本并计算样本标准差估计的。
　　世界上多数国家的物理实验和正式的科学实验报告都是用标准误差评价数据的，现在稍好一些的计算器都有计算标准误差的功能，因此，了解标准误差是必要的。
　　就是在要求以内的，，
　　呵呵，
　　可以记为不算误差的范围
　　在相同测量条件下进行的测量称为等精度测量，例如在同样的条件下，用同一个游标卡尺测量铜棒的直径若干次，这就是等精度测量。对于等精度测量来说，还有一种更好的表示误差的方法，就是标准误差。
　　标准误差定义为各测量值误差的平方和的平均值的平方根，故又称为均方误差。
　　设n个测量值的误差为ε1、ε2……εn，则这组测量值的标准误差σ等于：
　　(此处为一公式，显示不出来，你看下文字就可以知道这个公式是什么样的。）
　　由于被测量的真值是未知数，各测量值的误差也都不知道，因此不能按上式求得标准误差。测量时能够得到的是算术平均值（），它最接近真值（N），而且也容易算出测量值和算术平均值之差，称为残差（记为v）。理论分析表明①可以用残差v表示有限次（n次）观测中的某一次测量结果的标准误差σ，其计算公式为
　　(此处为一公式，显示不出来，你看下文字就可以知道这个公式是什么样的。）
　　对于一组等精度测量（n次测量）数据的算水平均值，其误差应该更小些。理论分析表明，它的算术平均值的标准误差。有的书中或计算器上用符号s表示）与一次测量值的标准误差σ之间的关系是
　　(此处为一公式，显示不出来，你看下文字就可以知道这个公式是什么样的。）
　　需要注意的是，标准误差不是测量值的实际误差，也不是误差范围，它只是对一组测量数据可靠性的估计。标准误差小，测量的可靠性大一些，反之，测量就不大可靠。进一步的分析表明，根据偶然误差的高斯理论，当一组测量值的标准误差为σ时，则其中的任何一个测量值的误差εi有68．3%的可能性是在（－σ，＋σ）区间内。
　　世界上多数国家的物理实验和正式的科学实验报告都是用标准误差评价数据的，现在稍好一些的计算器都有计算标准误差的功能，因此，了解标准误差是必要的。
　　在相同测量条件下进行的测量称为等精度测量，例如在同样的条件下，用同一个游标卡尺测量铜棒的直径若干次，这就是等精度测量。对于等精度测量来说，还有一种更好的表示误差的方法，就是标准误差。
　　标准误差定义为各测量值误差的平方和的平均值的平方根，故又称为均方误差。
　　设n个测量值的误差为ε1、ε2……εn，则这组测量值的标准误差σ等于：
　　由于被测量的真值是未知数，各测量值的误差也都不知道，因此不能按上式求得标准误差。测量时能够得到的是算术平均值（），它最接近真值（N），而且也容易算出测量值和算术平均值之差，称为残差（记为v）。理论分析表明①可以用残差v表示有限次（n次）观测中的某一次测量结果的标准误差σ，其计算公式为
　　对于一组等精度测量（n次测量）数据的算水平均值，其误差应该更小些。理论分析表明，它的算术平均值的标准误差。有的书中或计算器上用符号s表示）与一次测量值的标准误差σ之间的关系是
　　需要注意的是，标准误差不是测量值的实际误差，也不是误差范围，它只是对一组测量数据可靠性的估计。标准误差小，测量的可靠性大一些，反之，测量就不大可靠。进一步的分析表明，根据偶然误差的高斯理论，当一组测量值的标准误差为σ时，则其中的任何一个测量值的误差εi有68．3%的可能性是在（－σ，＋σ）区间内。
　　世界上多数国家的物理实验和正式的科学实验报告都是用标准误差评价数据的，现在稍好一些的计算器都有计算标准误差的功能，因此，了解标准误差是必要的。
　　标准差
　　是方差的平方根。它和观测值有相同的单位。是最常用的表示数据分散程度的指标。对于正态分布的数据,它的用处尤大。样本标准差s是对总体标准差σ的一种估计。s的值可在有统计功能的计算器上直接得出。计算s值的功能键常用表示。
　　 误差的分类
　　系统误差
　　定义：在同一条件下多次测量同一量时，误差的绝对值和符号保持恒定或在条件改变时，按某一确定规律变化的误差，它的特点是其确定性。
　　实验条件一经确定，系统误差就获得一个客观上的恒定值。多次测量的平均值也不能削弱它的影响，改变实验条件或改变测量方法可以发现系统误差，可以通过修正予以消除。
　　偶然误差
　　定义：在同一条件下多次测量同一量时，误差的绝对值和符号随机变化，它的特点是随机性，没有一定规律，时大时小，时正时负，不能予定。
　　由于偶然误差具有偶然的性质，不能预先知道，因而也就无法从测量过程中予以修正或把它加以消除，但是偶然误差，在多次重复测量中服从统计规律，在一定条件下，可以用增加测量次数的方法加以控制，从而减少它对测量结果的影响。
　　过失误差（粗大误差）
　　定义：明显歪曲测量结果的误差。这是由于测量者在测量和计算中方法不合理，粗心大意，记错数据所引起的误差。只要实验者采取严肃认真的态度是可以避免的。
　　精度
　　不准确或不精确度是指给出值偏离真值的程度，它与误差的大小相对应。习惯上称为准确度，其含义乃是不准确之意。
　　精度一词可细分为精密度，准确度和精确度。
　　1．精密度：表示一组测量值的偏离程度。或者说，多次测量时，表示测得值重复性的高低。如果多次测量的值都互相很接近，即偶然误差小，则称为精密度高。可见精密度与偶然误差相联系。
　　2．准确度：表示一组测量值与真值的接近程度。测量值与真值越接近，或者说系统误差越小，其准确度越高。所以准确度与系统误差相联系。
　　3．精确度：它反映系统误差与偶然误差合成大小的程度。在实验测量中，精密度高的、准确度不一定高，准确度高的，精密度不一定高，但精确度高的。则精密度和准确度都高。
　　误差的传递
　　测量结果可直接从测量值得出的测量叫直接测量。通过对几个与被测有一定函数关系的量进行直接测量，然后利用函数关系算出被测量大小的测量方法叫间接测量。既然公式中所包含的直接测量都的误差，那么，间接测量也必然有误差，这就是误差的传递。设间接测量量Y与n个直接量量X1、X2????????????Xn有关，dX1、dX2????????????dXn表示各对应量的绝对误差，则有：
　　绝对误差
　　相对误差
　　结论：
　　间接测量量的绝对误差等于各直接测量量所决定的函数的全微分，并应取所有偏微分绝对值的和。
　　间接测量的相对误差等于各直接测量量的偏微分与原函数的比值的绝对值之和。
　　[b][/b]       http://blog.sina.com.cn/s/blog_4b700c4c0100m4yp.ht ml

分享到：

I-O error CPF5022 | 护肾方法

2012-01-19 15:48
浏览 1775
评论(0)
分类:非技术
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论