您的位置 首页 知识

方差的意义和作用(方差的意义和特性)

方差的意义和作用(方差的意义和特性)

1.均值和方差的含义及关系 。

在概率论中,用于描述一个随机事件或者随机变量性质的重要概念就是平均值或者叫作数学期望值(简称期望值)。数学期望值(均值)讲的是在同样的条件下多次重复某个随机试验,所得到结果的平均值。比如掷骰子,结果可能是1—-6点,如果我们重复1万次,把每一次的点数加起来,平均值就是3.5,这就是掷骰子结果的数学期望值。当然,很多时候无法大量重复试验,因此我们可以通过将每一个可能的结果按照其发生的概率加权平均得到数学期望值。比如一个做了手脚的骰子,5点朝上的可能性为1/3,2点朝上的可能性为0,其余点上的可能性为1/6,于是它的数学期望值就是1*1/3+2*0+3*1/6+4*1/6+5*1/6+6*1/6=4。

虽然期望值是理想状态下得到的实验结果的平均值,实际做试验得到的平均值可能有偏差,但是人们经常把它们当作一回事。事实讲,数学期望值只能反映随机变量平均的情况,不能反映浮动范围,也不能反映进行一次随机试验,结果是否在平均值的附近。比如我们有两个骰子,一个骰子是普通的骰子,各点朝上的可能性相同,另一个被做了手脚,3点和4点朝上的概率分别是1/2,基余各点出现的概率为零。这两个骰子掷出来,数学期望值都是3.5,但是第一个骰子可能有各种结果,随机性非常大,第二个骰子的结果只集中在3、4两点上。如果我们把它们的分布情况画出来。就是下图中(a)、(b)两个不同的形状:

完好的骰子和作弊的骰子结果点数概率分布

虽然这两个骰子掷出来的结果的数学期望值相同,但是显然它们的概率分布函数形态完全不同,为了描述它们的区别,我们就需引入另一个重要的概念—-平方差了。平方差,也就是通常人们所说的方差,是指每一个随机试验的结果和数学期望值差异的平方,按照概率加权平均。比如在掷骰子的例子中,完好的骰子的方差为:

做了弊的骰子方差则为:

可见,做了弊的骰子掷出去之后方差要小得多。总的来讲,一个随机变量的概率分布曲线越平,方差越大,越向中间集中,方差越小。我们还可以这样理解方差,随机性越大,方差越大,反之亦然。当然,我们这里所说的方差大和小,是相对均值而言的,因为均值越大,方差难免随之变大,但这并不意味着随机性的增加。比如我们将骰子上面的数字写成10、20、—、60,它掷出来结果的方差的值肯定比以前的大,但是对于同样增加的均值,它的方差相对(均值)大小没有变化,由于方差的单位是数学期望值单位的平方,两者不能直接比较,人们有时会用方差的平方根来衡量一个概率分布的随机性,称之为标准差。从数学上讲,它和方差是等价的。标准差的好处在于可以直接和数学期望值做对比,比如上述两个骰子的标准差分别为1.7和0.5左右,它们大致相当于均值的一半和1/7左右。如果我们将骰子上的数字放大10倍,均值和标准差也会放大10倍,这样标准差和均值的比例会维持不变。对于上一次提到的伯努利试验,它只有两个结果,A事件我们用1量化地来表示,其概率为P,不发生我们用0来量化表示,其概率为1-P,于是它的数学期望值(均值)就是

P+0(1-p)=P。而它的方差就是P(1-P)。原因是:

我们不难发现,当p=1/2时,它的方差最大。也就是说,对于非A即B的伯努利试验,如果两种情况出的概率均等,随机性最大,这和我们的常识是一致的。对于二项式分布,它就是把伯努利试验重复N次的概率分布,它平均发生的次数,也就是发生次数的期望值则是Np,方差计算是:

如果我们注意一下标准差和均值的比值为:

会发现两个现象,首先,它实际上是随着试验次数N的增加而减少,这就解释了为什么试验次数越多,概率分布的曲线越接近均值。以抛硬币为例,如果硬币两面均匀(即正面朝上的概率P=0.5),我们进行10次试验,算出来的标准差是5次,相比平均值50,是10%。但是如果我们做10000次试验,标准差大约是50和平均值5000相比,降到了1%左右。如果我们将N继续扩大到无穷大,标准差和均值的比例就近乎为0了。也就是说,随机性对规的影响可以忽略不计。我们平时在工作和学习中,都希望找到规性,降低随机性的影响,做到这一点最直接的办法就是增加试验的次数。这也是为什么我们在大数据的应用中强调数据量的原因,因为只有数据量大,得到的才是规律性,而不是巧合。

其次,如果p是一个较大的值,接近于1,那么标准差相对均值是很小的。反过来,如果p是一个很小的值,接近0,标准差和均值之比就非常大。这说明,越是小概率的事件,发生的可能性就越难以预测。

2.理想和现实的差距。

我们也可以用方差(标准差)的工具,定量分析一下“理想和现实的差距",以及其中的原因。什么是理想呢?我们进行N次伯努利试验,每一次事件A发生的概率为P,N次下来发生了NP次,这就是理想。那么什么是现实呢?由于标准差的影响,使得实际发生的次数严重偏离NP,这就是现实。比如,在生活中,很多人觉得某件事有1/N发生的概率,只要他做N次,就会有一次发生,这只是理想。事实上,越是小概率事件,理想和现实的差距越大。比如说一件事发生的概率为1%,虽然进行100次试验后它的数学期望值达到了1,但是这时它的标准差大约也是1(将N=100和p=0.01代入算式),也就是误差

(标准差)和均值的比例高达100%。因此试了100次下来,可能一次也没有成功。如果想确保获得一次成功该怎么办?你大约要260左右的试验,而不是100次。当然,我们这里所说的260次是按照有95%的“把握”计算得到的,并非100%的把握。在概率中通常不会有100%有把握的事情发生。关于这个“把握”,在概率中也有一个专门的概念来准确地描述它,那就是我们在后面会介绍到的置信度。根据算式,我们还能看出,越是小概率事件,你如果想确保它发生,需要试验的次数比理想的次数多得多。比如买彩票这种事情。中奖的概率是一百万分之一,你如果想要确保有一次成功,大约要买260万次彩票。这时你即使中一回大奖,花的钱要这比获得的多得多。当然,有人觉得万一那百万分之一的好运气降临了,也未可知,要知道这比大家每天出门被车撞死的概还要低好几个数量级。如果不相信自己会遇到那样倒霉的小概率,凭什么相信自己在更小概率的事情上能够有好运气,中国有古语叫利令智昏,讲的就是这个道理。很多人在做事情时免不了有赌徒心理,觉得自己多尝试几次就成功。这种想法对不对呢,我们还是用上面介绍的知识来定量分析:

假如我们做一件事情有50%成功可能性,基本上要尝试4次能确保成功一次(还是以95%的把握为准),相比理想状况下的两次,只多做了100%的工作。如果我们多花点心思,将成功率提高到75%,大约两次就可以了,只要多做60%的工作。但是如果想做点事情,做得快一点,多试几次,是否能省些努力呢?

我们假设5%的成功可能性,大约需要50次才能确保成功一次,面对状态中的20次,也就是说,我们要多做150%的工作。很多人喜欢赌小概率事件,觉得它成本低,大不了多来几次,其实由于误差的作用,要确保小概率事件发生,付出的成本要比确保大概率事件发生高得多。

关干随机性,我们从数学上得到的结论,常常和大家的直觉是相符的。这一点和确定性的数学有很大的不同。很多人会问:如果自己算不清楚各自和概率相关的事情怎么办?最简单,其实也是量好的方法,就是凡事留够余量。

请思考以下两个问题:

1.某个赌场里有一个骰子,连掷了10次之后,有6次是1点朝上。请问出现这种现象是因为这个骰子是被动了手脚,还只是因为随机性导致多次出现了1点朝上?

2.一个两面完全均匀的硬币,抛10次之后出现10次正面朝上的概率和5次正面朝上、5次反面朝上的概率相比,差多少倍?

虽然概率源于赌徒们对钱的追求,但却在数学家们好奇心的驱使下,发展成了一门非常实用的学科。概率本身并不难理解,就是一个随机事件发生的可能性。但是这个可能性的大小,常常和我们的想象并不一致。我们通常会高估那些我们喜欢的事情发生的概车,低估那些我们厌恶的事情发生的概率。因此,学一些概率的基本理论,有助于我们做出理性的判断。


返回顶部