真对不起兴冲冲点进来的人,并没有更新进度。
(期末考完了还没回家闲着没事干)
期末复习的时候把概率系统的学了一遍,正巧又想起了上一篇中提到标准差等等内容时有失偏颇。让我们来理一理其中那组数据所表达的意义。
原文是这样的:
“然后,这是120年前的有关男性阴茎长度的调查。样本2000人,阴茎平均长度为17.8cm,标准差2.5cm”
“那么,12.7cm,对吧?”
“这个数字在120年前变成了96.4%,也就是说,长度仅仅超过了3.6%的受调查者。而且,远远低于偏差下限,和平均值的差甚至比标准差大了一倍多,完全脱离了正常范畴。也就是说,和正常相比小的可怜的尺寸。毕竟是3.6%,这样的推测是合理的。”
提炼关键信息:均值17.8,标准差2.5,特殊样本12.7
标准差的意义是什么呢?具体的可以去百度,简单来说是方差开根号(方差小学就学过)。但有如果要用来进行参考就不得不提到切比雪夫不等式:
P{|X−μ|<ε}≥1−σ²/ε²
其中X即是文中主角的长度12.7,μ则是该组数据的数学期望(这样的调查属于古典概型,其均值即为数学期望)17.8,σ是标准差。
切比雪夫不等式的意义是:在正态分布中(可以想象成中间胖两头窄的椭圆形分布),数学期望(文中均值)为椭圆中轴线,椭圆面积就是各样本的分布情况(简而言之,越靠中间越多,越靠两边越少)。
在这样的正态分布中,所有样本有大多数(约75%)在均值上下两个标准差范围内;绝大多数(约88.9%)在均值上下3个标准差范围内……
简而言之,在这个椭圆中随机取一个点,因为椭圆中间宽两头窄,这个点落在椭圆两边的几率较小,且越靠近边缘几率越小。其具体概率可以通过切比雪夫不等式算出。
(其实正态分布并不是椭圆,但乱传无关的图P站会删掉,所以只能用形状相近的椭圆来举例子了)
主角长度X(12.7)-(均值μ)17.8并取绝对值得ε=5.1,这便是72号样本在这组数据中距离中线(均值)的距离。
而标准差……在写的时候对详细情况欠缺考量,考虑到在2倍标准差范围内的数据应占到75%,我想标准差σ=1.3(15.2cm—20.4cm的人数占75%)更现实一些。
那么我们就已经凑够计算所需的所有要素了。由不等式得,该组调查中数据落在均值±5.1(12.7以下或23.9以上)以外范围的概率P=【(1.3)²/(5.1)²】=6.475%
(上文给出的公式计算的是以内的概率,这里算的是以外所以不需要1-)
而因为计算所得的范围是椭圆两头,所以单独考虑一边(即像主角一样较短的这边)还需吧概率除以2=3.237%
也就是说,在本次调查中,比主角更短小的概率只有3.237%,接近文中的3.6%(我估的还挺准的嘛)
虽然这只是在理想正态分布的情况下对概率进行的估算,并不代表实际结果,但毕竟是空想出来的东西。。。就当是这样吧。
嗯,以上大概就是一大二学生在考完后闲得无聊时得出的研究成果,没有任何参考价值。但是我就是看着这样的数字反而会兴奋起来。百分数真是个好东西。