动态影音

初等的机率论(3)两个重要的不等式(Two Importan

连结:初等的机率论(2)代表值与参差度摘要:本篇介绍「机率论」里两个重要的不等式:「Markov不等式」与「Chebyshev不等式」,让我们更深入理解如何由「平均」与「标準差」知道资料分布的状态。利用上述记述统计的简单例子,我们马上可以导出机率论里两个非常重要的不等式:Markov 不等式与 Ch

动态影音2020.06.19


连结:初等的机率论(2)代表值与参差度

摘要:本篇介绍「机率论」里两个重要的不等式:「Markov不等式」与「Chebyshev不等式」,让我们更深入理解如何由「平均」与「标準差」知道资料分布的状态。

利用上述记述统计的简单例子,我们马上可以导出机率论里两个非常重要的不等式:Markov 不等式与 Chebyshev 不等式。它们是推导出(弱)大数法则之根据。

甲、Markov 不等式

Markov 不等式的内涵太容易且清楚了,而 Chebyshev 不等式又是 Markov 不等式的推论。先谈 Markov 不等式,我们仍然沿用「我们这班」的例子来说明。

考试成绩,通常是在 $$0$$ 与 $$100$$ 之间:$$0\leq x_{k}\leq 100$$(此地上限 $$100$$ 不重要)。今假设算术平均为 $$\mu=23$$ 分,则全班 $$N=144$$ 人中,分数超过两倍平均 $$2\times 23$$ 分的人数,一定不到全班的二分之一(即 $$72$$ 人);全班分数超过三倍平均的 $$3\times 23$$ 分的人数,一定不到全班的三分之一(即 $$48$$ 人);分数超过四倍平均 $$4\times 23$$ 分的人数,一定不到全班的四分之一(即 $$36$$ 人),…。

归结起来,我们可以简洁地表述为如下的结果:

假设所有数据 $$x_{k}\geq 0$$(简单写成 $$X\geq 0$$),$$\mu=\overline{X}$$为算术平均,令 $$\ell\ge 1$$,

则有 $$\displaystyle\frac{1}{N}\cdot\left|\{k:x_k>\ell\mu\}\right|<\frac{1}{\ell}$$

其中 $$|~|$$ 表示集合 $$\{\dots\}$$ 的元素个数。当然也有

$$\displaystyle\frac{1}{N}\cdot\left|\{k:x_k\ge\ell\mu\}\right|\le\frac{1}{\ell}~~~~~~(1)$$

事实上,在上述结果中,「$$\ell >1$$」是不必要的限制,只需$$\ell >0$$ 就好了。因为 $$(1)$$ 式的左侧是个真分数,所以当 $$0<\ell\leq1$$ 时,$$(1)$$ 式显然更成立。

经此修饰,我们就得到着名的 Markov 不等式。

【定理1】(Markov不等式)

假设所有数据 $$x_k\ge 0$$(简单写成 $$X\geq0$$,$$\mu=\overline{X}$$ 为算术平均,令 $$\ell>0$$,则有

$$\displaystyle\frac{1}{N}\cdot\left|\{k:x_k\ge\ell\mu\}\right|\le\frac{1}{\ell}~~~~~~(2)$$

【证明】

将全班 $$N$$ 位同学分成两群,分数 $$\geq\ell\mu$$ 者一群,分数 $$<\ell\mu$$ 者另一群,

假设人数分别为 $$m$$ 与 $${N} – {m}$$。全班总分为两群人分数之和

$$\displaystyle\sum^N_{k=1}x_k=\sum_{(1)}+\sum_{(2)}\ge(\ell\mu)\cdot m+0\cdot(N-m)=(\ell\mu)\cdot m$$

因为 $$\sum\limits_{k=1}^N {x_k}=N\mu$$,所以 $$N\mu\geq (\ell\mu)m$$。从而 $$\displaystyle\frac{m}{N}\leq\frac{1}{\ell}$$

注意到,用相对频率的概念来看 $$(2)$$ 式就是

「$$X\ge\ell\mu$$ 的相对频率」$$\displaystyle\le\frac{1}{\ell}~~~~~~~~~(3)$$

这就清爽多了。「$$X\geq\ell\mu$$ 的相对频率」在机率论中的对应就是「事件 $$\{ X\geq\ell\mu\}$$ 的机率」。用机率的符号来表达最简洁明朗,$$(3)$$ 式就是:

$$\displaystyle P\{X\ge\ell\mu\}\le\frac{1}{\ell}$$   或   $$\displaystyle P\{X\ge \varepsilon\}\le\frac{\mu}{\varepsilon}~~~~~~~~~(4)$$

在本文的后述,谈到机率论时,我们会再详谈。总之,$$(2)$$、$$(3)$$、$$(4)$$ 式都表述着同一件事情,只是符号越来越精简恰当。

在上一定理中我们必须假定 $$X\geq0$$,(即 $$x_k\geq0$$,对一切 $$k$$),这具有关键重要性,否则 Markov 不等式会不成立。

【习题】请你造一个例子证明在 $$X$$ 可取正、负值时,Markov 不等式不成立。

仅限于取非负值的统计变量 $$X$$ 才成立的结果,显然是太侷限了。我们希望追寻一个对于相当一般的 $$X$$ 也成立的结果。

乙、Chebyshev不等式

今假设在数据 $$X:\{x_1,x_2,\dots,x_N\}$$ 中,诸 $$x_k$$ 有正也有负,那幺我们就不能直接使用 Markov 不等式了。但是,这个困难可以解决。

令 $$\mu$$ 与 $$\sigma^2$$ 分别表示 $$X$$ 的算术平均与变异数。

我们改为考虑另一个统计变量 $$Y\equiv({X}-{\mu})^2:\{({x_1}-{\mu})^2,({x_2}-{\mu})^2,\dots,({x_N}-{\mu})^2\}$$,

此时 $$Y$$ 的算术平均为 $$\displaystyle\frac{1}{N}\sum_{k=1}^N ({x_k}-{\mu})^2$$,这就是 $$X$$ 的变异数 $$\sigma^2$$。

因为 $$Y\geq0$$,所以对 $$Y$$ 使用 Markov 不等式就得到

「$$Y\ge\ell\sigma^2$$ 的相对频率」$$\displaystyle\le\frac{1}{\ell}$$

亦即 「$$(X-\mu)^2\ge\ell\sigma^2$$ 的相对频率」$$\displaystyle\le\frac{1}{\ell}$$

为了表达的更简洁,我们令 $$\ell=a^2$$,$$a>0$$,则上式变成

「$$|X-\mu|\ge a\sigma$$ 的相对频率」$$\displaystyle\le\frac{1}{a^2}~~~~~~~~~(5)$$

再令 $$\varepsilon=a\sigma > 0$$,就得到 「$$|X-\mu|\ge \varepsilon$$ 的相对频率」$$\displaystyle\le\frac{\sigma^2}{\varepsilon^2}$$

因此我们得到一个更重要的结果:

【定理2】(Chebyshev不等式)

假设 $$X:\{x_1,x_2,\dots,x_N\}$$ 为一般统计数据,取值有正也有负。令 $$\mu$$  $$\sigma^2$$ 分别表示 $$X$$ 的算术平均与变异数,则对于任意 $$\varepsilon >0$$,恆有

「$$|X-\mu|\ge \varepsilon$$ 的相对频率」$$\displaystyle\le\frac{\sigma^2}{\varepsilon^2}~~~~~~~~~(6)$$

【注】用机率论的符号来写,$$(6)$$ 式就是 $$\displaystyle P\{|X-\mu|\ge\varepsilon\}\le\frac{\sigma^2}{\varepsilon^2}$$

这是在估计 $$X$$ 的值,以 $$\mu$$ 为中心,落到两侧(尾端)的机率(即相对频率),这是证明弱大数法则的基石。另外 $$(5)$$ 式等价于:

「$$|X-\mu|1-\frac{1}{a^2}$$

特别地,取 $$a=3$$ 就得到

「$$|X-\mu|<3\sigma$$ 的相对频率」$$\displaystyle >\frac{8}{9}$$

这叫做 $$3\sigma$$ 原则,意思是:$$X$$ 的值落在以 $$\mu$$ 为中心,左右 $$3\sigma$$ 的範围之内的机率(即相对频率)大于 $$8/9\fallingdotseq0.89$$,不妨说成「八九不离十」。

我们在这里打住,不再讲记述统计了,就转到机率论来。

连结:初等的机率论(4)机率论的瓮模型

参考书目:

注:通常要讲述机率论必须用到「测度积分论」的数学工具,或至少要用到微积分。因此要为一般读者介绍机率论的读物诚属不容易。上述八本书尽量压低要用到的数学工具,大部分只需排列与组合,只有少部份要用到一点儿微积分。

从科学方法论的观点来看,机率论与统计学是一体的两面,机率论是「演绎法」,统计学是「归纳法」。因此,本文的主题虽然是机率论,但是也顺便介绍一点点统计学的概念。

上一篇: 下一篇:

相关阅读

猜你喜欢