动态影音

初等的机率论(10)推理统计学简介(Brief Introd

连结:初等的机率论(9)什幺是机率与机率法则?摘要:这是一系列「初等的机率论」文章中的最后一篇,在对机率有了充足的概念后,这里举例说明机率法则的实际应用,强调「推理统计学」是以「机率论」为基础。机率论最早的应用是赌局,而赌局也是机率论的发源地。随着机率论的发展,它的应用也越来越宽广,最先是数理统计学

动态影音2020.06.19

连结:初等的机率论(9)什幺是机率与机率法则?

摘要:这是一系列「初等的机率论」文章中的最后一篇,在对机率有了充足的概念后,这里举例说明机率法则的实际应用,强调「推理统计学」是以「机率论」为基础。

机率论最早的应用是赌局,而赌局也是机率论的发源地。随着机率论的发展,它的应用也越来越宽广,最先是数理统计学,再来是统计力学、量子力学,以及社会科学、医学、经济学。只要是涉及重複的、大量的观测数据,都会受到机率论与统计学的管辖。

统计学就是要在不确定性不全资讯的情况下,作决策与判断的学问,这是一种「猜测的艺术」(the art of conjecture),也是一种归纳式的思考法。母群体的统计变量是个随机变数,它的机率分布含有未知参数,于是抽出一小部分的样本(抽样),然后运用各种统计方法以推估这些未知参数。要谈论推估的好坏就要用到机率论。

统计学的领域太宽广,我们只举几个例子,来看看机率论如何使用。

【例21】(池中鱼的估计,捉放捉)如何估计台大醉月湖中的鱼数?

这当然有各种方法,採用蛮力法,将湖水抽乾,抓鱼来点算,但这样太不经济且耗时,又不符合生态环保。有经验的渔人可能观察一下醉月湖,就可以估算湖中的鱼数,但难以说明估算值的好坏。

统计学的方法是高竿的艺术:假设湖池中有 $$N$$ 条鱼,我们第一度先任意抓出 $$N_0$$ 条鱼上来(通常 $$N_0$$ 是相对的小数目),作上记号,再放回湖中。过些时,再第二度任意抓 $$n$$ 条鱼,每次抓出一条来观看后再放回湖中,发现其中有 $$n_0$$ 条鱼有记号。

问:由这些抽样数据,如何估算 $$N$$?

能够估算,并且估算之后还要能够说明好坏,这就是推理统计学的内容,背后要用到一些机率论。

【解法1】

利用大数法则或比例的想法,可知 $$N:N_0\simeq n:n_0$$,所以我们估计 $$\displaystyle N\simeq \frac{n}{n_0}N_0$$

这个估计的好坏如何评估呢?我们施展一点儿机率论。假设第二度抓鱼,抓出一条鱼来观察有无记号,这是一个随机变数 $$\xi$$,定义如下:

当鱼有记号时,我们就说观察到 $$\xi=1$$,机率为 $$\frac{N_{0}}{N}$$
当鱼没有记号时,我们就说观察到 $$\xi=0$$,机率为 $$1-\frac{N_{0}}{N}$$

今对 $$\xi$$ 在相同状况下独立观测 $$n$$ 次,得到一列随机变数 $$\xi_1,\xi_2,…,\xi_n$$。因为抓出再放回,所以 $$\xi_1,\xi_2,…,\xi_n$$ 是独立且同布(i.i.d.)。

令 $$S_n\equiv\xi_1+\xi_2+…+\xi_n$$,则 $$S_n$$ 表示第二度任意抓 $$n$$ 条鱼中有记号的尾数。

这是一个随机变数,具有二项分布:

$$\displaystyle P(S_n=k)=C^{n}_{k}\left(\frac{N_0}{N}\right)^k\left(1-\frac{N_0}{N}\right)^{n-k},~~~k=0,1,2,\cdots,n$$

其期望值为 $$E(S_n)=\displaystyle n\cdot\frac{N_0}{N}$$。今 $$S_n$$ 的值落在 $$\Big|S_n-\frac{nN_0}{N}\Big|\le\varepsilon$$ 的範围之机率为

$$\displaystyle\sum_{|k-(nN_0)/N|\le\varepsilon}p_k\equiv c,~~~0

那幺除了要冒 $$1-c\equiv\alpha$$ 的风险之外,我们可以确定 $$|n_{0}-\frac{nN_0}{N}|\leq\varepsilon$$;亦即 $$N$$ 落在闭区间 $$[\frac{nN_0}{n_0+\varepsilon},\frac{nN_0}{n_0-\varepsilon}]$$ 之可靠度为 $$c$$,风险度为 $$\alpha$$。通常我们可以用中央极限定理来估算 $$c$$ 的值。切记:统计学告诉我们的结论,都是有风险的!

【解法2】用同样这个例子,我们顺便介绍一下,统计学家R. A. Fisher(捕渔人)所提出的「最像样推估法」(method of maximum likelihood estimation):由上述知

$$\displaystyle P(S_n=n_0)=C^{n}_{n_0}\left(\frac{N_0}{N}\right)^{n_0}\left(1-\frac{N_0}{N}\right)^{n-n_0}$$,其中 $$N$$ 为未知参数

表示第二度任意抓 $$n$$ 条鱼中,$$n_0$$ 条鱼有记号,我们把他看作是 $$N$$ 的函数:

$$\displaystyle f(N)=P(S_n=n_0)=C^{n}_{n_0}\left(\frac{N_0}{N}\right)^{n_0}\left(1-\frac{N_0}{N}\right)^{n-n_0}$$

现在这个事件既然已经发生了,我们理应找 $$N$$ 使得 $$f(N)$$ 取最大值,这就是Fisher的最像样推估的想法。今对 $$f(N)$$ 作微分,令 $$f'(N)=0$$,解方程式得到

$$\displaystyle N=\frac{n}{n_0}N_0$$

这是一种漂亮的猜测术,所得的结果跟解法1一致。

【例22】今假设有一个古老池塘,第一度从中抓出 $$100$$ 条鱼,作上记号,放回。第二度从中抓出 $$50$$ 条鱼,发现其中有 $$10$$ 条鱼有记号,试估计池塘里的鱼数。

【解答】估计池塘里的鱼数为 $$N=\frac{50}{10}\times{100}=500$$

【注】欣赏日本松尾芭蕉(1644-1694) 的一首俳句:初等的机率论(10)推理统计学简介(Brief Introd

【例23】假设某城市的市民所得 $$X$$,从学理上知道具有正规分布 $$N(\mu,\sigma^2)$$,其中假设 $$\sigma^2$$ 为已知,只有 $$\mu$$ 为未知参数。今对 $$X$$ 作 $$n$$ 次独立的观测,得到一列 $$\mathrm{i.i.d.}$$ 的随机变数 $$X_1,X_2,\cdots,X_n$$,令 $$\overline{X}=\frac{1}{n}\sum\limits^{n}_{k=1}X_k$$,试求随机区间 $$\displaystyle\left[\overline{X}-\frac{2\sigma}{\sqrt{n}},\overline{X}+\frac{2\sigma}{\sqrt{n}}\right]$$ 包含 $$\mu$$ 的机率。

【解答】

因为 $$\displaystyle \overline{X}-\frac{2\sigma}{\sqrt{n}}\le\mu\le\overline{X}+\frac{2\sigma}{\sqrt{n}}$$ 与 $$\displaystyle -2\le\frac{\sqrt{n}(\overline{X}-\mu)}{\sigma}\le 2$$

是同一个事件,所以机率相等。由中央极限定理知,当 $$n$$ 很大时 $$\displaystyle\frac{\sqrt{n}(\overline{X}-\mu)}{\sigma}$$ 的机率分布大约就是 $$N(0,1)$$。因此

$$\begin{array}{ll}\displaystyle P\left(\overline{X}-\frac{2\sigma}{\sqrt{n}}\le\mu\le\overline{X}+\frac{2\sigma}{\sqrt{n}}\right)&\displaystyle=P\left(-2\le\frac{\sqrt{n}(\overline{X}-\mu)}{\sigma}\le 2\right)\\&\approx 2\Phi(2)-1=1.954-1=0.954\end{array}$$(查表)

【例24】继续考虑上例。

假设 $$X\sim N(\mu,10000)$$,我们独立抽样出 $$100$$ 位市民,得到所得的数据为

$$X_1=x_1, X_2=x_2,…,X_{100}=x_{100}$$

很自然,我们就用 $$\displaystyle\overline{x}=\frac{1}{100}\sum\limits_{k=1}^{100}x_k$$ 来推估 $$\mu$$。

例如已知 $$x=50000$$,我们就猜测 $$\mu$$ 大约为 $$5$$ 万元。

又根据上例的理论计算区间 $$\displaystyle\left[\overline{X}-\frac{2\sigma}{\sqrt{n}},\overline{X}+\frac{2\sigma}{\sqrt{n}}\right]$$ 的实现值为

$$\displaystyle\left[50000-\frac{2\times 100}{\sqrt{100}},50000+\frac{2\times 100}{\sqrt{100}}\right]$$,亦即 $$[50000-20,50000+20]$$

因此,我们就说,猜测 $$\mu=50000\pm 20$$ 的可靠度为 $$0.954$$,风险为 $$0.046$$

研究自然科学和社会科学的人一定得研读统计学!为什幺我们会这幺肯定呢?各位读者只要上网查询,凡是归类为自然或社会科学的学系,十之八九一定会有一堂必修课为「统计学」,这就稍稍能感受到统计学的重要性了。

统计学研究如何蒐集可靠的资料、如何整理与分析资料、如何根据资料计算出一些有意义的代表值、统计量,并且利用这些数据去推估与了解母群体或机率模型里的未知。这个过程都需要机率论的帮忙。

总结:机率论是在「三合一又三合一」的枝上开出了三朵花

要言之,机率论的理论架构,就是「三合一又三合一」。前一个三合一是指样本空间 $$\Omega$$、事件全体  $$\mathfrak{A}$$ 与机率测度 $$P$$;后一个三合一是指机率空间 $$(\Omega,\mathfrak{A},P)$$、随机变数机率分布

在「三合一又三合一」的理论架构上开出三朵花:大数法则(弱型与强型)、Poisson小数法则以及中央极限定理。机率论除了本身美丽之外,又有极其广大的应用。

当样本空间 $$\Omega$$ 是无穷集(甚至连续统,continuum)时,要谈机率论就要用到微积分(Calculus),甚至用到测度论(measure theory),在这里有很丰富且深奥的机率论内容,毕竟「机运」(chance)是那幺诡谲、虚玄,难以捉摸,机运女神泰姬(Tyche)是那幺神秘莫测。人类一直想要驯服「机率」,只要看看赌局的热络、乐透的疯狂,就可思过半一矣。数学家Mark Kac (1914-1984) 研究机率论,想要证明「机率不存在」,但是一生又受到泰姬的照顾,他说:

初等的机率论(10)推理统计学简介(Brief Introd

义大利机率学家、统计家与精算师Bruno de Finetti (1906-1985) 乾脆就直言道:

$$Probability~does~not~exist.$$

爱因斯坦也说:

$$God~does~not~play~dice~with~the~world.$$
(上帝不是用丢骰子来决定这个世界。)

但是Max Born却说:

$$God~does~play~dice~with~the~world.$$
(上帝确实是用丢骰子来决定这个世界。)

君以为然否?

初等的机率论(10)推理统计学简介(Brief Introd

泰姬(Tyche):盲眼的机运女神

参考书目:

注:通常要讲述机率论必须用到「测度积分论」的数学工具,或至少要用到微积分。因此要为一般读者介绍机率论的读物诚属不容易。上述八本书尽量压低要用到的数学工具,大部分只需排列与组合,只有少部份要用到一点儿微积分。

从科学方法论的观点来看,机率论与统计学是一体的两面,机率论是「演绎法」,统计学是「归纳法」。因此,本文的主题虽然是机率论,但是也顺便介绍一点点统计学的概念。

上一篇: 下一篇:

相关阅读

猜你喜欢