伯努利分布和二项分布

说一下什么是二项分布吧
在PRML书中,二项分布的讲解是非常到位的,我提取一些主要信息,一方面是加深理解,同时也可以mark一下。
伯努利分布:
假设有一枚硬币,这枚硬币是有破损的,所以,如果你去抛硬币,正面和反面出现的概率不是相同的。怎样描述这个概率分布呢,我们用随机变量x∈{0,1}来表示x=1代表硬币是正面,x=0就代表硬币是反面咯。我们假设的概率可以用参数来表示,那么硬币出现正面的概率就可以这样表示:
P(x=1|μ)=μ,这里0≤x≤1
很显然的,硬币出现反面的概率:
P(x=0|μ)=1-μ
那么抛硬币的概率-伯努力实验的概率公式就可以很清楚的表示出来了:

下面我们考虑这样一个问题:如果让你抛N次硬币。通过结果,你能否大概的估计出μ的值是多少?怎样来估计这个μ值呢?对给定的观察数据集合D={x1,x2,…,xN},其中xi是第i次的观察值我们构造似然函数:

通过这个似然函数,我们可以看出,如果我尽量取μ使P(D|μ)取得最大值,那么,这个μ值也就会非常接近抛硬币的真是分布。所以我们管这种估计参数的方法叫做极大似然估计。怎样通过求最大值的方法来求得这个μ的最大值呢?回忆一下,在高等代数中,我们知道,平滑曲线的极值点一定导数是0的,那么我们就可以通过求导赋值0来找这个极大值点。问题出现了,求导并没有使问题得到简化,反而是问题复杂化了。继续回忆log曲线的样子,恩,你应该想起来了,log曲线是一条递增的的曲线,那么我们对一个数学表达式取log并不会使得其增长方向发生变化,带来的好处是,我们把所有的乘法运算变成了加法运算。哈哈,数学真是太神奇了。
说完了伯努利分布,我们继续看看什么是二项式分布。想象这样一种情形,如果,你抛了N次硬币,出现正面的次数是m次,那么怎样来描述这样一种分布呢?
定义:对给定大小为N的数据集,m次观测值为x=1,则我们管这种分布叫做二项式分布,其表示如下:

其中

二项式分布和伯努利分布是不同的两种分布。你注意到二项式分布是有两个参数的,分别为,PRML中给出了的直方图:

好了,伯努利分布和二项式分布就先说到这里。

原文链接:
http://commanber.is-programmer.com/posts/33283.html

Leave a Reply

Your email address will not be published. Required fields are marked *