Fisher信息量与Cramer-Rao不等式

Fisher信息量与Cramer-Rao不等式

今天在看一个问题的时候,无意间看到需要证明:

E[∂2ln(f(x:θ)∂θ2]=-E{(∂lnf(x;θ)∂θ)2}E[\frac{\partial^2 ln(f(x:\theta)}{\partial \theta^2}] = \textbf{-}E\{(\frac{\partial lnf(x;\theta)}{ \partial\theta})^2\}E[∂θ2∂2ln(f(x:θ)​]=-E{(∂θ∂lnf(x;θ)​)2}

结果查着查着,就查到了Fisher信息量的问题,顺便手推了一遍公式,感觉后面会忘记,抽点时间留手稿,打电子版是真浪费时间,每次都做很久的心里暗示(捂脸哭)。

备注:下面均是个人拙见,仅供参考。

一、评价统计量的三大标准

我们知道点估计一般主要包含:矩估计和极大似然估计。

矩估计主要思想是:如果总体中有 K个未知参数,可以用前 K阶样本矩估计相应的前k阶总体矩,然后利用未知参数与总体矩的函数关系,求出参数的估计量;

极大似然估计主要思想是已经发生的样本出现概率最大化。

对于已经获取的多个统计量,如何评价其参数估计是好还是坏,该如何选择呢?这里就要用到评价统计量的三大标准:无偏性、有效性、相合性(或一致性)。

下面简单介绍三大性质的主要内容:

无偏性

在统计学上称没有系统性偏差的性质为无偏性。严格数学定义为:

设θ^=θ^(x1,x2,…,xn)\hat\theta=\hat\theta(x_1, x_2, \dots, x_n)θ^=θ^(x1​,x2​,…,xn​)为母体XXX的概率密度函数{f(x,θ):θ∈Θ}\{f(x, \theta):\theta\in\Theta\}{f(x,θ):θ∈Θ}的未知参数θ\thetaθ的一个估计量。若对于一切θ∈Θ\theta\in\Thetaθ∈Θ,关系式:

Eθ[θ^(x1,x2,…,xn)]=θE_\theta[\hat\theta(x_1, x_2, \dots, x_n)] = \thetaEθ​[θ^(x1​,x2​,…,xn​)]=θ

成立,则称θ^(x1,x2,…,xn)\hat\theta(x_1, x_2, \dots, x_n)θ^(x1​,x2​,…,xn​)为θ\thetaθ的无偏估计.

备注:这里角标θ\thetaθ不是对其求期望,可以理解为此处θ\thetaθ为常量,求完期望后,只剩含θ\thetaθ的数值.有效性

我们知道,方差是用来形容随机变量落在其均值的领域内的离散/集中程度的一个度量,一个好的统计量不仅应该是待估计参数θ\thetaθ的无偏估计,而且还应该有尽可能小的方差。因此,哪一个统计量的方差小,那么哪一个统计量较好。严格数学定义为:

若参数θ\thetaθ有两个无偏估计θ^1\hat\theta_1θ^1​和θ^2\hat\theta_2θ^2​,他们的方差对一切θ∈Θ\theta\in\Thetaθ∈Θ有D(θ^1)≤D(θ^2)D(\hat\theta_1)\leq D(\hat\theta_2)D(θ^1​)≤D(θ^2​),称估计θ^1\hat\theta_1θ^1​比估计θ^2\hat\theta_2θ^2​有效.相合性

简单来说,随着样本量增大,估计值与真值很接近的可能性非常大,即估计值与真值之差小于任何数ϵ(>0)\epsilon(>0)ϵ(>0)依概率趋于1. 严格数学定义为:

设母体XXX具有概率密度函数f(x;θ),θ∈Θf(x; \theta), \theta\in\Thetaf(x;θ),θ∈Θ为未知参数. θ^n=θ^n(x1,x2,…,xn)\hat\theta_n=\hat\theta_n(x_1, x_2, \dots, x_n)θ^n​=θ^n​(x1​,x2​,…,xn​)为θ\thetaθ的一个估计量,nnn为子样容量. 若为任意一个ϵ>0\epsilon>0ϵ>0,有

lim⁡n→+∞P(∣θ^n−θ∣≥ϵ)=0\lim_{n \to +\infty}P(|\hat\theta_n - \theta|\geq\epsilon)=0n→+∞lim​P(∣θ^n​−θ∣≥ϵ)=0

则称θ^n\hat\theta_nθ^n​为参数θ\thetaθ的相合估计.

本文我们主要想讨论Fisher信息量及Cramer-Rao不等式,这里就与上面提到的有效性有关系。 提到有效性,我们自然有这样一个想法,就是希望估计量的方差愈小愈好. 那么能够小到什么程度呢?也就是有没有下界?什么条件下方差下界存在?下面就讨论建立一个方差下界的Cramer-Rao不等式.

二、Cramer-Rao不等式

2.1 Cramer-Rao不等式(数学定义)

设x1,x2,…,xnx_1, x_2, \dots,x_nx1​,x2​,…,xn​为取自具有概率密度函数f(x;θ),θ∈Θ=θ:a<θ

(1) 集合{x:f(x;θ)>0}\{x: f(x;\theta)>0\}{x:f(x;θ)>0}与θ\thetaθ无关;

(2) g′(θ)g^{'}(\theta)g′(θ)与∂f(x;θ)∂θ\frac{\partial f(x;\theta)}{\partial\theta}∂θ∂f(x;θ)​存在,且对一切θ∈Θ\theta\in\Thetaθ∈Θ,

∂∂θ∫f(x;θ)dx=∫∂f(x;θ)∂θdx\frac{\partial}{\partial\theta}\int f(x;\theta)dx = \int\frac{\partial f(x; \theta)}{\partial\theta}dx∂θ∂​∫f(x;θ)dx=∫∂θ∂f(x;θ)​dx

∂∂θ∫∫ ⁣⋯∫μ(x1,x2,…,xn)f(x1;θ)f(x2;θ)…f(xn;θ)dx1dx2…dxn=∫∫ ⁣⋯∫μ(x1,x2,…,xn)∂∂θ[∏i=1nf(xi;θ)]dx1dx2…dxn\frac{\partial}{\partial\theta}\int\int\dots\int \mu(x_1, x_2, \dots,x_n)f(x_1;\theta)f(x_2;\theta)\dots f(x_n;\theta)dx_1dx_2\dots dx_n = \\

\int\int\dots\int\mu(x_1, x_2, \dots,x_n)\frac{\partial}{\partial\theta}[\prod_{i=1}^nf(x_i;\theta)]dx_1dx_2\dots dx_n∂θ∂​∫∫⋯∫μ(x1​,x2​,…,xn​)f(x1​;θ)f(x2​;θ)…f(xn​;θ)dx1​dx2​…dxn​=∫∫⋯∫μ(x1​,x2​,…,xn​)∂θ∂​[i=1∏n​f(xi​;θ)]dx1​dx2​…dxn​

(3) 令

I(θ)=Eθ{(∂lnf(x;θ)∂θ)2}I(\theta) = E_\theta\{(\frac{\partial lnf(x;\theta)}{ \partial\theta})^2\}I(θ)=Eθ​{(∂θ∂lnf(x;θ)​)2}

成为Fisher信息量,则

Dθη≥[g′(θ)]2nI(θ)D_\theta\eta\geq\frac{[g^{'}(\theta)]^2}{nI(\theta)}Dθ​η≥nI(θ)[g′(θ)]2​

且其等式成立的充要条件为存在一个不依赖于x1,x2,…,xnx_1,x_2,\dots,x_nx1​,x2​,…,xn​,但可能依赖于θ\thetaθ的KKK,使得等式

∑i=1n∂lnf(xi;θ)∂θ=K(η−g(θ))\sum_{i=1}^{n}\frac{\partial lnf(x_i;\theta)}{ \partial\theta} = K(\eta - g(\theta))i=1∑n​∂θ∂lnf(xi​;θ)​=K(η−g(θ))

以概率1成立.

特别地当g(θ)=θg(\theta)=\thetag(θ)=θ时,不等式化为

Dθη≥1nI(θ)D_\theta\eta\geq\frac{1}{nI(\theta)}Dθ​η≥nI(θ)1​

证明:

后续待补充

2.2 证明:信息量等于二阶导的期望

这个重要性质,其实是为了方便计算信息量I(θ)]I(\theta)]I(θ)]而证明出来的。数学定义为:

若∂∂θ∫∂f(x;θ)∂θdx=∫∂2f(x;θ)∂θ2dx\frac{\partial}{\partial\theta}\int\frac{\partial f(x;\theta)}{\partial\theta}dx = \int\frac{\partial^2 f(x;\theta)}{\partial\theta^2}dx∂θ∂​∫∂θ∂f(x;θ)​dx=∫∂θ2∂2f(x;θ)​dx

则:

I(θ)=−E[∂2ln(f(x;θ)∂θ2] I(\theta) = -E[\frac{\partial^2 ln(f(x;\theta)}{\partial \theta^2}] I(θ)=−E[∂θ2∂2ln(f(x;θ)​]

证明:

E[∂ln(f(x;θ)∂θ]=∫1f(x;θ)∗∂f(x;θ)∂θ∗f(x;θ)dx=∫∂f(x;θ)∂θdx=∂∂θ∫f(x;θ)dx‾=∂∂θ∗1=0‾

\begin{aligned}

E[\frac{\partial ln(f(x;\theta)}{\partial \theta}] =& \int\frac{1}{f(x;\theta)}*\frac{\partial f(x;\theta)}{\partial\theta}*f(x;\theta)dx\\

=& \int\frac{\partial f(x;\theta)}{\partial\theta}dx\\

=& \underline{\frac{\partial}{\partial\theta}\int f(x;\theta)dx}\\

=& \frac{\partial}{\partial\theta}*1 \\

=& \underline{0}

\end{aligned}

E[∂θ∂ln(f(x;θ)​]=====​∫f(x;θ)1​∗∂θ∂f(x;θ)​∗f(x;θ)dx∫∂θ∂f(x;θ)​dx∂θ∂​∫f(x;θ)dx​∂θ∂​∗10​​

因此有:

∫∂2f(x;θ)∂θ2dx=∂∂θ∫∂f(x;θ)∂θdx=0 \int\frac{\partial^2 f(x;\theta)}{\partial\theta^2}dx = \frac{\partial}{\partial\theta}\int\frac{\partial f(x;\theta)}{\partial\theta}dx = 0 ∫∂θ2∂2f(x;θ)​dx=∂θ∂​∫∂θ∂f(x;θ)​dx=0

由方差定义Var(X)=EX2−(EX)2Var(X)=EX^2 - (EX)^2Var(X)=EX2−(EX)2 及E[∂ln(f(x;θ)∂θ]=0E[\frac{\partial ln(f(x;\theta)}{\partial \theta}]=0E[∂θ∂ln(f(x;θ)​]=0知:

Var[∂ln(f(x;θ)∂θ]=E[(∂ln(f(x;θ)∂θ)2]−{E[∂ln(f(x;θ)∂θ]}2=E[(∂ln(f(x;θ)∂θ)2]

\begin{aligned}

Var[\frac{\partial ln(f(x;\theta)}{\partial \theta}] =& E[(\frac{\partial ln(f(x;\theta)}{\partial \theta})^2] - \{E[\frac{\partial ln(f(x;\theta)}{\partial \theta}] \}^2 \\

=& E[(\frac{\partial ln(f(x;\theta)}{\partial \theta})^2]

\end{aligned}

Var[∂θ∂ln(f(x;θ)​]==​E[(∂θ∂ln(f(x;θ)​)2]−{E[∂θ∂ln(f(x;θ)​]}2E[(∂θ∂ln(f(x;θ)​)2]​

E[∂2ln(f(x;θ)∂θ2]=∫∂∂θ(∂ln(f(x;θ)∂θ)f(x;θ)dx=∫∂∂θ(∂f(x;θ)∂θf(x;θ))f(x;θ)dx=∫∂2f(x;θ)∂θ2∗f(x;θ)−∂f(x;θ)∂θ∗∂f(x;θ)∂θf(x;θ)2f(x;θ)dx=∫∂2f(x;θ)∂θ2dx‾−∫(∂f(x;θ)∂θf(x;θ))2f(x;θ)dx=0−∫(∂lnf(x;θ)∂θ)2f(x;θ)dx=−E(∂lnf(x;θ)∂θ)2

\begin{aligned}

E[\frac{\partial^2 ln(f(x;\theta)}{\partial \theta^2}] &= \int\frac{\partial}{\partial\theta}(\frac{\partial ln(f(x;\theta)}{\partial \theta})f(x;\theta)dx \\

&= \int\frac{\partial}{\partial\theta} \Big( \frac{ \frac{\partial f(x;\theta)}{\partial\theta} }{f(x;\theta)} \Big) f(x;\theta)dx \\

&= \int\frac{\frac{\partial^2f(x;\theta)}{\partial\theta^2}*f(x;\theta) - \frac{\partial f(x;\theta)}{\partial\theta} *\frac{\partial f(x;\theta)}{\partial\theta}}{f(x;\theta)^2}f(x;\theta)dx \\

&= \underline{\int\frac{\partial^2f(x;\theta)}{\partial\theta^2}dx} - \int\Big(\frac{\frac{\partial f(x;\theta)}{\partial\theta}}{f(x;\theta)}\Big)^2f(x;\theta)dx \\

&= 0 - \int\Big(\frac{\partial lnf(x;\theta)}{\partial\theta}\Big)^2f(x;\theta)dx \\

&= - E\Big(\frac{\partial lnf(x;\theta)}{\partial\theta}\Big)^2

\end{aligned}

E[∂θ2∂2ln(f(x;θ)​]​=∫∂θ∂​(∂θ∂ln(f(x;θ)​)f(x;θ)dx=∫∂θ∂​(f(x;θ)∂θ∂f(x;θ)​​)f(x;θ)dx=∫f(x;θ)2∂θ2∂2f(x;θ)​∗f(x;θ)−∂θ∂f(x;θ)​∗∂θ∂f(x;θ)​​f(x;θ)dx=∫∂θ2∂2f(x;θ)​dx​−∫(f(x;θ)∂θ∂f(x;θ)​​)2f(x;θ)dx=0−∫(∂θ∂lnf(x;θ)​)2f(x;θ)dx=−E(∂θ∂lnf(x;θ)​)2​

再结合I(θ)I(\theta)I(θ)定义,得:

I(θ)=E(∂lnf(x;θ)∂θ)2=−E[∂2ln(f(x;θ)∂θ2]=−Var[∂ln(f(x;θ)∂θ]I(\theta) = E\Big(\frac{\partial lnf(x;\theta)}{\partial\theta}\Big)^2 = -E[\frac{\partial^2 ln(f(x;\theta)}{\partial \theta^2}] = -Var[\frac{\partial ln(f(x;\theta)}{\partial \theta}]I(θ)=E(∂θ∂lnf(x;θ)​)2=−E[∂θ2∂2ln(f(x;θ)​]=−Var[∂θ∂ln(f(x;θ)​]

2.3 推导中有意思的点

信息量的计算方式

根据上述性质,信息量的计算可以借助概率密度函数的对数二阶导获取.

一阶导与二阶导的巧妙

一阶导数的平方的期望 等于 二阶导的期望.

2.4 Cramer-Rao应用案例

假设XXX ~ B(1,p)B(1,p)B(1,p),即X服从两点分布. 其概率密度函数为:

f(x;p)={px(1−p)1−x, x=0,10, 其它 0

\begin{aligned}

& p^x(1-p)^{1-x}, \ x=0,1 \\

& 0, \ \ 其它\\

\end{aligned}

\right. \ \ \ 0

f(x;p)={​px(1−p)1−x, x=0,10, 其它​ 0

于是:

∂lnf(x;p)∂p=∂ln[xp(1−x)p]∂p=xp−x1−p

\frac{\partial lnf(x;p)}{\partial p} = \frac{\partial ln[x^p(1-x)^p]}{\partial p} = \frac{x}{p} - \frac{x}{1-p}

∂p∂lnf(x;p)​=∂p∂ln[xp(1−x)p]​=px​−1−px​

∂2lnf(x;p)∂p2=∂[xp−1−x1−p]∂p=−xp2−x(1−p)2

\frac{\partial^2 lnf(x;p)}{\partial p^2} = \frac{\partial [\frac{x}{p} - \frac{1-x}{1-p}]}{\partial p} =- \frac{x}{p^2} - \frac{x}{(1-p)^2}

∂p2∂2lnf(x;p)​=∂p∂[px​−1−p1−x​]​=−p2x​−(1−p)2x​

又因:E(X)=p

I(p)=E[−∂2lnf(x;p)∂p2]=E[xp2+x(1−p)2]=1p(1−p)

I(p) = E[-\frac{\partial^2 lnf(x;p)}{\partial p^2}] = E[ \frac{x}{p^2} + \frac{x}{(1-p)^2}]=\frac{1}{p(1-p)}

I(p)=E[−∂p2∂2lnf(x;p)​]=E[p2x​+(1−p)2x​]=p(1−p)1​

已知XXX的无偏估计为:Xˉ\bar{X}Xˉ 且其方差为:p(1−p)n\frac{p(1-p)}{n}np(1−p)​

nI(p)=p(1−p)n=Var(Xˉ)nI(p) = \frac{p(1-p)}{n} = Var(\bar{X})nI(p)=np(1−p)​=Var(Xˉ)

从而Xˉ\bar{X}Xˉ的方差达到了Cramer-Rao下界.

相关数据

「快手」最火快手歌曲大全
365bet网投官网

「快手」最火快手歌曲大全

⌛ 07-21 👁️‍🗨️ 2869
在线翻译任何语言图片到 中文(简体)
bte365娱乐线

在线翻译任何语言图片到 中文(简体)

⌛ 07-08 👁️‍🗨️ 6711
银狐财富
bte365娱乐线

银狐财富

⌛ 07-04 👁️‍🗨️ 1208
坚硬(堅硬)的意思
bte365娱乐线

坚硬(堅硬)的意思

⌛ 07-02 👁️‍🗨️ 9348
宝可梦大集结:耿鬼上分攻略
bte365娱乐线

宝可梦大集结:耿鬼上分攻略

⌛ 07-23 👁️‍🗨️ 7292