今天在看一个问题的时候,无意间看到需要证明:
E[∂2ln(f(x:θ)∂θ2]=-E{(∂lnf(x;θ)∂θ)2}E[\frac{\partial^2 ln(f(x:\theta)}{\partial \theta^2}] = \textbf{-}E\{(\frac{\partial lnf(x;\theta)}{ \partial\theta})^2\}E[∂θ2∂2ln(f(x:θ)]=-E{(∂θ∂lnf(x;θ))2}
结果查着查着,就查到了Fisher信息量的问题,顺便手推了一遍公式,感觉后面会忘记,抽点时间留手稿,打电子版是真浪费时间,每次都做很久的心里暗示(捂脸哭)。
备注:下面均是个人拙见,仅供参考。
一、评价统计量的三大标准
我们知道点估计一般主要包含:矩估计和极大似然估计。
矩估计主要思想是:如果总体中有 K个未知参数,可以用前 K阶样本矩估计相应的前k阶总体矩,然后利用未知参数与总体矩的函数关系,求出参数的估计量;
极大似然估计主要思想是已经发生的样本出现概率最大化。
对于已经获取的多个统计量,如何评价其参数估计是好还是坏,该如何选择呢?这里就要用到评价统计量的三大标准:无偏性、有效性、相合性(或一致性)。
下面简单介绍三大性质的主要内容:
无偏性
在统计学上称没有系统性偏差的性质为无偏性。严格数学定义为:
设θ^=θ^(x1,x2,…,xn)\hat\theta=\hat\theta(x_1, x_2, \dots, x_n)θ^=θ^(x1,x2,…,xn)为母体XXX的概率密度函数{f(x,θ):θ∈Θ}\{f(x, \theta):\theta\in\Theta\}{f(x,θ):θ∈Θ}的未知参数θ\thetaθ的一个估计量。若对于一切θ∈Θ\theta\in\Thetaθ∈Θ,关系式:
Eθ[θ^(x1,x2,…,xn)]=θE_\theta[\hat\theta(x_1, x_2, \dots, x_n)] = \thetaEθ[θ^(x1,x2,…,xn)]=θ
成立,则称θ^(x1,x2,…,xn)\hat\theta(x_1, x_2, \dots, x_n)θ^(x1,x2,…,xn)为θ\thetaθ的无偏估计.
备注:这里角标θ\thetaθ不是对其求期望,可以理解为此处θ\thetaθ为常量,求完期望后,只剩含θ\thetaθ的数值.有效性
我们知道,方差是用来形容随机变量落在其均值的领域内的离散/集中程度的一个度量,一个好的统计量不仅应该是待估计参数θ\thetaθ的无偏估计,而且还应该有尽可能小的方差。因此,哪一个统计量的方差小,那么哪一个统计量较好。严格数学定义为:
若参数θ\thetaθ有两个无偏估计θ^1\hat\theta_1θ^1和θ^2\hat\theta_2θ^2,他们的方差对一切θ∈Θ\theta\in\Thetaθ∈Θ有D(θ^1)≤D(θ^2)D(\hat\theta_1)\leq D(\hat\theta_2)D(θ^1)≤D(θ^2),称估计θ^1\hat\theta_1θ^1比估计θ^2\hat\theta_2θ^2有效.相合性
简单来说,随着样本量增大,估计值与真值很接近的可能性非常大,即估计值与真值之差小于任何数ϵ(>0)\epsilon(>0)ϵ(>0)依概率趋于1. 严格数学定义为:
设母体XXX具有概率密度函数f(x;θ),θ∈Θf(x; \theta), \theta\in\Thetaf(x;θ),θ∈Θ为未知参数. θ^n=θ^n(x1,x2,…,xn)\hat\theta_n=\hat\theta_n(x_1, x_2, \dots, x_n)θ^n=θ^n(x1,x2,…,xn)为θ\thetaθ的一个估计量,nnn为子样容量. 若为任意一个ϵ>0\epsilon>0ϵ>0,有
limn→+∞P(∣θ^n−θ∣≥ϵ)=0\lim_{n \to +\infty}P(|\hat\theta_n - \theta|\geq\epsilon)=0n→+∞limP(∣θ^n−θ∣≥ϵ)=0
则称θ^n\hat\theta_nθ^n为参数θ\thetaθ的相合估计.
本文我们主要想讨论Fisher信息量及Cramer-Rao不等式,这里就与上面提到的有效性有关系。 提到有效性,我们自然有这样一个想法,就是希望估计量的方差愈小愈好. 那么能够小到什么程度呢?也就是有没有下界?什么条件下方差下界存在?下面就讨论建立一个方差下界的Cramer-Rao不等式.
二、Cramer-Rao不等式
2.1 Cramer-Rao不等式(数学定义)
设x1,x2,…,xnx_1, x_2, \dots,x_nx1,x2,…,xn为取自具有概率密度函数f(x;θ),θ∈Θ=θ:a<θ (1) 集合{x:f(x;θ)>0}\{x: f(x;\theta)>0\}{x:f(x;θ)>0}与θ\thetaθ无关; (2) g′(θ)g^{'}(\theta)g′(θ)与∂f(x;θ)∂θ\frac{\partial f(x;\theta)}{\partial\theta}∂θ∂f(x;θ)存在,且对一切θ∈Θ\theta\in\Thetaθ∈Θ, ∂∂θ∫f(x;θ)dx=∫∂f(x;θ)∂θdx\frac{\partial}{\partial\theta}\int f(x;\theta)dx = \int\frac{\partial f(x; \theta)}{\partial\theta}dx∂θ∂∫f(x;θ)dx=∫∂θ∂f(x;θ)dx ∂∂θ∫∫ ⋯∫μ(x1,x2,…,xn)f(x1;θ)f(x2;θ)…f(xn;θ)dx1dx2…dxn=∫∫ ⋯∫μ(x1,x2,…,xn)∂∂θ[∏i=1nf(xi;θ)]dx1dx2…dxn\frac{\partial}{\partial\theta}\int\int\dots\int \mu(x_1, x_2, \dots,x_n)f(x_1;\theta)f(x_2;\theta)\dots f(x_n;\theta)dx_1dx_2\dots dx_n = \\ \int\int\dots\int\mu(x_1, x_2, \dots,x_n)\frac{\partial}{\partial\theta}[\prod_{i=1}^nf(x_i;\theta)]dx_1dx_2\dots dx_n∂θ∂∫∫⋯∫μ(x1,x2,…,xn)f(x1;θ)f(x2;θ)…f(xn;θ)dx1dx2…dxn=∫∫⋯∫μ(x1,x2,…,xn)∂θ∂[i=1∏nf(xi;θ)]dx1dx2…dxn (3) 令 I(θ)=Eθ{(∂lnf(x;θ)∂θ)2}I(\theta) = E_\theta\{(\frac{\partial lnf(x;\theta)}{ \partial\theta})^2\}I(θ)=Eθ{(∂θ∂lnf(x;θ))2} 成为Fisher信息量,则 Dθη≥[g′(θ)]2nI(θ)D_\theta\eta\geq\frac{[g^{'}(\theta)]^2}{nI(\theta)}Dθη≥nI(θ)[g′(θ)]2 且其等式成立的充要条件为存在一个不依赖于x1,x2,…,xnx_1,x_2,\dots,x_nx1,x2,…,xn,但可能依赖于θ\thetaθ的KKK,使得等式 ∑i=1n∂lnf(xi;θ)∂θ=K(η−g(θ))\sum_{i=1}^{n}\frac{\partial lnf(x_i;\theta)}{ \partial\theta} = K(\eta - g(\theta))i=1∑n∂θ∂lnf(xi;θ)=K(η−g(θ)) 以概率1成立. 特别地当g(θ)=θg(\theta)=\thetag(θ)=θ时,不等式化为 Dθη≥1nI(θ)D_\theta\eta\geq\frac{1}{nI(\theta)}Dθη≥nI(θ)1 证明: 后续待补充 2.2 证明:信息量等于二阶导的期望 这个重要性质,其实是为了方便计算信息量I(θ)]I(\theta)]I(θ)]而证明出来的。数学定义为: 若∂∂θ∫∂f(x;θ)∂θdx=∫∂2f(x;θ)∂θ2dx\frac{\partial}{\partial\theta}\int\frac{\partial f(x;\theta)}{\partial\theta}dx = \int\frac{\partial^2 f(x;\theta)}{\partial\theta^2}dx∂θ∂∫∂θ∂f(x;θ)dx=∫∂θ2∂2f(x;θ)dx 则: I(θ)=−E[∂2ln(f(x;θ)∂θ2] I(\theta) = -E[\frac{\partial^2 ln(f(x;\theta)}{\partial \theta^2}] I(θ)=−E[∂θ2∂2ln(f(x;θ)] 证明: E[∂ln(f(x;θ)∂θ]=∫1f(x;θ)∗∂f(x;θ)∂θ∗f(x;θ)dx=∫∂f(x;θ)∂θdx=∂∂θ∫f(x;θ)dx‾=∂∂θ∗1=0‾ \begin{aligned} E[\frac{\partial ln(f(x;\theta)}{\partial \theta}] =& \int\frac{1}{f(x;\theta)}*\frac{\partial f(x;\theta)}{\partial\theta}*f(x;\theta)dx\\ =& \int\frac{\partial f(x;\theta)}{\partial\theta}dx\\ =& \underline{\frac{\partial}{\partial\theta}\int f(x;\theta)dx}\\ =& \frac{\partial}{\partial\theta}*1 \\ =& \underline{0} \end{aligned} E[∂θ∂ln(f(x;θ)]=====∫f(x;θ)1∗∂θ∂f(x;θ)∗f(x;θ)dx∫∂θ∂f(x;θ)dx∂θ∂∫f(x;θ)dx∂θ∂∗10 因此有: ∫∂2f(x;θ)∂θ2dx=∂∂θ∫∂f(x;θ)∂θdx=0 \int\frac{\partial^2 f(x;\theta)}{\partial\theta^2}dx = \frac{\partial}{\partial\theta}\int\frac{\partial f(x;\theta)}{\partial\theta}dx = 0 ∫∂θ2∂2f(x;θ)dx=∂θ∂∫∂θ∂f(x;θ)dx=0 由方差定义Var(X)=EX2−(EX)2Var(X)=EX^2 - (EX)^2Var(X)=EX2−(EX)2 及E[∂ln(f(x;θ)∂θ]=0E[\frac{\partial ln(f(x;\theta)}{\partial \theta}]=0E[∂θ∂ln(f(x;θ)]=0知: Var[∂ln(f(x;θ)∂θ]=E[(∂ln(f(x;θ)∂θ)2]−{E[∂ln(f(x;θ)∂θ]}2=E[(∂ln(f(x;θ)∂θ)2] \begin{aligned} Var[\frac{\partial ln(f(x;\theta)}{\partial \theta}] =& E[(\frac{\partial ln(f(x;\theta)}{\partial \theta})^2] - \{E[\frac{\partial ln(f(x;\theta)}{\partial \theta}] \}^2 \\ =& E[(\frac{\partial ln(f(x;\theta)}{\partial \theta})^2] \end{aligned} Var[∂θ∂ln(f(x;θ)]==E[(∂θ∂ln(f(x;θ))2]−{E[∂θ∂ln(f(x;θ)]}2E[(∂θ∂ln(f(x;θ))2] 又 E[∂2ln(f(x;θ)∂θ2]=∫∂∂θ(∂ln(f(x;θ)∂θ)f(x;θ)dx=∫∂∂θ(∂f(x;θ)∂θf(x;θ))f(x;θ)dx=∫∂2f(x;θ)∂θ2∗f(x;θ)−∂f(x;θ)∂θ∗∂f(x;θ)∂θf(x;θ)2f(x;θ)dx=∫∂2f(x;θ)∂θ2dx‾−∫(∂f(x;θ)∂θf(x;θ))2f(x;θ)dx=0−∫(∂lnf(x;θ)∂θ)2f(x;θ)dx=−E(∂lnf(x;θ)∂θ)2 \begin{aligned} E[\frac{\partial^2 ln(f(x;\theta)}{\partial \theta^2}] &= \int\frac{\partial}{\partial\theta}(\frac{\partial ln(f(x;\theta)}{\partial \theta})f(x;\theta)dx \\ &= \int\frac{\partial}{\partial\theta} \Big( \frac{ \frac{\partial f(x;\theta)}{\partial\theta} }{f(x;\theta)} \Big) f(x;\theta)dx \\ &= \int\frac{\frac{\partial^2f(x;\theta)}{\partial\theta^2}*f(x;\theta) - \frac{\partial f(x;\theta)}{\partial\theta} *\frac{\partial f(x;\theta)}{\partial\theta}}{f(x;\theta)^2}f(x;\theta)dx \\ &= \underline{\int\frac{\partial^2f(x;\theta)}{\partial\theta^2}dx} - \int\Big(\frac{\frac{\partial f(x;\theta)}{\partial\theta}}{f(x;\theta)}\Big)^2f(x;\theta)dx \\ &= 0 - \int\Big(\frac{\partial lnf(x;\theta)}{\partial\theta}\Big)^2f(x;\theta)dx \\ &= - E\Big(\frac{\partial lnf(x;\theta)}{\partial\theta}\Big)^2 \end{aligned} E[∂θ2∂2ln(f(x;θ)]=∫∂θ∂(∂θ∂ln(f(x;θ))f(x;θ)dx=∫∂θ∂(f(x;θ)∂θ∂f(x;θ))f(x;θ)dx=∫f(x;θ)2∂θ2∂2f(x;θ)∗f(x;θ)−∂θ∂f(x;θ)∗∂θ∂f(x;θ)f(x;θ)dx=∫∂θ2∂2f(x;θ)dx−∫(f(x;θ)∂θ∂f(x;θ))2f(x;θ)dx=0−∫(∂θ∂lnf(x;θ))2f(x;θ)dx=−E(∂θ∂lnf(x;θ))2 再结合I(θ)I(\theta)I(θ)定义,得: I(θ)=E(∂lnf(x;θ)∂θ)2=−E[∂2ln(f(x;θ)∂θ2]=−Var[∂ln(f(x;θ)∂θ]I(\theta) = E\Big(\frac{\partial lnf(x;\theta)}{\partial\theta}\Big)^2 = -E[\frac{\partial^2 ln(f(x;\theta)}{\partial \theta^2}] = -Var[\frac{\partial ln(f(x;\theta)}{\partial \theta}]I(θ)=E(∂θ∂lnf(x;θ))2=−E[∂θ2∂2ln(f(x;θ)]=−Var[∂θ∂ln(f(x;θ)] 2.3 推导中有意思的点 信息量的计算方式 根据上述性质,信息量的计算可以借助概率密度函数的对数二阶导获取. 一阶导与二阶导的巧妙 一阶导数的平方的期望 等于 二阶导的期望. 2.4 Cramer-Rao应用案例 假设XXX ~ B(1,p)B(1,p)B(1,p),即X服从两点分布. 其概率密度函数为: f(x;p)={px(1−p)1−x, x=0,10, 其它 0
\begin{aligned} & p^x(1-p)^{1-x}, \ x=0,1 \\ & 0, \ \ 其它\\ \end{aligned} \right. \ \ \ 0
f(x;p)={px(1−p)1−x, x=0,10, 其它 0
于是: ∂lnf(x;p)∂p=∂ln[xp(1−x)p]∂p=xp−x1−p \frac{\partial lnf(x;p)}{\partial p} = \frac{\partial ln[x^p(1-x)^p]}{\partial p} = \frac{x}{p} - \frac{x}{1-p} ∂p∂lnf(x;p)=∂p∂ln[xp(1−x)p]=px−1−px ∂2lnf(x;p)∂p2=∂[xp−1−x1−p]∂p=−xp2−x(1−p)2 \frac{\partial^2 lnf(x;p)}{\partial p^2} = \frac{\partial [\frac{x}{p} - \frac{1-x}{1-p}]}{\partial p} =- \frac{x}{p^2} - \frac{x}{(1-p)^2} ∂p2∂2lnf(x;p)=∂p∂[px−1−p1−x]=−p2x−(1−p)2x 又因:E(X)=p I(p)=E[−∂2lnf(x;p)∂p2]=E[xp2+x(1−p)2]=1p(1−p) I(p) = E[-\frac{\partial^2 lnf(x;p)}{\partial p^2}] = E[ \frac{x}{p^2} + \frac{x}{(1-p)^2}]=\frac{1}{p(1-p)} I(p)=E[−∂p2∂2lnf(x;p)]=E[p2x+(1−p)2x]=p(1−p)1 已知XXX的无偏估计为:Xˉ\bar{X}Xˉ 且其方差为:p(1−p)n\frac{p(1-p)}{n}np(1−p) 又 nI(p)=p(1−p)n=Var(Xˉ)nI(p) = \frac{p(1-p)}{n} = Var(\bar{X})nI(p)=np(1−p)=Var(Xˉ) 从而Xˉ\bar{X}Xˉ的方差达到了Cramer-Rao下界.