费雪信息矩阵
介绍
费雪信息矩阵是用来度量随机变量X所含有的关于自身随机分布函数位置参数$\theta$ 的信息量,最大似然估计中有着重要的度量价值
费雪信息矩阵体现了最大似然估计的参数方差,可以体现似然方法的准确程度,在统计学中有重要的地位,并且在经济学、医学等的相关统计领域应用广泛
定义
对于一个i.i.d.的数据组$X_1,X_2,…,X_n$存在概率密度函数且服从一个概率分布$f(X,\theta)$, $\theta$ 为描述此分布的参数,利用最大似然估计法,当$X_i$已知,但$\theta$未知,得到使得发生所有$X_i$对应的最可能的 $\theta$值
$$
L(\textbf{X})=\prod_{i=1}^nf(X_i;\theta)\
\hat{\theta}=argmax_{\theta}L(\textbf{X})
$$
此时 $\theta$ 的估计值 $\hat{\theta}$ 就是使得 $L(\textbf{X})$ 取得最大值的值
对 $L(X)$ 先取对数,再求一阶偏导,得到其一阶偏导数的矩阵,记为$S(\textbf{X};\theta)$ 。事实上,使得$S=0$ 的 $\theta$ 的值代表了MLE的估计值
$$
S(\textbf{X}; \theta)=\sum_{i=1}^n\frac{\part \log f(X_i;\theta)}{\partial \theta}
$$
$S$ 维度为$n\times 1$, $n$ 为 $\theta$ 的维度 $(S$ 之后会用得到$)$
那我们定义费雪信息矩阵 $I(\theta)$ 为 $S(I,\theta)$ 的二阶中心矩,同时又等于为$L(\textbf{X};\theta)$二阶偏导的期望矩阵
$$
I(\theta)=E[S(\textbf{X};\theta)^2|\theta]
=E[\frac{\part \log L(\textbf{X};\theta)}{\partial\theta}\frac{\part \log L(\textbf{X};\theta)}{\partial\theta^T}|\theta]
=-E[\frac{\part ^2\log L(\textbf{X};\theta)}{\partial\theta\partial\theta^T}|\theta]
$$
(第二个等号的证明用到第一个性质$E[S(\textbf{X};\theta)]=0,$ 可自行验证)
举例正态分布
对于满足正态分布的$n$个 i.i.d. 随机变量
$$
\log L(\mu,\sigma^2)=-\frac{n}{2}\log (\sigma^2)-\frac{n}{2}\log (2\pi)-\frac{1}{2\sigma^2}\sum_{i=1}^n(X_i-\mu)^2
$$
不论直接计算二阶偏导的期望矩阵还是计算一阶偏导生成矩阵的期望,都可以得到
$$
I(\mu,\sigma^2)=\left\lbrack \begin{array}{cc}
\frac{n}{\sigma^2 } & 0\
0 & \frac{n}{2\sigma^4 }
\end{array}\right\rbrack
$$
性质以及用途
在一般情形下
$$
E[S(\textbf{X};\theta)|\theta]=E[\frac{\part }{\part\theta}\log f(\textbf{X};\theta)|\theta]=\int\frac{\frac{\part}{\part\theta } f(x;\theta)}{f(x;\theta)}f(x;\theta)dx=\frac{\part}{\part\theta}\int f(x;\theta)dx=\frac{\part}{\part\theta}1=0
$$
因此添加上该零项之后:
$$
I(\theta)=E[S(\textbf{X};\theta)^2|\theta]-E[S(\textbf{X};\theta)|\theta]^2=Var[S(\textbf{X};\theta)|\theta]
$$
从而费雪信息矩阵在直观上代表了MLE方程的方差,在一定程度上会与解得的$\hat{\theta}$的方差有关。
下面不予以详细说明。代表方差的性质可以用来估计在某一分布下,不同的 $\textbf{X}$ 所得到 $\theta$ 的方差。
事实上,所解得到的 $\hat{\theta}$ 满足如下分布:
$$
\sqrt{nI(\theta_0)}(\hat{\theta}-\theta_0)\overset{D}{\to} N(0,I_p)
$$
其中 $\theta_0$ 为参数的真实值,$I_p$ 为单位矩阵,$I(\theta_0)$中元素的值的大小与解得的$\hat{\theta}$的方差负相关
例如刚才的正态分布,
$$ \left\lbrack \begin{array}{cc} \frac{n}{\sigma } & 0\\ 0 & \frac{n}{\sqrt{2}\sigma^2 } \end{array}\right\rbrack \left(\left\lbrack \begin{array}{c} \hat{\mu} \\ \hat{\sigma^2 } \end{array}\right\rbrack -\left\lbrack \begin{array}{c} \mu \\ \sigma^2 \end{array}\right\rbrack \right)\overset{D}{\to} N\left(0,I_p \right) $$所以
$$ \left\lbrack \begin{array}{c} \hat{\mu} \\ \hat{\sigma^2 } \end{array}\right\rbrack \overset{D}{\to} N\left(\left\lbrack \begin{array}{c} \mu \\ \sigma^2 \end{array}\right\rbrack ,\left\lbrack \begin{array}{cc} \frac{n^2 }{\sigma^2 } & 0\\ 0 & \frac{n^2 }{{2\sigma }^4 } \end{array}\right\rbrack ^{-1}\right) $$那这样根据估计值 $[\hat{\mu},\hat{\sigma}^2]^T$ ,并且用该点处的费雪矩阵近似替换掉真实点处的费雪矩阵,得到对应95%的置信区间
$$ \left(\left\lbrack \begin{array}{c} \hat{\mu} \\ \hat{\sigma^2 } \end{array}\right\rbrack -\left\lbrack \begin{array}{cc} \frac{n}{\hat{\sigma} } & 0\\ 0 & \frac{n}{\sqrt{2}{\hat{\sigma} }^2 } \end{array}\right\rbrack ^{-1}\left\lbrack \begin{array}{c} \Phi^{-1} \left(1-0\ldotp 025\right)\\ \Phi^{-1} \left(1-0\ldotp 025\right) \end{array}\right\rbrack,\left\lbrack \begin{array}{c} \hat{\mu} \\ \hat{\sigma^2 } \end{array}\right\rbrack +\left\lbrack \begin{array}{cc} \frac{n}{\hat{\sigma} } & 0\\ 0 & \frac{n}{\sqrt{2}{\hat{\sigma} }^2 } \end{array}\right\rbrack ^{-1}\left\lbrack \begin{array}{c} \Phi^{-1} \left(1-0\ldotp 025\right)\\ \Phi^{-1} \left(1-0\ldotp 025\right) \end{array}\right\rbrack\right) $$总结
费雪矩阵总体而言是相当有帮助的,对于确定估计值的准确性意义重大,而更多的有用性质尚未陈列,大家可以自行搜索了解
参考:复旦侯燕曦老师金融计量学课件
维基百科
CSDN https://blog.csdn.net/artifact1/article/details/80731417












)相乘都能得到一个对称矩阵,我们在本小节中就将重点关注
这类对称矩阵并细致的讨论他的特征值所具有的重要性质,这些基础知识将会为后续的高级主题打下坚实的基础,希望大家不要错过。
)的相等关系,那么这个矩阵就被称作是一个对称矩阵。通俗的说,一个对称矩阵通过转置操作得到的结果仍然是他自身,即满足:
的运算要求。我们从这里面还可以推断出对阵矩阵S\所蕴含的一个前提条件:他必须是一个方阵。
)的形式,其中对角矩阵
的各元素一定均由实数构成,并且最为关键的一点是任何一个对称矩阵分解得到的特征向量矩阵都可以是标准正交矩阵。
。
),对此我们再进一步,就可以将其整理成
)的漂亮形式。这恰恰说明了,我们此时获取的特征向量之间是满足标准正交关系的,我们可以将X\换记作正交矩阵的符号Q\,同时结合
)这个基本特性,我们就可以把实对称矩阵的对角化过程变换成更好的形式,写作:
。
我们可以得知,显然,特征向量是一个方向上的向量集合,不一定非得满足长度为1的要求,但是我们仍然可以通过直觉感受到一个事实,那就是一旦把特征向量都设置为单位向量,那么会在实践的过程中收获很多简化和美好。这个在后面的几节内容里,我们会不断的感受到由此带来的巨大好处。
的形式, 我们进一步将等式
)进行展开,可以得到
的完整相乘形式。
相乘所得到的结果项都是一个秩为1并且与矩阵S\维数相等的方阵。同时他还满足方阵与方阵之间相乘的结果为0这个性质,也可以广义的理解为方阵之间满足“正交”。
然后相加的结果。
的秩
。这个结论可以从线性方程组消元化简的角度去思考,这样大家就会很容易明白了。
的秩之间的关系:
)是同解方程,那么他们就拥有相同的零空间,由于A\和
的解。
),即方程
)当然也一定能够成立,我们对这个等式稍微整理一下,就可以得到
和方程
对称矩阵的正定性描述
)入手进行分析,我们将等式两边同时乘以向量
),得到
)这个新等式,由于特征向量必须非零,所以必然存在有
)的不等关系。换句话说,此时等式
)左侧的正负性就决定了右侧
的正负性。
)的计算结果恒为正(或非负),这在
,
)恒成立。此时,对称矩阵
,因此矩阵是正定的。
),我们将等式两边同时乘以矩阵
)的相等关系,我们稍作整理就可以得到一个漂亮的等式:
),于是我们看出,矩阵
。
)满足等式成立,两边同时乘以矩阵A\,可以得到:
)的相等关系,也是对其稍作整理,就有:
),这个过程同样说明了,如果
)
)
