• 充分统计量,因子分解定理与Rao-Blackwewll定理


    充分统计量

    充分统计量的一种定义是:数据为 X n X^n Xn,如果给定充分统计量的一组取值 T ( X n = x n ) = t T(X^n=x^n)=t T(Xn=xn)=t,能够使得数据的分布不依赖于参数 θ \theta θ,则 T T T是充分统计量。

    粗略的说,如果已经知道 T ( x n ) T(x^n) T(xn)就可以计算似然函数,则该统计量是充分的。

    例子

    X = ( X 1 , X 2 ) ∼ B e r n o u l l i ( p ) X=(X_1, X_2) \sim Bernoulli(p) X=(X1,X2)Bernoulli(p),充分统计量是 T = X 1 + X 2 T=X_1+X_2 T=X1+X2。原因是给定任意T的取值,都可以知道数据的分布,而不依赖于参数 p p p

    T = 0 T=0 T=0时,两个数据取0的概率为1,其他为0。 T = 1 T=1 T=1,时,两者取1另一个取0的概率各自为0.5,其他情况为0。当 T = 2 T=2 T=2时,两者取1的概率为1,其他情况为0。

    倘若统计量 T = X 1 T=X_1 T=X1,则不是充分统计量。例如当 T = 0 T=0 T=0时,只知道 X 1 X_1 X1取1的概率为0,而 X 2 X_2 X2取1的概率是参数 p p p

    因子分解定理

    T T T是充分统计量当且仅当存在 g ( t , θ ) g(t,\theta) g(t,θ) h ( x ) h(x) h(x)使得: f ( x n ; θ ) = g ( t ( x n ) , θ ) h ( x n ) f(x^n;\theta)=g(t(x^n),\theta)h(x^n) f(xn;θ)=g(t(xn),θ)h(xn).
    将此定理应用于上面的例子,首先把似然函数写出来:
    f ( X ; θ ) = f ( x 1 ; θ ) f ( x 2 ; θ ) = θ x 1 + x 2 ( 1 − θ ) 2 − x 1 − x 2

    f(X;θ)=f(x1;θ)f(x2;θ)=θx1+x2(1θ)2x1x2" role="presentation" style="position: relative;">f(X;θ)=f(x1;θ)f(x2;θ)=θx1+x2(1θ)2x1x2
    f(X;θ)=f(x1;θ)f(x2;θ)=θx1+x2(1θ)2x1x2令统计量 T = X 1 + X 2 T=X_1+X_2 T=X1+X2,则成为 f ( X ; θ ) = θ t ( 1 − θ ) 2 − t f(X;\theta)=\theta^{t}(1-\theta)^{2-t} f(X;θ)=θt(1θ)2t此时, g ( t ( x n ) , θ ) = θ t ( 1 − θ ) 2 − t g(t(x^n),\theta)=\theta^{t}(1-\theta)^{2-t} g(t(xn),θ)=θt(1θ)2t h ( x ) = 1 h(x)=1 h(x)=1。因此, T T T是充分统计量。

    Rao-Blackwell定理

    这个定理指出,一个估计应该依赖于充分统计量,否则从MSE的角度上可以被改进。

    θ ^ \hat{\theta} θ^为估计, T T T为充分统计量。定义估计
    θ n e w = E [ θ ^ ∣ T ] \theta_{new}=E[\hat{\theta}|T] θnew=E[θ^T]则对任意 θ \theta θ,有 R ( θ , θ n ) ≤ R ( θ , θ ^ ) R(\theta,\theta_n) \le R(\theta, \hat{\theta}) R(θ,θn)R(θ,θ^).

    应用于抛两枚硬币的问题,首先假设 θ ^ = X 1 \hat{\theta}=X_1 θ^=X1 E [ X 1 ] = p E[X_1]=p E[X1]=p是一个无偏估计。定义充分统计量 T = X 1 + X 2 T=X_1+X_2 T=X1+X2,则由Rao-Blackwell定理就可以得到:
    θ n = E [ θ ^ ∣ T ] = 0 × P ( X = 0 ∣ T = t ) + 1 × P ( X = 1 ∣ T = t ) = P ( X 1 = 1 ∣ T = t ) = P ( X 1 = 1 , T = t ) P ( T = t ) = P ( X 1 = 1 , X 2 = t − 1 ) P ( T = t ) = P ( X 1 = 1 ) P ( X 2 = t − 1 ) P ( X 1 + X 2 = t ) = p ⋅ C 1 t − 1 p t − 1 ( 1 − p ) 1 − ( t − 1 ) C 2 t p t ( 1 − p ) 2 − t = C 1 t − 1 C 2 t = t 2 = X 1 + X 2 2

    θn=E[θ^|T]=0×P(X=0|T=t)+1×P(X=1|T=t)=P(X1=1|T=t)=P(X1=1,T=t)P(T=t)=P(X1=1,X2=t1)P(T=t)=P(X1=1)P(X2=t1)P(X1+X2=t)=pC1t1pt1(1p)1(t1)C2tpt(1p)2t=C1t1C2t=t2=X1+X22" role="presentation" style="position: relative;">θn=E[θ^|T]=0×P(X=0|T=t)+1×P(X=1|T=t)=P(X1=1|T=t)=P(X1=1,T=t)P(T=t)=P(X1=1,X2=t1)P(T=t)=P(X1=1)P(X2=t1)P(X1+X2=t)=pC1t1pt1(1p)1(t1)C2tpt(1p)2t=C1t1C2t=t2=X1+X22
    θn=E[θ^T]=0×P(X=0∣T=t)+1×P(X=1∣T=t)=P(X1=1∣T=t)=P(T=t)P(X1=1,T=t)=P(T=t)P(X1=1,X2=t1)=P(X1+X2=t)P(X1=1)P(X2=t1)=C2tpt(1p)2tpC1t1pt1(1p)1(t1)=C2tC1t1=2t=2X1+X2得到了一个估计 θ n = X 1 + X 2 2 \theta_n=\frac{X_1+X_2}{2} θn=2X1+X2,其MSE会比 θ ^ = X 1 \hat{\theta}=X_1 θ^=X1更小。

  • 相关阅读:
    Android Gradle插件与Gradle的区别
    Mongodb实验二——分片集群搭建
    SQL sever中的存储过程
    【Flutter】vscode快速估计插件 Flutter Intl
    【C++ 构造函数和析构函数:对象生命周期的关键】
    C# 9.0语法标准 “函数指针” 深度解读!
    简单排序算法、二分法以及对数器
    python基于PHP+MySQL的个人博客系统毕设
    Dynamic Bone ——Unity 3D动态骨骼插件
    【MQTT】基于阿里云物联网平台实现两设备间相互订阅及发布消息
  • 原文地址:https://blog.csdn.net/RSstudent/article/details/126768192