点估计

频率替代法

若从服从 N(μ,2) 的总体中抽样 28 次,有 21 次小于 4:

nAnP(X<4)=Φ(4μ2)

矩估计法

其理论基础是 Khinchine 大数定律。一般只用到最高 2 阶矩

矩估计法的核心 是使用样本的 k 阶矩作为总体的 k 阶矩的估计量。

设总体 X 的分布函数为 F(x;θ1,θ2,,θk),r=1,2,,k,其中待估计的参数为 θ1,,θk,并假设 k 阶原点矩存在,记为:

E(Xr)=μr(θ1,,θk),r=1,2,,k

根据大数定律,写出:

{μ1(θ1,θ2,,θk)=1ni=1nXi,μ2(θ1,θ2,,θk)=1ni=1nXi2,μk(θ1,θ2,,θk)=1ni=1nXik

如果方程组有解:

θ^1=θ^1(X1,X2,,Xn),θ^2=θ^2(X1,X2,,Xn),θ^k=θ^k(X1,X2,,Xn),

这些方程称为 矩估计量,将 X1,,Xn 以具体的样本值代入,称为矩估计值。

例如:

E(X)=μXE(X2)=μ2+σ2X2=1ni=1nXi2

Xf(x)=12θe|x|θ,给出 θ 的矩估计量。

注意到 E(X)=μ=0,因此不能用一阶矩估计。

使用二阶矩:设 YE(1/θ).

E(X2)=+12θe|x|/θx2dx=0+1θe|x|/θx2dx=E(Y2)=(1/(1/θ))2+1/(1/θ)2=2θ2

因此,θ 的矩估计量为:

θ^=121ni=1nXi2

设总体 X 服从 U[θ1,θ2],给出 θ1,θ2 的矩估计量。

E(X)=μ=(θ1+θ2)/21ni=1nXiE(X2)=μ2+σ2=(θ1+θ2)24+(θ2θ1)2121ni=1nXi2

最大似然估计法

一般地,设 X 为离散型随机变量/连续型随机变量,其分布律/概率密度为:

P(X=x)=f(x;θ1,,θk)

X1,X2,Xn 的概率分布为:

P(X=x)=i=1nf(xi;θ)=L(x;θ)

x 确定时,即为 L(θ). 写出方程组:

L(θ)θi=0

设总体 XE(λ)x 是样本值,求 λ 的最大似然估计。

L(λ)=i=1nf(xi;λ)=i=1nλeλxi(xi>0)
L(λ)=nlnλλi=1nxi
dL(λ)dλ=nλi=1nxiλ^MLE=1x

因此,结论和矩估计法一样。


设总体 XN(μ,σ2)x 是样本值,求 μ,σ2 的最大似然估计。

L(μ,σ2)=i=1nf(xi;μ,σ2)=i=1n12πσe(xμ)2/(2σ2)
L(μ,σ2)=nln(2πσ)1/2(ln2π+lnσ2)i=1n(xμ)22σ2
L(μ,σ2)μ=i(xiμ)σ2=0
L(μ,σ2)σ2=n2σ2+i(xiμ)22(σ2)2=0

则:

{μ^MLE=xσ^MLE2=1ni(xix)2

似然函数是严格单调的时候,该怎么处理?极大值/极小值在边界取到。

XU(a,b),求最大似然估计值和最大似然估计量。

f(x;a,b)={1bax(a,b)0otherwise
L(a,b)=i=1n1ba=1(ba)nxi(a,b)

则需要满足 xi 都在 (a,b) 的区间内,使得 ba 最小:

{a^MLE=min{xi}=X(1)b^MLE=max{xi}=X(n)

综合问题:设总体 X 的概率密度为:

f(x;θ)=3x2θ3,0<xθ;0,otherwise.

θ 的矩估计量和最大似然估计量。

μ=0θ3x2θ3xdx=34θE(X)

因此 θ^=43E(X).

L(θ)=i=1n3Xi2θ30<xiθ
L(θ)=3logn+i=1n2logXi3logθ
L(θ)θ=3nθ

因此是单调的,需要 θ 尽量小,但是不能小于 max{Xi},因此

θ^MLE=max{Xi}=X(n)

最大似然估计不变性原理θ^ 是未知参数 θ 的最大似然估计,又设 g(θ)θ 的连续函数,则 g^=g(θ^)g=g(θ) 的最大似然估计。

如果:

σ2^=1ni=1n(XiX)2

σ=σ2,则可以算出 σ 的最大似然估计为:

σ^=1ni=1n(XiX)2

XN(μ,σ2),求 g(μ,σ2)=P(X>3) 的最大似然估计。

如何理解这件事,就是抽取样本 (X1,X2,,Xn),要你给出 P(X>3) 的最大似然估计。

利用:

g(μ,σ2)=P(X>3)=1Φ(3μσ)

显然是关于 μ,σ2 的连续函数,则 g(μ,σ2) 的最大似然估计为:

g^(μ^,σ2^)=1Φ(3XSn)

估计量的评价指标

Q: 我们使用不同的方法(如矩估计法和最大似然估计法)可能得到不同 θ^,如何确定这些 θ^ 的好坏?

和真实的 θ 尽量接近?

无偏性

定义,若有:

E(θ^)=θ

则称 θ^θ无偏估计量,反之如果 E(θ^)θ,则称 ε=E(θ^)θ 为估计量 θ偏差

无偏性是对于一个估计量最基本的要求。


说明 Mk=1ni=1nXikμk=E(Xk) 的无偏估计量。

E(Xik)=E(Xk)=μkE(Mk)=1ni=1nE(Xik)=1ni=1nμk=μk

因此,矩估计是无偏的。当 k=1,我们有:样本均值是总体期望的无偏估计量。当 k=2,我们有:样本的二阶原点矩是总体二阶原点矩的无偏估计量。


判断无偏性:


设总体 XN(μ,σ2),求常数 k,使得 ki=1n|XiX|σ 的无偏估计量。

先计算:

现在知道 Y=XiX,求 |Y| 的数学期望?

E(|Y|)=+|y|12πn1nσey2/(2(n1)σ2/n)dy=22πn1nσ
E(ki=1n|XiX|)=knE(|Y|)=σ

因此,

k=2π2nn1

(X1,X2,Xm) 是总体 X 的样本,XB(n,p),n>1n,求 p2 的无偏估计量。

利用 E(X)=np,D(X)=np(1p)=npnp2.

p2=E(X)D(X)np2^=XS2n

再进行验证:

E(p2^)=E(XS2n)=p2

Q:

E((Xn)2)=p2?

显然不等,因此 (X/n)2 不是 p2 的无偏估计量。其原因是期望只具有线性性。

Q: 能不能用 E(X2) 的表达式进行估计?

E(X2)=D(X)+(E(X))2=np(1p)+(np)2=np+p2(n2n)

因此有:

p2=E(X2)E(X)n2np2^=M2Xn2n

——用不同的方法,也可以得出不同的估计量,它们都是无偏的。


θ^θ 的无偏估计量,g(θ^) 是否为 g(θ) 的无偏估计量?

有效性

θ^1=θ^1(X1,X2,,Xn)θ^2=θ^2(X1,X2,,Xn) 均为 θ无偏估计量(也就是两种不同的估计方法),对于任意 n

D(θ^1)<D(θ^2)

则称 θ^1θ^2 有效。

估计量在无偏的情况下,才能评价有效性。


设总体 XE(1θ),θ>0 为未知参数,(X1,,Xn) 是总体 X 的样本。证明 XnX(1) 都是 θ 的无偏估计量。注意到:

E(X)=1/(1/θ)=θ,X(1)E(nθ),E(X(1))=θn,nE(X(1))=θ

因此都是无偏估计量。

然后比较方差:

D(X)=D(X)n=θ2nD(nX(1))=n2D(X(1))=n2(1/(n/θ))2=θ2

因此 X 更有效。


设总体 X 的概率密度为:

f(x;θ)=3x2θ3,0<xθ;0,otherwise.

我们已经知道 θ^=4/3X,θ^MLE=X(n). 先求得分布函数:

F(x)=x3/θ3,0<xθ;else...FX(n)=x3n/θ3n;else...fX(n)=3nx3n1θ3nE(X(n))=0θx3nθ3nx3n1dx=3n3n+1θ

因此,θ^MLE 不是无偏估计量,需要乘以 (3n+1)/3n 修正。


对于 X 满足 Poisson 分布,判断哪一个最有效:

θ^1=15X1+310X2+12X3θ^2=13X1+13X2+13X3θ^3=13(XiX)2

注意到 θ^3 不是无偏估计量。因此只用比较 θ^1,θ^2.

D(θ^1)=125θ+9100θ+14θ=1950θD(θ^2)=19θ+19θ+19θ=13θ

因此 D(θ^2)<D(θ^1)θ2 更有效。注意到

θ^i=αiXiαi=1

都是无偏估计量,则使得 αi2 尽量小,则估计量更有效。

这告诉我们样本均值在所有的样本加权和中,是最有效的无偏估计量。


这样产生一个问题,D(θ^) 能不能任意小,是否存在下界?

我们有 Rao-Cramer 不等式来说明这个问题

P(X=x;θ)=P(x;θ),θΘ

其中 Θ 是实数轴上开区间。

并且设 (X1,X2,,Xn) 为来自总体 X 的一个样本,如果:

D(θ^) 有以下结果:

D(θ^)1nE[(lnP/f(X;θ)θ)2]D0(θ)>0

D0(θ) 为方差的下界,如果能够找到一个估计量 θ^0,使得 D(θ^0)=D0(θ),则称 θ^0θ 的有效估计量。


设总体 XE(1θ),θ>0,判断 X 是否为 θ 的有效估计量。

我们有:

f(x;θ)=1θex/θ,x>0;0,x0
lnf(x;θ)=lnθx/θlnf(x;θ)θ=1θ+xθ2
E[(lnP/f(X;θ)θ)2]=1θ22E(X)θ3+E(X2)θ4=1θ22θθ3+θ2+θ2θ4=1θ2

因此 D0(θ)=θ2/n,而且 D(X)=θ2/n,因此为有效估计量。

一致性

考虑 nθ^n 在无穷远处的性态。

一致性的定义 序列 {θ^n} 依概率收敛于 θ,即 ε>0,有:

limnP(|θ^nθ|<ε)=1

则称 θ^nθ 的一致估计量。

等价条件limnD(θ^n)=0.

证明,使用 Chebyshev 不等式。

0P(|θ^nE(θ^)|ε)=D(θ^n)ε20


利用样本 k 阶矩是总体 k 阶矩的一致估计量的性质,可以说明:

区间估计

能否给出一个参数区间 [θ1,θ2],使得有 95% 的概率包含真实的 θ?

用正态分布举例:

Xμ1/5N(0,1)P(zα/2<Xμ1/5<zα/2)=1αP(Xz0.05/21/5<μ<X+z0.05/21/5)=0.95

则称区间 (Xz0.05/21/5,X+z0.05/21/5) 为参数 μ 的置信度为 0.95 的置信区间。

——仅仅和 X 有关。

双侧置信区间

如果 θ 是待估计参数,(X1,X2,,Xn) 是来自总体 X 的一个样本,如果对于给定的 α(0<α<1),存在 θ(X1,X2,,Xn)θ(X1,X2,,Xn),使得:

P(θ<θ<θ)=1α

则称区间 (θ,θ)θ 的置信度为 1α 的置信区间。1α 称为置信度。

问题,两端分位数选取 ±zα/2,是否有其它取法?可不可以取 (z2α/3,zα/3)

可以分析,两种取法区间长度分别为:

2zα/215=1.75(z2α/3+zα/3)15=1.775

不对称的区间长度更长。

置信区间的取法不唯一,需要保证置信度的前提下,最小化置信区间长度,也就是最小化平均长度 E(|θθ|).

一般来说,置信度越高,置信区间的长度越长——可靠度和估计的精度是矛盾的,在满足可靠度的前提下,可以增大样本容量,来增加估计的精度。

构造一个样本的函数:

g(X1,X2,;θ)

称为枢轴量含有待估参数,不含有其它未知参数,其分布已知,且分布不依赖待估计参数(我们通常选用标准的三大统计分布,一定不能含有其它未知参数,否则连分位数都不好求……)。

枢轴量一定要会写哦,对于正态总体 N(μ,σ2).

  • 估计 μ.

    • σ2 已知,枢轴量选为 U=Xμσ/nN(0,1).

    • σ2 未知,用样本方差替代总体方差,枢轴量选为 T=XμS/nt(n1).

  • 估计 σ2.

    • μ 已知,枢轴量选为 χ2=i=1n(Xiμ)2σ2χ2(n).

    • μ 未知,用样本均值代替总体均值,枢轴量选为 χ2=i=1n(XiX)2σ2=(n1)S2σ2χ2(n1).

为了强调枢轴量只含有待估计参数,不含有其它未知参数,将待估计参数标红。

给定置信度 1α,确定两个常数 a,b 使得:

P(a<g(X1,X2,;θ)<b)=1α

a<g(X1,X2,;θ)<b,解出 θ,θ.

正态总体 N(μ,σ2) 中均值 μ 的置信区间

如果方差已知,则:

U=Xμσ/nN(0,1)

可以得到置信区间为 (zα/2σ/n,zα/2σ/n)

如果方差 σ2 未知,可以用样本方差 S2 替代,枢轴量为:

T=XμS/nt(n1)

可得置信区间为:

(Xtα/2(n1)Sn,X+tα/2(n1)Sn)

正态总体 N(μ,σ2) 中方差 σ2 的置信区间

μ 已知,取枢轴量:

i=1n(Xiμ)2σ2χ2(n)

则有:

P(χ1α/22(n)<i=1n(Xiμ)2σ2<χα/22(n))=1α

置信区间为:

(i=1n(Xiμ)2χα/22(n),i=1n(Xiμ)2χ1α/22(n))

μ 未知,取枢轴量:

i=1n(XiX)2σ2χ2(n1)

得到方差 σ2 置信度为 1α 的置信区间为:

((n1)S2χα/22(n1),(n1)S2χ1α/22(n1))

判断正确置信区间:

  • 判断选择了什么枢轴量,枢轴量服从什么分布。

  • 满足概率要求,置信度为 1α.

单侧置信区间

对于给定的 α(0<α<1)θ 是待估计参数,(X1,X2,,Xn) 是样本,给出统计量 θ,满足:

P(θ<θ)=1α

则称区间 (,θ) 是置信度为 1α 的单侧置信区间,θ 是单侧置信上界。

给出统计量 θ,满足:

P(θ<θ)=1α

则称区间 (θ,+) 是置信度为 1α 的单侧置信区间,θ 是单侧置信下界。

注意是直接和 θ 进行比较,而不是和枢轴量进行比较。

方差已知,求均值

枢轴量为:

U=Xμσ/nN(0,1)

方差未知,求均值

枢轴量为:

T=XμS/nt(n1)

则:

P(XμS/n<tα(n1))=1α

单侧置信下界为:

Xtα(n1)Sn

均值未知,求方差

枢轴量为:

χ2=(n1)S2σ2χ2(n1)

要使得:

P(χ2<χ1α2(n1))=0.05

则有:

P(σ2<(n1)S2χ1α2(n1))=0.05

单侧置信上界为:

(n1)S2χ1α2(n1)

注意还可以使用公式 Sn2=M2X2,(n1)S2=nSn2.

两个正态分布总体的区间估计

对于两个正态总体 XN(μ1,σ2),YN(μ2,σ2),估计 μ1μ2σ12/σ22.

假设样本 (X1,X2,,Xm)(Y1,Y2,,Yn) 分别来自两个正态总体,并且它们相互独立,则:

XYN(μ1μ2,σ12m+σ22n)

因此,σ12,σ22 已知,包含 μ1μ2 的枢轴量可以取:

U=XY(μ1μ2)σ12m+σ22nN(0,1)

σ12,σ22 未知,但 σ12=σ22,枢轴量可以取:

T=XY(μ1μ2)Sw21m+1nt(m+n2)

其中,Sw2 为加权平均,等于 (m1)S12+(n1)S22m+n2.

σ12,σ22 未知,但是 m=n,可以进行配对,Zi=XiYiN(μ1μ2,σ12+σ22),利用单个正态总体区间估计,有:

Zi(μ1μ2)SZ2/nt(n1)

其中 Z=XY,SZ=1n1i=1n[(XiYi)(XY)]2.

σ12,σ22 未知,但是 m,n 很大,可以使用中心极限定理:

U=XY(μ1μ2)S12m+S22nN(0,1)

在单个正态总体区间估计中,我们用过用样本方差代替总体方差的做法,最后枢轴量服从 t 分布,而 t 分布当 n 很大时又近似为正态分布。因此做一个不怎么严谨的类推,推广到两个正态分布,就可以理解为什么这里近似服从正态分布。

μ1,μ2 未知,求方差比 σ12/σ22 的置信区间 构造枢轴量:

F=S12/σ12S22/σ22=S12σ22S22σ12F(m1,n1)