随机变量

集合论基础

  • 样本空间 ( Ω ):实验所有可能结果的集合
  • 事件 Ω 的子集(例如, AΩ
  • σ -代数 ( F ):对补集、可数并集和交集封闭的事件集合
  • 随机变量:如果对所有 xR ,都有 {ωΩ:X(ω)x}F ,则函数 X:ΩR 是随机变量

离散随机变量

  • 定义 X 取可数个值(例如,整数),记为 XR
  • 概率质量函数(PMF) pX(x)=P(X=x) ,对于 xX
  • 示例
    • 伯努利分布: pX(1)=p pX(0)=1p
    • 二项分布: pX(k)=(nk)pk(1p)nk

连续随机变量

  • 定义 X 取不可数无穷多个值(例如,实数)
  • 概率密度函数(PDF) fX(x) 满足 P(aXb)=abfX(x)dx
  • 示例
    • 均匀分布: fX(x)=1ba ,对于 x[a,b]
    • 正态分布: fX(x)=1σ2πe(xμ)22σ2 xR

累积分布函数(CDF)

  • 定义 FX(x)=P(Xx) ,对于任何随机变量 X (离散或连续)
  • 性质
    • 单调不减:对所有 xx ,有 FX(x)FX(x)
    • 右连续: limyxFX(y)=FX(x) yx 表示 y 从右边趋近 x (即 yx+
    • limxFX(x)=0 limxFX(x)=1
    • 对于离散 X FX(x)=kxpX(k)
    • 对于连续 X FX(x)=xfX(t)dt

期望

  • 定义
    • 离散: E[X]=xxpX(x)
    • 连续: E[X]=xfX(x)dx
  • 线性性 E[aX+b]=aE[X]+b
  • 无意识统计学家法则(LOTUS):对于任意函数 g:RR
    • 离散: E[g(X)]=xg(x)pX(x)
    • 连续: E[g(X)]=g(x)fX(x)dx

方差与标准差

  • 方差 Var(X)=E[(XE[X])2]=E[X2](E[X])2
  • 标准差 σX=Var(X)
  • 性质
    • Var(aX+b)=a2Var(X)
    • Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)

样本均值与样本方差估计量

  • 样本均值 X¯n=1ni=1nXi
    • 无偏: E[X¯n]=μ
  • 样本方差 Sn2=1n1i=1n(XiX¯n)2
    • 无偏: E[Sn2]=σ2

置信区间(CI)

  • 定义:参数(例如 μ )的区间估计,具有置信水平 (1α)
  • 对于 μ σ 已知):置信区间为 X¯n±zα/2σn=(X¯nzα/2σn,X¯n+zα/2σn) 其中 zα/2 N(0,1) (1α/2) 分位数
  • 对于 μ σ 未知):置信区间为 X¯n±tα/2,n1Snn:=(X¯ntα/2,n1Snn,X¯n+tα/2,n1Snn) 其中 tα/2,n1 是自由度为 n1 t 分布的分位数

散度与熵

离散分布的 KL 散度

  • 定义:对于支撑集为 Xp Xq 的离散分布 p(x) q(x) DKL(pq)=xXpp(x)logp(x)q(x)
    • 如果 XpXq ,则 DKL(pq)=+
  • 分解 DKL(pq)=H(p,q)H(p) 其中:
    • 交叉熵 H(p,q)=xXp(x)logq(x)
    • H(p)=xXp(x)logp(x)
  • 二元情况
    • 熵: H(p)=(p1logp1+(1p1)log(1p1))
    • 交叉熵: H(p,q)=(p1logq1+(1p1)log(1q1))
  • 性质
    • DKL(pq)0 ,当且仅当 p=q 时取等号
    • 不对称:一般情况下, DKL(pq)DKL(qp)

连续分布的 KL 散度

  • 定义:对于连续密度 p(x) q(x) DKL(pq)=Xpp(x)logp(x)q(x)dx

Jensen-Shannon 散度

  • 定义 p(x) q(x) 的对称散度,支撑集为 Xp Xq JSD(pq)=12(DKL(pm)+DKL(qm)) 其中 m(x)=12(p(x)+q(x))
    • JSD(pq) 是有效的度量

多元正态分布的计算

多元正态密度

  • PDF:对于 xRm ,均值为 μ ,协方差为 Σ N(x;μ,Σ)=1(detΣ)1/2(2π)m/2e12(xμ)Σ1(xμ)
  • 对数密度 logN(x;μ,Σ)=12(xμ)Σ1(xμ)m2log(2π)12log(detΣ)

多元正态分布的 KL 散度

  • 一般情况:对于 Nμ1,Σ1 Nμ2,Σ2 DKL(Nμ1,Σ1Nμ2,Σ2)=12((μ1μ2)Σ21(μ1μ2)m+tr(Σ21Σ1)+logdetΣ2detΣ1)
  • 特殊情况
    • Σ2=σ22I 时:

      DKL(Nμ1,Σ1Nμ2,σ22I)=12σ22μ1μ22+tr(Σ1)2σ22m2+mlogσ222logdetΣ12
    • 当标准正态分布( μ2=0 Σ2=I )时:

      DKL(Nμ1,Σ1N0,I)=12μ12+tr(Σ1)2m2logdetΣ12