实数集合中的向量与函数

基本符号

  • R :所有实数的集合
  • Rn :n维实数坐标空间,其中每个元素是一个表示为列向量的向量: u=(u1,,un)=[u1un]=[u1un]

欧几里得范数与内积

  • uRn 欧几里得范数(或 L2 范数)为 u2=uu=(i=1nui2)1/2
  • 两个向量 u,vRn 内积是标量 uv=i=1nuivi
  • u v 之间夹角的余弦为: cosθ=uvu2v2

Lp 范数

  • 对于 p1 uRn Lp 范数为 up=(i=1n|ui|p)1/p
  • 默认范数 u (不带下标)指的是 L2 范数

关键不等式

  • 柯西-施瓦茨不等式:对于任意 u,vRn |uv|uv 当且仅当 u v 线性相关时(即 u=cv ,其中 cR )取等号
  • 三角不等式:对于任意 u,vRn ,有 u+vu+v

欧几里得距离

  • u,vRn 之间的距离为 uv=(i=1n(uivi)2)1/2

实数集合中的收敛性

  • Rn 中的序列 {u(k)} 收敛到向量 uRn (记作 u(k)u ),如果 limku(k)u=0
  • 即对于每个 ε>0 ,存在正整数 N0 ,使得对所有 kN0 ,有 u(k)u<ε

函数的连续性

  • 标量函数 ( f:RnR ):
    • 如果对于每个序列 u(k)u ,都有 limkf(u(k))=f(u) ,则 f u 连续
    • 或者等价地,对于每个 ε>0 ,存在 δ>0 ,使得当 uv<δ 时, |f(u)f(v)|<ε
  • 向量值函数 ( f:RnRm ):
    • 表示为 f(u)=[f1(u)fm(u)] ,其中每个分量 fi:RnR 是标量函数
    • 如果每个 fi u 处连续,则 f u 连续
    • 如果 f 在集合 URn 的每个 uU 处连续,则 f 在集合 U 连续

导数

偏导数与梯度

  • 对于 f:RnR ,关于 ui 偏导数 f(u)ui=limh0f(u1,,ui+h,,un)f(u)h
  • f u 处的梯度汇集了所有偏导数: f(u)=[f(u)u1,,f(u)un]
  • 对于矩阵输入 URn×m ,梯度的结构为 f(U)U=[f(U)u1,1f(U)u1,mf(U)un,1f(U)un,m]

方向导数

  • f u 处沿方向 vRn 方向导数 vf(u)=limh0f(u+hv)f(u)h
  • 关键关系
    • 偏导数是沿坐标轴的方向导数: eif(u)=f(u)ui
    • 对于可微函数 f ,有 vf(u)=vf(u)
    • 根据柯西-施瓦茨不等式,当 vf(u) 时,方向导数取得最大值

雅可比矩阵

  • 对于 f:RnRm ,其中 f(u)=[f1(u),,fm(u)] 雅可比矩阵 Jf(u)=[f1(u)u1f1(u)unfm(u)u1fm(u)un]
  • 转置雅可比记法: f(u)u=Jf(u)

海森矩阵

  • 对于 f:RnR 海森矩阵捕获二阶导数: 2f(u)=[2fu122fu1un2funu12fun2]
  • 对称性:如果二阶导数连续,则 2fuiuj=2fujui (施瓦茨定理)
  • 海森矩阵作为雅可比矩阵 2f(u)=Jf(u)

可微性

  • 函数 f:RnRm u 可微,如果 limvuf(u)f(v)A(uv)uv=0 其中 A=Jf(u) (雅可比矩阵)
  • 对于标量函数 f ,导数为 f(u)
  • 连续可微函数具有连续的偏导数

多元链式法则

复合函数的链式法则

  • 对于 f=gh ,其中 h:RnRk g:RkR ,有 f(u)=Jh(u)g(h(u))
  • 对于向量值函数 g:RkRm Jf(u)=Jg(h(u))Jh(u)

仿射变换的矩阵导数

  • 对于 z=Wu+b y=g(z) ,关于 W 的导数为 yW=yzu

雅可比向量积(JVP)与向量雅可比积(VJP)

  • 对于复合函数 f=hLh1 ,令

    g(u)=h(h1((h1(u))))

    对于每个 =1,,L 。则通过递归应用链式法则,我们得到

    Jf(u)=JhL(gL1(u))JhL1(gL2(u))Jh1(u)

    注意根据雅可比矩阵的定义, Jf(u) 的第 j 列是 m 维向量

    f(u)uj=(f1(u)uj,,fm(u)uj)=Jf(u)ej

    其中 ej 是适当维度的第 j 个单位向量。因此,JVP f(u)/uj 可以通过以下递归计算

    v=Jh(g1(u))v1

    v0=ej g0(u)=u 开始。

  • 另一方面,由于 Jf(u) 的第 i 行是梯度 fi(u) ,我们有

    fi(u)=eiJf(u)=[[[eiJhL(gL1(u))]JhL1(gL2(u))]]Jh1(u)

    即对于每个 i=1,,m VJP fi(u) 可以通过以下递归获得

    v=v1JhL+1(gL(u))

    v0=ei g0(u)=u 开始。


泰勒定理

一元情况

  • 如果函数 f:RR 在开区间 U 上的所有 k 阶导数存在且连续,则称 f U 上是 k 次连续可微
  • R 中的泰勒定理:对于 k 次连续可微的一元实值函数 f 以及 u,vU ,有 f(u)=i=0k(uv)ii!dif(v)dui+O(|uv|k+1)=Pk(u)+O(|uv|k+1) 其中泰勒多项式 Pk(u)=i=0k(uv)ii!dif(v)dui 大 O 记号 O(rk) 表示一个函数,当 r0 时满足 |O(rk)|C|rk| (对于某个常数 C>0 ),表示余项 f(u)Pk(u) 至少以 rk 的速度消失
  • 线性近似 ( k=1 ): f(u)P1(u)=f(v)+(uv)f(v)
  • 二次近似 ( k=2 ): f(u)P2(u)=f(v)+(uv)f(v)+(uv)22f(v)

多元情况

  • 多重指标记法:对于 α=(α1,,αn) |α|=i=1nαi,α!=i=1nαi!,uα=i=1nuiαi
  • 高阶偏导数 Dαf(u)=|α|f(u)u1α1unαn
  • Rn 中的泰勒定理:对于 k 次连续可微的多元实值函数 f 以及 u,vU f(u)=α:|α|kDαf(v)(uv)αα!+O(uvk+1)
  • 关键近似
    • v 附近的线性(一阶)近似 f(u)P1(u)=f(v)+(uv)f(v)
    • v 附近的二次(二阶)近似 f(u)P2(u)=f(v)+(uv)f(v)+12(uv)2f(v)(uv)

雅可比矩阵和海森矩阵的线性近似

  • 对于具有雅可比矩阵 Jf 的可微函数 f:RnRm f(u) v 附近的近似为 f~(u)=f(v)+Jf(v)(uv)
  • 对于具有海森矩阵 2g 的二次可微函数 g:RnR ,梯度 g(u) v 附近的近似为 ~g(u)=g(v)+2g(v)(uv)