机器学习数学基础(一)
实数集合中的向量与函数
基本符号
-
:所有实数的集合 -
:n维实数坐标空间,其中每个元素是一个表示为列向量的向量:
欧几里得范数与内积
-
的欧几里得范数(或 范数)为 - 两个向量
的内积是标量 -
和 之间夹角的余弦为:
Lp 范数
- 对于
, 的 范数为 - 默认范数
(不带下标)指的是 范数
关键不等式
- 柯西-施瓦茨不等式:对于任意
, 当且仅当 和 线性相关时(即 ,其中 )取等号 - 三角不等式:对于任意
,有
欧几里得距离
-
之间的距离为
实数集合中的收敛性
-
中的序列 收敛到向量 (记作 ),如果 - 即对于每个
,存在正整数 ,使得对所有 ,有
函数的连续性
- 标量函数 (
):- 如果对于每个序列
,都有 ,则 在 处连续 - 或者等价地,对于每个
,存在 ,使得当 时,
- 如果对于每个序列
- 向量值函数 (
):- 表示为
,其中每个分量 是标量函数 - 如果每个
在 处连续,则 在 处连续 - 如果
在集合 的每个 处连续,则 在集合 上连续
- 表示为
导数
偏导数与梯度
- 对于
,关于 的偏导数为 -
在 处的梯度汇集了所有偏导数: - 对于矩阵输入
,梯度的结构为
方向导数
-
在 处沿方向 的方向导数为 - 关键关系:
- 偏导数是沿坐标轴的方向导数:
- 对于可微函数
,有 - 根据柯西-施瓦茨不等式,当
时,方向导数取得最大值
- 偏导数是沿坐标轴的方向导数:
雅可比矩阵
- 对于
,其中 ,雅可比矩阵为 - 转置雅可比记法:
海森矩阵
- 对于
,海森矩阵捕获二阶导数: - 对称性:如果二阶导数连续,则
(施瓦茨定理) - 海森矩阵作为雅可比矩阵:
可微性
- 函数
在 处可微,如果 其中 (雅可比矩阵) - 对于标量函数
,导数为 - 连续可微函数具有连续的偏导数
多元链式法则
复合函数的链式法则
- 对于
,其中 且 ,有 - 对于向量值函数
,
仿射变换的矩阵导数
- 对于
且 ,关于 的导数为
雅可比向量积(JVP)与向量雅可比积(VJP)
-
对于复合函数
,令对于每个
。则通过递归应用链式法则,我们得到注意根据雅可比矩阵的定义,
的第 列是 维向量其中
是适当维度的第 个单位向量。因此,JVP 可以通过以下递归计算从
和 开始。 -
另一方面,由于
的第 行是梯度 ,我们有即对于每个
,VJP 可以通过以下递归获得从
和 开始。
泰勒定理
一元情况
- 如果函数
在开区间 上的所有 阶导数存在且连续,则称 在 上是 次连续可微的 -
中的泰勒定理:对于 次连续可微的一元实值函数 以及 ,有 其中泰勒多项式 大 O 记号 表示一个函数,当 时满足 (对于某个常数 ),表示余项 至少以 的速度消失 - 线性近似 (
): - 二次近似 (
):
多元情况
- 多重指标记法:对于
: - 高阶偏导数:
-
中的泰勒定理:对于 次连续可微的多元实值函数 以及 : - 关键近似:
- 在
附近的线性(一阶)近似: - 在
附近的二次(二阶)近似:
- 在
雅可比矩阵和海森矩阵的线性近似
- 对于具有雅可比矩阵
的可微函数 , 在 附近的近似为 - 对于具有海森矩阵
的二次可微函数 ,梯度 在 附近的近似为