diff --git a/docs/chapter1/chapter1.md b/docs/chapter1/chapter1.md index 7f96f6c..2344141 100644 --- a/docs/chapter1/chapter1.md +++ b/docs/chapter1/chapter1.md @@ -406,7 +406,46 @@ KKT条件和Slater条件通常被归类为“正则条件”(regularity condit -## 10. 连续性 +## 10. 偏序集 + +序理论(order theory)是研究捕获数学排序的直觉概念的各种二元关系的数学分支。 +在序理论中,一个偏序集(partial order set,简称poset)包含一个非空集合 $P$ 和一个满足特定条件的二元关系 $\leq$。这个二元关系称为偏序关系,必须满足以下三个条件: + +1. **自反性(Reflexivity)**:对于 $P$ 中的任意元素 $a$,都有 $a \leq a$。 +2. **反对称性(Antisymmetry)**:对于 $P$ 中的任意元素 $a$ 和 $b$,如果 $a \leq b$ 且 $b \leq a$,那么 $a = b$。 +3. **传递性(Transitivity)**:对于 $P$ 中的任意元素 $a$、$b$ 和 $c$,如果 $a \leq b$ 且 $b \leq c$,那么 $a \leq c$。 + +这些条件定义了偏序关系,使其与全序(total order)关系(每对元素都是可比较的)不同。 +在偏序集中,可能存在某些元素是不可比较的,即对于 $P$ 中的某些 $a$ 和 $b$,既不满足 $a \leq b$,也不满足 $b \leq a$。 + + + +## 10. 上下界 + +上界(upper bound 或 majorant)是一个与偏序集有关的特殊元素,指的是偏序集中大于或等于它的子集中一切元素的元素。 +若数集$S$为实数集$R$的子集有上界,则显然它有无穷多个上界,而其中最小的一个上界常常具有重要的作用,称它为数集$S$的上确界(tight upper bound 或 supremum)。 +同理,我们可以定义下界(lower bound 或 minorant)和下确界(tight lower bound 或 infimum)。 + + + +## 11. 尾界 + +**尾界(tail bound)**是指给定一个随机变量,其概率分布的尾部部分的界限。 +其中,上尾界(upper tail bound)描述随机变量在其分布的上尾处的概率上限,而下尾界(lower tail bound)描述随机变量在其分布的下尾处的概率上限。 +Chebyshev 不等式、Hoeffding 不等式和 Bernstein 不等式都是尾界的例子,它们提供了随机变量偏离其期望值的概率的界限。 + + + +## 12. 置信界 + +**置信界(confidence bound)**是指在估计一个未知参数时,给出一个包含该参数的区间,并且这个区间有一个特定的置信水平。 +例如,一个95%的置信区间意味着我们有95%的信心该区间包含了真实的参数值。 +置信界可以是上置信界(upper confidence bound),下置信界(lower confidence bound),或同时包含上下界的置信区间(confidence interval)。 +上置信界提供对参数估计的可能最大值的上限, 而下置信界提供对参数估计的可能最小值的下限。 + + + +## 13. 连续性 连续性(continuity)表示该函数的在某处的变化不会突然中断或跳跃。 形式上,如果函数$f(x)$在$x = a$处满足以下任意条件,则称其在该点连续: @@ -454,7 +493,7 @@ Lipschitz连续性的性质在数学的各个领域中经常被应用,例如 -## 11. 光滑性 +## 14. 光滑性 在数学分析中,函数的光滑性(smoothness)是通过函数在某个域(称为可微性类)上的连续导数的数量来衡量的属性。 最基本的情况下,如果一个函数在每个点上都可导(因此连续),则可以认为它是光滑的。 @@ -474,7 +513,7 @@ L-光滑函数在优化中非常有用,因为它们可以加快梯度下降算 -## 12. 次梯度 +## 15. 次梯度 次梯度(subgradient)是凸函数导数的一种推广形式,某些凸函数在特定区域内导数可能并不存在,但我们依旧可以用次梯度来表示此区域内函数变化率的下界。 形式上,对于凸函数 $f(x)$中任意点$x$, 在点$x_0$处的次梯度$c$必须满足以下不等式: @@ -492,7 +531,7 @@ $$ -## 13. 对偶空间 +## 16. 对偶空间 线性泛函(linear form)是指由向量空间$V$到对应标量域$k$的线性映射,满足加法和数乘的性质,即对于任意向量 $x,y\in V$ 和标量 $\alpha\in k$,有: $$ @@ -505,7 +544,7 @@ $$ -## 15. 勒让德变换 +## 17. 勒让德变换 将函数转换为另一种函数,常常可以改变其定义域和属性,从而使问题变得更简单或更易于分析。 其中,勒让德变换(Legendre transform)常用于将一组独立变量转换为另一组独立变量,特别是在经典力学和热力学中。 @@ -521,7 +560,7 @@ $$ -## 15. 共轭函数 +## 18. 共轭函数 凸共轭(convex conjugate)是勒让德变换的一种推广,因此也被称为勒让德-芬谢尔变换(Legendre-Fenchel transform)。 通过凸共轭变换,原函数可以转换为凸函数,从而利用凸函数的性质来解决原问题。 @@ -564,7 +603,7 @@ $$ -## 16. σ-代数 +## 19. σ-代数 σ-代数(或者σ-域)是数学中测度论和概率论的一个重要概念。σ-代数是一个满足特定封闭性质的集合族,使得我们能够对这些集合定义一致的测度(例如概率)。 具体来说,σ-代数是一个集合族,满足以下三个性质: @@ -587,7 +626,7 @@ $$ -## 17. 鞅 +## 20. 鞅 鞅(Martingale)是概率论中的一个重要概念,用于描述某些类型的随机过程。鞅过程的特点是,它的未来期望值在已知当前信息的条件下等于当前值。 @@ -880,7 +919,7 @@ $$ ## 定理 11: Chernoff 不等式 (乘积形式) -对m个独立同分布的随机变量$x_i \in [0, 1], i \in [m]$,令$X = \sum_{i=1}^m X_i$,$\mu>0$且$r\leq 1$ +对m个独立同分布(i.i.d.)的随机变量$x_i \in [0, 1], i \in [m]$,令$X = \sum_{i=1}^m X_i$,$\mu>0$且$r\leq 1$ 如果$\mathbb{E}[x_i]\leq \mu$对于所有$i\leq m$都成立,有: $$ @@ -1154,7 +1193,7 @@ $$ ## 定理 16: Bernstein 不等式 -首先定义一下参数为$b \gt 0$的单边 Bernstein 条件(One-sided Bernstein's condition),即随机变量$X$满足: +首先,我们定义一下参数为$b \gt 0$的单边 Bernstein 条件(One-sided Bernstein's condition),即随机变量$X$满足: $$ \mathbb{E} [e^{\lambda(X−EX)}] \leq \exp(\frac{\mathbb{V}[X]\lambda^2/2}{1 −b\lambda}), \forall \lambda ∈ [0,1/b) $$ @@ -1166,7 +1205,7 @@ $$ $Proof.$ -1. 首先,我们先确定 Bernstein 条件下的上尾界(或上尾界限),即: +1. 我们先确定 Bernstein 条件下的上尾界(或上尾界限),即: $$ P(X - \mathbb{E}[X] \geq \varepsilon) \leq \exp(-\frac{\mathbb{V} [X]}{b^2} h(\frac{b\varepsilon}{\mathbb{V} [X]})) \leq \exp(-\frac{\varepsilon^2}{2(\mathbb{V} [X] + b\varepsilon)}) $$