目录
- 第 1 周 概率论基础
- 第 2 周 随机变量、独立性与一阶/二阶矩不等式
- 第 3 周 Chernoff 界、大数定律与熵的引入
- 第 4 周 熵的性质、Shannon 唯一性定理、联合熵与条件熵
- 第 5 周 条件熵的性质与链式法则
- 第 6 周 互信息、KL 散度与信息不等式
第 1 周 概率论基础
信息论中最基本的研究对象——熵——是建立在随机变量及其分布之上的,因此首先严格回顾概率论的核心定义。
1.1 概率空间
定义 1.1(概率测度)
概率是一个映射 ,其中 是样本空间 上的事件域(σ-代数)。 满足:
- 非负性:;
- 归一性:;
- 可加性:对两两不相交的事件 ,有 。
- 事件 (Event):样本空间 中样本点的集合,通常视为 的子集。
- 独立事件 (Independent Events):若 ,则称事件 独立。
1.2 条件概率与三大公式
定义 1.2(条件概率)
设 ,在 发生条件下 的概率为
全概率公式 (Law of Total Probability)
若 是 的一个划分,且 ,则对任意事件 ,
贝叶斯公式 (Bayes' Law)
对任意事件 ,:
直观理解:贝叶斯公式把”先验” 通过观察到 后更新成”后验” , 是似然带来的更新因子。
第 2 周 随机变量、独立性与一阶/二阶矩不等式
2.1 随机变量与分布
定义 2.1(随机变量)
随机变量 (r.v.) 是一个函数 ,其中 称为 的值域 (domain/range)。
定义 2.2(概率质量函数 PMF)
离散随机变量 的 PMF 为 其支撑集 (support) 为
定义 2.3(联合/边缘/条件分布)
设 为随机变量。
- 联合分布:。
- 边缘分布:。
- 条件分布:对 ,
2.2 期望与方差
定义 2.4(期望与方差)
定义 2.5(条件期望)
对事件 ,:
期望的线性性 (Linearity of Expectation)
对任意两个随机变量 (无论是否独立),
证明
利用联合分布展开并交换求和顺序:
2.3 独立性
定义 2.6(独立性)
随机变量 与 独立,记作 ,当且仅当对所有 ,
定义 2.7(相互独立 / 两两独立 / 条件独立)
设 , 为随机变量。
- 相互独立 (mutually independent):对所有 ,
- 两两独立 (pairwise independent):对所有 ,。
- 条件独立:给定 ,称 ,若对所有满足 的 ,
两两独立 ≠ 相互独立
相互独立严格强于两两独立。例如三个 0/1 变量 两两独立但不相互独立。
命题 2.8(独立随机变量的性质)
设 相互独立,则
- ;
- ;
- 对任意函数 , 仍相互独立。
定义 2.9(马尔可夫链)
称随机变量 构成马尔可夫链 (Markov chain),若对每个 , 直观:给定”现在”,则”未来”与”过去”无关。
2.4 集中不等式 I:Markov 与 Chebyshev
定理 2.10(Markov 不等式 / 一阶矩方法)
设 的随机变量,,则
证明
例 2.11
若 ,则 。Markov 给出的界比较松。
定理 2.12(Chebyshev 不等式 / 二阶矩方法)
设 有均值 、方差 。对任意 :
证明
令 ,则 。由 Markov, 而 ,故结论成立。
例 2.13(1000 次硬币实验)
设 , 独立。则 ,。
估计 : 比 Markov 给出的界精细得多。
第 3 周 Chernoff 界、大数定律与熵的引入
3.1 Chernoff 界(一般形式)
定理 3.1(Chernoff Bound, General Form)
设 相互独立,,。
- 上尾 (upper tail):对任意 ,
- 下尾 (lower tail):对任意 ,
证明(上尾)
思路:借助矩生成函数 (MGF) 把 转化成指数形式,再调参数 优化。
对任意 ,由于 在 单调递增,
由独立性,。再利用关键凸性不等式: (这是因为 在 上是凸函数,而右边正是连接 与 的弦。原笔记此处遗漏了 的前提,在此补充。)
所以 累乘得 ,故 对右端关于 求最优,令 ,代入即得
注:Chernoff 界的紧度
对 Bernoulli 随机变量,Chernoff 界在 直至 范围内是紧的(tight)。
3.2 Chernoff 界(常用简化形式)
实际使用时,以下指数形式更便于估计。
定理 3.2(乘性 Chernoff 界,简化形式)
在定理 3.1 的条件下:
- 上尾:对任意 ,
- 下尾:对 ,
直观对比
不等式 适用条件 衰减速度 Markov Chebyshev 有限方差 Chernoff 独立有界和 (指数) Chernoff 是目前最强、最紧的尾部界,广泛用于随机化算法、密码学、机器学习、信息论。
3.3 大数定律
定理 3.3(弱大数定律, Weak Law of Large Numbers)
设 独立同分布(i.i.d.),,方差有限 。令 则对任意 ,
证明(由 Chebyshev 推出)
,。由 Chebyshev,
3.4 熵 (Entropy):刻画随机变量的不确定性
定义 3.4(熵)
设 是离散随机变量,PMF 为 ,熵定义为 (默认底数为 2,单位 bit。)
熵是对不确定性的度量: 越大, 越”不可预测”。
命题 3.5(非负性)
对任意随机变量 ,,等号成立 几乎处处取确定值。
证明草图:每一项 (对 ),且仅当某个 、其余 时整个和为 0。
典型例子
例 3.6(常见分布的熵)
- 均匀分布: 在 均匀分布,,
- 二元(Bernoulli)熵:,, 在 时取最大值 1,函数对称且关于 凹。
3.5 凸函数与 Jensen 不等式
定义 3.7(凸函数)
凸,若对所有 与 , 若 时严格小于,则称 严格凸。
定理 3.8(Jensen 不等式)
设 凸,, 且 ,则 若 严格凸,则等号成立 在所有 的位置上 全相等。
对凹函数(如 ),不等号反向。
证明(对 归纳)
基础: 即凸函数定义。
归纳:假设对 成立,设 ,
3.6 熵的上界
定理 3.9(熵的最大值)
设 取值数为 ,则 ; 等号成立 在其支撑集上均匀分布。
证明
不妨设 ,。由 的凹性与 Jensen 不等式, 严格凹性给出等号成立的等价条件:所有 相等,即 均匀。
第 4 周 熵的性质、Shannon 唯一性定理、联合熵与条件熵
4.1 Stirling 公式与多项式系数
Stirling 公式
由此可估计二项系数:对 ,
更一般地,多项式系数:对概率向量 与 ,
直观理解
熵刻画了典型序列的数量级:在长度 、字符分布为 的序列中,典型序列约有 条。这是熵作为”信息量”度量的组合学根据。
4.2 熵在确定性函数下的不增
定理 4.1
设 是随机变量,,其中 是确定性函数。则 等号成立 在 上是单射。
直观:确定性函数不会增加随机性——可能把不同 合并成同一个 ,从而损失信息。
4.3 Shannon 唯一性定理 (Shannon 1948)
定理 4.2(Shannon 1948,熵的唯一性)
设 是非负函数,满足以下三条公理:
- 连续性 (Continuity): 关于每个 连续;
- 对称性 (Symmetry): 在 的任意置换下不变;
- 可加性 / 分组律 (Additivity / Grouping):若一个选择被分解为多步, 其中 。
则存在常数 使得
证明思路(三步法)
Step 1. 令 。把均匀分布在 个等概率事件上的不确定性,等价分解成”先选 组之一,再在组内选 个之一”,由可加性得 由连续性可推出存在常数 使 。
Step 2(有理概率):设 ,,。把”在 个等概率事件中均匀地选一个”分两步:先按 选哪一组(组 含 个事件),再在组内均匀选,可加性给出 代入 :
Step 3. 利用连续性,把有理概率推广到所有实概率。
4.4 联合熵 (Joint Entropy)
定义 4.3(联合熵)
设 联合 PMF 为 。联合熵为
例 4.4(独立时联合熵相加)
若 独立,则 ,
定理 4.5(联合熵的次可加性, Subadditivity)
对任意随机变量 , 等号成立 独立。
证明(两种写法)
写法 1:要证 等价于 由 Jensen(对 凹),
写法 2(更简洁): 由 Jensen(此处 凹用反向):上式 等价于 ,而 故 。
等号条件由 Jensen 严格凹性给出:几乎处处 ,即 独立。
应用 1:二项系数和的熵界
例 4.6(二项系数和的上界)
对 ,
证明:取 ,则 设 。 与 一一对应,故 。
由次可加性:(对称性)。
又 ,且 在 单调递增,故 综合得 ,即结论。
应用 2:二元对称信道初探
例 4.7(BSC 信道的联合熵)
设 ,噪声 与 独立,。
计算:
。
。所以 。
联合分布: 与 同概率, 与 同概率。
因此
验证次可加性:,等号当且仅当 (此时 独立)。
X Y 0 ──────1-ε─────► 0 ╲ ε ╱ ╲ ╱ ╲ ╱ ε ╲ ╱ 1 ──────1-ε─────► 1BSC(ε):比特以概率 ε 翻转。
4.5 条件熵 (Conditional Entropy)
定义 4.8(条件熵)
设 联合 PMF 为 。给定 时 的条件熵为
等价表达
先固定 计算”片段熵”,再按 的分布加权平均:
链式法则 (Chain Rule)
证明:由 ,两边取 再求期望即可。
几个直接推论
- 由次可加性 与链式法则,得 条件不增: 等号 。即”知道更多,信息量(不确定性)不增”。
- ,等号 是 的确定函数。
第 5 周 条件熵的性质与链式法则
回顾:条件熵的定义(第 4 周末) 等价地,。
5.1 条件熵的边界情况(两个典型例子)
例 5.1
- 若 ( 是 的确定函数):。 知道 后, 完全确定,不确定性为零。
- 若 ( 与 独立):。 的信息对 毫无帮助。
例 5.2(BSC(ε) 的条件熵) 设 均匀, 与 独立,。
联合分布(行为 ,列为 ):
0 1 0 1 计算:
直观解读:
- :信道几乎无噪声,(接收到 就能还原 );
- :信道完全随机,(知道 也没有帮助)。
5.2 条件使熵减小(Conditioning Reduces Entropy)
定理 5.3(Thm 3.13) 对任意随机变量 , 等号成立 。
证明
令 ,由 Jensen 不等式(对凹函数 ):
故 。等号成立当且仅当 几乎处处为常数 1,即 ,即 。
注意:"条件使熵减小"是 平均意义下的! 对特定的 ,条件熵 可以大于 ;但加权平均后一定不超过 。
5.3 熵的链式法则
定理 5.4(两变量链式法则,Thm 3.14)
证明
定理 5.5(一般链式法则,Thm 3.15) 对任意随机变量 , (不等号由定理 5.3 逐项给出,即次可加性。)
证明(归纳法) 基础():即定理 5.4。
归纳步骤:设对 成立,则
定理 5.6(条件熵的链式法则,Thm 3.16 & 3.17) 一般地,
证明(以两变量为例) 对 用两种方式展开: 同时 ,两式相减整理即得。
5.4 Kolmogorov 复杂度(补充)
定义 5.7(Kolmogorov 复杂度) 对二进制串 ,定义其 Kolmogorov 复杂度 为能在通用图灵机(UTM,如 Python 解释器)上输出 的最短程序的长度(以比特计)。
直观: 衡量 的”内在随机性”——若 有规律可循(如 ),则存在短程序输出它;若 完全随机,则没有比 本身更短的描述。 与熵的关系是信息论的深层主题,此处暂不展开。
第 6 周 互信息、KL 散度与信息不等式
6.1 互信息(Mutual Information)
定义 6.1(互信息,Def 3.18) 随机变量 与 之间的互信息定义为 直观:知道 之后, 的不确定性减少了多少。
等价表达式
以下四种形式完全等价,各有用武之地:
推导(从定义出发) 又
逐点互信息(Pointwise MI)
定义 6.2 对特定取值 ,逐点互信息为
注意: 可以为负(例如观测到一个低概率事件反而增大了对 的不确定性);但对 取期望后一定非负:
6.2 互信息的基本性质
命题 6.3(对称性,Prop 3.19) 从 的形式立即可见。
定理 6.4(非负性,Thm 3.20) 等号成立 。
证明 由 Gibbs 不等式(见定理 6.8)直接得到。等号条件:,即独立。
命题 6.5(上界)
证明:;由对称性也 。
特殊情形
- 若 :;
- 若 (确定函数):;
- BSC():,在 时取最大值。
6.3 条件互信息(Conditional Mutual Information)
定义 6.6(条件互信息,Def 3.25) 对随机变量 ,条件互信息为 直观:在已知 的前提下, 带来的关于 的额外信息量。
等价表达式(Prop 1.3)
例 6.7 若 (确定函数),则 ,故 这说明:在已知 后, 的加入使 的不确定性完全消除。
定理 6.8(条件互信息非负) 等号成立 。
证明:,因为条件使熵减小(定理 5.3 的条件版)。
两个推论:
- (互信息非负);
- (条件熵非负)。
6.4 互信息的链式法则
定理 6.9(互信息链式法则)
证明 其中 ,,代入整理:
推论 6.10(一般链式法则) 带条件的版本:
证明(归纳法) 基础():即定理 6.9。
归纳步骤:设对 成立,
6.5 距离与散度
定义 6.11(全变差距离与 KL 散度) 设 是有限集 上的概率分布。
- 全变差距离 (Total Variation Distance):
- KL 散度 (KL Divergence):
KL 散度不是距离!
- 不对称:;
- 不满足三角不等式。
但 KL 散度始终非负(Gibbs 不等式),且等于零 。
定理 6.12(Gibbs 不等式 / Thm 3.22) 对任意两个分布 : 等号成立 对所有 成立。
证明(Jensen 不等式) 第一个不等号由 的凸性与 Jensen 不等式给出。等号条件: 几乎处处为常数,结合 即得 。
6.6 信息不等式
6.6.1 数据处理不等式(互信息版)
定理 6.13(Data Processing Inequality for MI) 若 构成马尔可夫链(即 ),则 等号成立 也构成马尔可夫链(即 )。
证明 由马尔可夫条件 ,有 。
用链式法则对 做两种展开:
因此 。等号成立当且仅当 ,即 。
直观理解 数据处理只会 损失信息,不会增加信息。 是 的"下游",而 是 的"下游";从 的角度看, 携带的信息不可能超过 。
6.6.2 对数和不等式(Log-Sum Inequality)
引理 6.14(Log-Sum Inequality / Lemma 2.2) 对非负实数 和 (其中 ,), 等号成立 对所有 的 为常数。
证明 令 ,,定义分布 ,。
由 Gibbs 不等式 : 展开 :
6.6.3 数据处理不等式(KL 散度版)
定理 6.15(Data Processing Inequality for KL Divergence) 设 是 上的概率分布, 是任意函数。令 分别为 在 下的推前分布 (pushforward): 则
证明
对每个 ,令 ,(对所有 ),由对数和不等式:
对 求和即得 。
直观 对数据做任何处理(映射/压缩/随机化),两个分布之间的 KL 散度只会减小,不会增大。这与互信息版本的数据处理不等式在本质上是同一件事(因为 )。
6.6.4 Fano 不等式
背景:在信息论与统计中,我们常常想知道:如果从 中恢复 ,错误概率至少有多大?Fano 不等式给出了这个下界。
定理 6.16(Fano's Inequality) 设 , 为随机变量, 是基于 对 的估计器。令 则 从而(由 )得到简化下界:
证明(平均参数法 + 双向展开) 不妨设 是 的确定函数(若为随机函数,对随机化参数取期望后结论不变)。令
对 做两种展开:
展开一(先展开 ): 因为 由 和 (以及 )完全确定,所以 。故 H(E,X\mid Y)=H(X\mid Y).\tag{1}
展开二(先展开 ): H(E,X\mid Y)=H(E\mid Y)+H(X\mid E,Y)\le H(E)+H(X\mid E,Y).\tag{2} 上式不等号由”条件使熵减小”给出。
估计 :
- 意味着 ,故 由 完全确定,;
- 意味着 ,此时 落在 中,共 个值,故 。
因此 。
合并:由 及 :
Fano 不等式的应用 若要证明 任何基于 的估计器都有较大错误概率,只需证明 很大。这是信息论证明下界的标准框架,在编码定理逆向证明、统计学习理论等场合大量使用。
6.7 信道容量初探
定义 6.17(信道容量,Shannon 1948) 信道 的容量定义为对所有合法输入分布取最大化的互信息:
Shannon 信道编码定理(非正式) 任何速率 的可靠通信都是可实现的:存在编码方案使错误概率趋于零。反之,任何 的可靠通信都是不可能的。
可实现速率上限:。
例 6.18(BSC(ε) 的容量) 在 时取到(此时 取最大)。
当 (无噪声)时 ;当 (完全随机)时 。
附录:第 5—6 周公式速查
| 公式 | 含义 |
|---|---|
| 条件使熵减小(等号 独立) | |
| 链式法则(熵) | |
| 互信息定义 | |
| 互信息与 KL 散度 | |
| 链式法则(互信息) | |
| ,若 | 数据处理不等式 |
| KL 散度的数据处理 | |
| Fano 不等式 | |
| 信道容量 |
| 符号 | 含义 |
|---|---|
| 样本空间 | |
| 的值域、支撑集 | |
| 的 PMF | |
| 联合/条件 PMF | |
| 期望、方差 | |
| 独立 | |
| 给定 条件独立 | |
| 熵、二元熵 | |
| 联合熵、条件熵 | |
| 默认以 2 为底 |
一句话总结
概率三大不等式(Markov / Chebyshev / Chernoff)给我们尾部估计的工具;熵则把这些”概率”凝练成对”信息量”的度量,联合熵与条件熵进一步刻画多个随机变量间的信息关系。