第 1 周概率论基础

信息论中最基本的研究对象——熵——是建立在随机变量及其分布之上的,因此首先严格回顾概率论的核心定义。

1.1 概率空间

定义 1.1(概率测度)

概率是一个映射 $P : F \to [0, 1]$ ,其中 $F$ 是样本空间 $Ω$ 上的事件域(σ-代数)。 $P$ 满足:

非负性: $P (A) \geq 0$ ;

归一性: $P (Ω) = 1$ ;

可加性:对两两不相交的事件 $A_{1}, A_{2}, \dots$ ,有 $P (⋃_{i} A_{i}) = \sum_{i} P (A_{i})$ 。

事件 (Event):样本空间 $Ω$ 中样本点的集合,通常视为 $Ω$ 的子集。
独立事件 (Independent Events):若 $P (A \cap B) = P (A) P (B)$ ,则称事件 $A, B$ 独立。

1.2 条件概率与三大公式

定义 1.2(条件概率)

设 $P (B) > 0$ ,在 $B$ 发生条件下 $A$ 的概率为 $P (A ∣ B) = \frac{P ( A \cap B )}{P ( B )} .$

全概率公式 (Law of Total Probability)

若 ${B_{i}}_{i = 1}^{n}$ 是 $Ω$ 的一个划分,且 $P (B_{i}) > 0$ ,则对任意事件 $A$ , $P (A) = \sum_{i = 1}^{n} P (A ∣ B_{i}) P (B_{i}) .$

贝叶斯公式 (Bayes' Law)

对任意事件 $A, B$ , $P (B) > 0$ : $P (A ∣ B) = \frac{P ( B ∣ A ) P ( A )}{P ( B )} .$

直观理解:贝叶斯公式把”先验” $P (A)$ 通过观察到 $B$ 后更新成”后验” $P (A ∣ B)$ , $P (B ∣ A) / P (B)$ 是似然带来的更新因子。

第 2 周随机变量、独立性与一阶/二阶矩不等式

2.1 随机变量与分布

定义 2.1(随机变量)

随机变量 (r.v.) 是一个函数 $X : Ω \to D_{X}$ ,其中 $D_{X}$ 称为 $X$ 的值域 (domain/range)。

定义 2.2(概率质量函数 PMF)

离散随机变量 $X$ 的 PMF 为 $p_{X} : D_{X} \to [0, 1], p_{X} (x) = Pr [X = x] .$ 其支撑集 (support) 为 $Supp (X) = {x \in D_{X} : p_{X} (x) > 0} .$

定义 2.3(联合/边缘/条件分布)

设 $X, Y$ 为随机变量。

联合分布: $p_{X, Y} (x, y) = Pr [X = x \land Y = y]$ 。

边缘分布: $p_{X} (x) = \sum_{y \in D_{Y}} p_{X, Y} (x, y)$ 。

条件分布:对 $p_{Y} (y) > 0$ , $p_{X ∣ Y} (x ∣ y) = \frac{p _{X, Y} ( x , y )}{p _{Y} ( y )} = Pr [X = x ∣ Y = y] .$

2.2 期望与方差

定义 2.4(期望与方差)

$μ = E [X] = \sum_{x \in D_{X}} x \cdot p_{X} (x),$ $Var (X) = E [(X - μ)^{2}] = E [X^{2}] - (E [X])^{2} .$

定义 2.5(条件期望)

对事件 $B$ , $P (B) > 0$ : $E [X ∣ B] = \sum_{x \in D_{X}} x Pr [X = x ∣ B] .$

期望的线性性 (Linearity of Expectation)

对任意两个随机变量 $X, Y$ (无论是否独立), $E [X + Y] = E [X] + E [Y] .$

证明

利用联合分布展开并交换求和顺序:
$E [X + Y] = x, y \sum (x + y) p_{X, Y} (x, y) = x \sum x y \sum p_{X, Y} (x, y) + y \sum y x \sum p_{X, Y} (x, y) = x \sum x p_{X} (x) + y \sum y p_{Y} (y) = E [X] + E [Y] . ■$

2.3 独立性

定义 2.6(独立性)

随机变量 $X$ 与 $Y$ 独立,记作 $X ⊥ ⊥ Y$ ,当且仅当对所有 $x \in D_{X}, y \in D_{Y}$ , $p_{X, Y} (x, y) = p_{X} (x) p_{Y} (y) .$

定义 2.7(相互独立 / 两两独立 / 条件独立)

设 $n \geq 3$ , $X_{1}, \dots, X_{n}$ 为随机变量。

相互独立 (mutually independent):对所有 $(x_{1}, \dots, x_{n})$ , $p_{X_{1}, \dots, X_{n}} (x_{1}, \dots, x_{n}) = \prod_{i = 1}^{n} p_{X_{i}} (x_{i}) .$

两两独立 (pairwise independent):对所有 $1 \leq i < j \leq n$ , $X_{i} ⊥ ⊥ X_{j}$ 。

条件独立:给定 $Z$ ,称 $X ⊥ ⊥ Y ∣ Z$ ,若对所有满足 $p_{Z} (z) > 0$ 的 $z$ , $p_{X, Y ∣ Z} (x, y ∣ z) = p_{X ∣ Z} (x ∣ z) p_{Y ∣ Z} (y ∣ z) .$

两两独立 ≠ 相互独立

相互独立严格强于两两独立。例如三个 0/1 变量 $X_{1}, X_{2}, X_{3} = X_{1} \oplus X_{2}$ 两两独立但不相互独立。

命题 2.8(独立随机变量的性质)

设 $X_{1}, \dots, X_{n}$ 相互独立,则

$E [i = 1 \prod n X_{i}] = i = 1 \prod n E [X_{i}]$ ;

$Var (i = 1 \sum n X_{i}) = i = 1 \sum n Var (X_{i})$ ;

对任意函数 $f_{1}, \dots, f_{n}$ , $f_{1} (X_{1}), \dots, f_{n} (X_{n})$ 仍相互独立。

定义 2.9(马尔可夫链)

称随机变量 $X_{1} \to X_{2} \to \dots \to X_{n}$ 构成马尔可夫链 (Markov chain),若对每个 $i = 2, \dots, n$ , $p_{X_{i} ∣ X_{1}, \dots, X_{i - 1}} (x_{i} ∣ x_{1}, \dots, x_{i - 1}) = p_{X_{i} ∣ X_{i - 1}} (x_{i} ∣ x_{i - 1}) .$ 直观:给定”现在”,则”未来”与”过去”无关。

2.4 集中不等式 I:Markov 与 Chebyshev

定理 2.10(Markov 不等式 / 一阶矩方法)

设 $X \geq 0$ 的随机变量, $a > 0$ ,则 $Pr [X \geq a] \leq \frac{E [ X ]}{a} .$

证明

$E [X] = x \geq 0 \sum x Pr [X = x] \geq x \geq a \sum x Pr [X = x] \geq a x \geq a \sum Pr [X = x] = a Pr [X \geq a] . ■$

例 2.11

若 $E [X] = 500$ ,则 $Pr [X \geq 700] \leq \frac{500}{700} \approx 0.71$ 。Markov 给出的界比较松。

定理 2.12(Chebyshev 不等式 / 二阶矩方法)

设 $X$ 有均值 $μ = E [X]$ 、方差 $σ^{2} = Var (X)$ 。对任意 $k > 0$ : $Pr [∣ X - μ ∣ \geq k] \leq \frac{σ ^{2}}{k ^{2}} .$

证明

令 $Y = (X - μ)^{2} \geq 0$ ,则 $E [Y] = σ^{2}$ 。由 Markov, $Pr [Y \geq k^{2}] \leq \frac{σ ^{2}}{k ^{2}} .$ 而 ${∣ X - μ ∣ \geq k} = {Y \geq k^{2}}$ ,故结论成立。 $■$

例 2.13(1000 次硬币实验)

设 $X = \sum_{i = 1}^{1000} X_{i}$ , $X_{i} \sim Bern (1/2)$ 独立。则 $μ = 500$ , $Var (X) = 250$ 。

估计 $Pr [∣ X - 500∣ \geq 200]$ : $Pr [∣ X - 500∣ \geq 200] \leq \frac{250}{20 0 ^{2}} = \frac{250}{40000} = 0.00625.$ 比 Markov 给出的界精细得多。

第 3 周 Chernoff 界、大数定律与熵的引入

3.1 Chernoff 界(一般形式)

定理 3.1(Chernoff Bound, General Form)

设 $X_{1}, \dots, X_{n} \in [0, 1]$ 相互独立, $X = \sum_{i = 1}^{n} X_{i}$ , $μ = E [X] = \sum_{i = 1}^{n} E [X_{i}]$ 。

上尾 (upper tail):对任意 $δ > 0$ , $Pr [X \geq (1 + δ) μ] \leq (\frac{e ^{δ}}{( 1 + δ ) ^{1 + δ}})^{μ} .$

下尾 (lower tail):对任意 $0 < δ < 1$ , $Pr [X \leq (1 - δ) μ] \leq (\frac{e ^{- δ}}{( 1 - δ ) ^{1 - δ}})^{μ} .$

证明(上尾)

思路:借助矩生成函数 (MGF) 把 $X$ 转化成指数形式,再调参数 $t$ 优化。

对任意 $t > 0$ ,由于 $e^{t x}$ 在 $x \geq 0$ 单调递增, $Pr [X \geq (1 + δ) μ] = Pr [e^{tX} \geq e^{t (1 + δ) μ}] \leq \frac{E [ e ^{tX} ]}{e ^{t (1 + δ) μ}} (Markov) .$

由独立性, $E [e^{tX}] = \prod_{i} E [e^{t X_{i}}]$ 。再利用关键凸性不等式: $e^{t x} \leq 1 + (e^{t} - 1) x 对 x \in [0, 1]$ (这是因为 $e^{t x}$ 在 $[0, 1]$ 上是凸函数,而右边正是连接 $(0, 1)$ 与 $(1, e^{t})$ 的弦。原笔记此处遗漏了 $x \in [0, 1]$ 的前提,在此补充。)

所以 $E [e^{t X_{i}}] \leq 1 + (e^{t} - 1) μ_{i} \leq e^{(e^{t} - 1) μ_{i}} (用 1 + x \leq e^{x}) .$ 累乘得 $E [e^{tX}] \leq e^{(e^{t} - 1) μ}$ ,故 $Pr [X \geq (1 + δ) μ] \leq \frac{e ^{(e^{t} - 1) μ}}{e ^{t (1 + δ) μ}} .$ 对右端关于 $t$ 求最优,令 $t = ln (1 + δ) > 0$ ,代入即得 $Pr [X \geq (1 + δ) μ] \leq (\frac{e ^{δ}}{( 1 + δ ) ^{1 + δ}})^{μ} . ■$

注:Chernoff 界的紧度

对 Bernoulli 随机变量,Chernoff 界在 $δ = Ω (μ^{- 1/2})$ 直至 $δ = O (1)$ 范围内是紧的(tight)。

3.2 Chernoff 界(常用简化形式)

实际使用时,以下指数形式更便于估计。

定理 3.2(乘性 Chernoff 界,简化形式)

在定理 3.1 的条件下:

上尾:对任意 $δ > 0$ , $Pr [X \geq (1 + δ) μ] \leq ⎩ ⎨ ⎧ exp (- \frac{μ δ ^{2}}{3}), exp (- \frac{μ δ}{3}), 0 < δ < 1, δ \geq 1.$

下尾:对 $0 < δ < 1$ , $Pr [X \leq (1 - δ) μ] \leq exp (- \frac{μ δ ^{2}}{2}) .$

直观对比

不等式适用条件衰减速度
Markov $X \geq 0$ $1/ a$
Chebyshev 有限方差 $1/ k^{2}$
Chernoff 独立有界和 $exp (- μ δ^{2})$ (指数)

Chernoff 是目前最强、最紧的尾部界,广泛用于随机化算法、密码学、机器学习、信息论。

不等式	适用条件	衰减速度
Markov	$X \geq 0$	$1/ a$
Chebyshev	有限方差	$1/ k^{2}$
Chernoff	独立有界和	$exp (- μ δ^{2})$ (指数)

3.3 大数定律

定理 3.3(弱大数定律, Weak Law of Large Numbers)

设 $X_{1}, \dots, X_{n}$ 独立同分布(i.i.d.), $μ = E [X_{i}]$ ,方差有限 $σ^{2} = Var (X_{i})$ 。令 $\overset{ˉ}{X}_{n} = \frac{1}{n} \sum_{i = 1}^{n} X_{i} .$ 则对任意 $ε > 0$ , $lim_{n \to \infty} Pr [∣ \overset{ˉ}{X}_{n} - μ ∣ \geq ε] = 0.$

证明(由 Chebyshev 推出)

$E [\overset{ˉ}{X}_{n}] = μ$ , $Var (\overset{ˉ}{X}_{n}) = σ^{2} / n$ 。由 Chebyshev, $Pr [∣ \overset{ˉ}{X}_{n} - μ ∣ \geq ε] \leq \frac{Var ( X ˉ _{n} )}{ε ^{2}} = \frac{σ ^{2}}{n ε ^{2}} n \to \infty 0. ■$

3.4 熵 (Entropy):刻画随机变量的不确定性

定义 3.4(熵)

设 $X$ 是离散随机变量,PMF 为 $p_{X}$ ,熵定义为 $H (X) = - \sum_{x \in Supp (X)} p_{X} (x) lo g p_{X} (x) .$ (默认底数为 2,单位 bit。)

熵是对 $X$ 不确定性的度量: $H (X)$ 越大, $X$ 越”不可预测”。

命题 3.5(非负性)

对任意随机变量 $X$ , $H (X) \geq 0$ ,等号成立 $⟺$ $X$ 几乎处处取确定值。

证明草图:每一项 $- p lo g p \geq 0$ (对 $p \in (0, 1]$ ),且仅当某个 $p_{i} = 1$ 、其余 $= 0$ 时整个和为 0。

典型例子

例 3.6(常见分布的熵)

均匀分布: $X$ 在 ${1, \dots, n}$ 均匀分布, $Pr [X = i] = 1/ n$ , $H (X) = \sum_{i = 1}^{n} \frac{1}{n} lo g n = lo g n .$

二元(Bernoulli)熵: $X \in {0, 1}$ , $Pr [X = 1] = p$ , $H_{2} (p) = - p lo g p - (1 - p) lo g (1 - p),$ 在 $p = 1/2$ 时取最大值 1,函数对称且关于 $p = 1/2$ 凹。

3.5 凸函数与 Jensen 不等式

定义 3.7(凸函数)

$f : R \to R$ 凸,若对所有 $x_{1}, x_{2} \in R$ 与 $λ \in [0, 1]$ , $f (λ x_{1} + (1 - λ) x_{2}) \leq λ f (x_{1}) + (1 - λ) f (x_{2}) .$ 若 $x_{1} \neq = x_{2}$ 时严格小于,则称 $f$ 严格凸。

定理 3.8(Jensen 不等式)

设 $f$ 凸, $x_{1}, \dots, x_{n} \in R$ , $p_{1}, \dots, p_{n} \in [0, 1]$ 且 $\sum p_{i} = 1$ ,则 $f (\sum_{i = 1}^{n} p_{i} x_{i}) \leq \sum_{i = 1}^{n} p_{i} f (x_{i}) .$ 若 $f$ 严格凸,则等号成立 $⟺$ 在所有 $p_{i} > 0$ 的位置上 $x_{i}$ 全相等。

对凹函数(如 $lo g$ ),不等号反向。

证明(对 $n$ 归纳)

基础: $n = 2$ 即凸函数定义。

归纳:假设对 $n - 1$ 成立,设 $q = 1 - p_{1} = \sum_{i = 2}^{n} p_{i}$ , $f (\sum_{i = 1}^{n} p_{i} x_{i}) = f (p_{1} x_{1} + q \sum_{i = 2}^{n} \frac{p _{i}}{q} x_{i}) \leq p_{1} f (x_{1}) + q f (\sum_{i = 2}^{n} \frac{p _{i}}{q} x_{i})$ $\leq p_{1} f (x_{1}) + q \sum_{i = 2}^{n} \frac{p _{i}}{q} f (x_{i}) = \sum_{i = 1}^{n} p_{i} f (x_{i}) . ■$

3.6 熵的上界

定理 3.9(熵的最大值)

设 $X$ 取值数为 $n$ ,则 $H (X) \leq lo g n$ ；等号成立 $⟺$ $X$ 在其支撑集上均匀分布。

证明

不妨设 $X \in {1, \dots, n}$ , $Pr [X = i] = p_{i}$ 。由 $lo g$ 的凹性与 Jensen 不等式, $H (X) = \sum_{i = 1}^{n} p_{i} lo g \frac{1}{p _{i}} \leq lo g (\sum_{i = 1}^{n} p_{i} \cdot \frac{1}{p _{i}}) = lo g n .$ 严格凹性给出等号成立的等价条件:所有 $p_{i}$ 相等,即 $X$ 均匀。 $■$

第 4 周熵的性质、Shannon 唯一性定理、联合熵与条件熵

4.1 Stirling 公式与多项式系数

Stirling 公式

$n! \sim (\frac{n}{e})^{n} 2 πn = Θ (n \cdot (\frac{n}{e})^{n}) .$

由此可估计二项系数:对 $p \in (0, 1)$ , $(p n n) = \frac{n !}{( p n )! (( 1 - p ) n )!} = Θ_{p} (\frac{1}{n}) \cdot 2^{n H_{2} (p)} = 2^{n H_{2} (p) - Θ_{p} (l o g n)} = 2^{n (H_{2} (p) - o (1))} .$

更一般地,多项式系数:对概率向量 $(p_{1}, \dots, p_{n})$ 与 $N \to \infty$ , $(p _{1} N , p _{2} N , \dots , p _{n} N N) = \frac{N !}{\prod _{i} ( p _{i} N )!} = 2^{N (H (p_{1}, \dots, p_{n}) - o (1))} .$

直观理解

熵刻画了典型序列的数量级:在长度 $N$ 、字符分布为 $(p_{1}, \dots, p_{n})$ 的序列中,典型序列约有 $2^{N H (p_{1}, \dots, p_{n})}$ 条。这是熵作为”信息量”度量的组合学根据。

4.2 熵在确定性函数下的不增

定理 4.1

设 $X$ 是随机变量, $Y = f (X)$ ,其中 $f$ 是确定性函数。则 $H (Y) \leq H (X),$ 等号成立 $⟺$ $f$ 在 $Supp (X)$ 上是单射。

直观:确定性函数不会增加随机性——可能把不同 $x$ 合并成同一个 $y$ ,从而损失信息。

4.3 Shannon 唯一性定理 (Shannon 1948)

定理 4.2(Shannon 1948,熵的唯一性)

设 $H (p_{1}, \dots, p_{n})$ 是非负函数,满足以下三条公理:

连续性 (Continuity): $H$ 关于每个 $p_{i}$ 连续;

对称性 (Symmetry): $H$ 在 $p_{i}$ 的任意置换下不变;

可加性 / 分组律 (Additivity / Grouping):若一个选择被分解为多步, $H (p_{1}, \dots, p_{n}) = H (w_{1}, w_{2}) + w_{1} H (\frac{p _{1}}{w _{1}}, \dots, \frac{p _{k}}{w _{1}}) + w_{2} H (\frac{p _{k + 1}}{w _{2}}, \dots, \frac{p _{n}}{w _{2}}),$ 其中 $w_{1} = \sum_{i = 1}^{k} p_{i}, w_{2} = \sum_{i = k + 1}^{n} p_{i}$ 。

则存在常数 $K > 0$ 使得 $H (p_{1}, \dots, p_{n}) = - K \sum_{i = 1}^{n} p_{i} lo g p_{i} .$

证明思路(三步法)

Step 1. 令 $A (n) = H (1/ n, \dots, 1/ n)$ 。把均匀分布在 $mn$ 个等概率事件上的不确定性,等价分解成”先选 $m$ 组之一,再在组内选 $n$ 个之一”,由可加性得 $A (mn) = A (m) + A (n) \forall m, n \in N .$ 由连续性可推出存在常数 $K$ 使 $A (n) = K lo g n$ 。

Step 2(有理概率):设 $p_{i} = k_{i} / m$ , $k_{i}, m \in N$ , $\sum k_{i} = m$ 。把”在 $m$ 个等概率事件中均匀地选一个”分两步:先按 $(p_{1}, \dots, p_{n})$ 选哪一组(组 $i$ 含 $k_{i}$ 个事件),再在组内均匀选,可加性给出 $A (m) = H (p_{1}, \dots, p_{n}) + \sum_{i = 1}^{n} \frac{k _{i}}{m} A (k_{i}) .$ 代入 $A (\cdot) = K lo g (\cdot)$ : $H (p_{1}, \dots, p_{n}) = K lo g m - K \sum_{i} \frac{k _{i}}{m} lo g k_{i} = - K \sum_{i} \frac{k _{i}}{m} lo g \frac{k _{i}}{m} = - K \sum_{i} p_{i} lo g p_{i} .$

Step 3. 利用连续性,把有理概率推广到所有实概率。 $■$

4.4 联合熵 (Joint Entropy)

定义 4.3(联合熵)

设 $X, Y$ 联合 PMF 为 $p_{X, Y}$ 。联合熵为 $H (X, Y) = - \sum_{(x, y) \in D_{X} \times D_{Y}} p_{X, Y} (x, y) lo g p_{X, Y} (x, y) = - E [lo g p_{X, Y} (X, Y)] .$

例 4.4(独立时联合熵相加)

若 $X, Y$ 独立,则 $p_{X, Y} (x, y) = p_{X} (x) p_{Y} (y)$ , $H (X, Y) = - E [lo g p_{X} (X) + lo g p_{Y} (Y)] = H (X) + H (Y) .$

定理 4.5(联合熵的次可加性, Subadditivity)

对任意随机变量 $X, Y$ , $H (X, Y) \leq H (X) + H (Y),$ 等号成立 $⟺$ $X, Y$ 独立。

证明(两种写法)

写法 1:要证 $\sum_{x, y} p_{X, Y} (x, y) lo g \frac{1}{p _{X, Y} ( x , y )} \leq \sum_{x, y} p_{X, Y} (x, y) lo g \frac{1}{p _{X} ( x )} + \sum_{x, y} p_{X, Y} (x, y) lo g \frac{1}{p _{Y} ( y )},$ 等价于 $(*) = \sum_{x, y} p_{X, Y} (x, y) lo g \frac{p _{X} ( x ) p _{Y} ( y )}{p _{X, Y} ( x , y )} \leq 0.$ 由 Jensen(对 $lo g$ 凹), $(*) \leq lo g (\sum_{x, y} p_{X, Y} (x, y) \cdot \frac{p _{X} ( x ) p _{Y} ( y )}{p _{X, Y} ( x , y )}) = lo g (\sum_{x} p_{X} (x) \sum_{y} p_{Y} (y)) = lo g 1 = 0.$

写法 2(更简洁): $H (X) + H (Y) - H (X, Y) = E [lo g \frac{p _{X, Y} ( X , Y )}{p _{X} ( X ) p _{Y} ( Y )}] .$ 由 Jensen(此处 $lo g$ 凹用反向):上式 $\geq 0$ 等价于 $E [lo g Z] \leq lo g E [Z]$ ,而 $E [\frac{p _{X} ( X ) p _{Y} ( Y )}{p _{X, Y} ( X , Y )}] = \sum_{x, y} p_{X} (x) p_{Y} (y) = 1,$ 故 $H (X) + H (Y) - H (X, Y) \geq 0$ 。 $■$

等号条件由 Jensen 严格凹性给出:几乎处处 $p_{X, Y} (x, y) = p_{X} (x) p_{Y} (y)$ ,即 $X, Y$ 独立。

应用 1:二项系数和的熵界

例 4.6(二项系数和的上界)

对 $m \leq n /2$ , $\sum_{i = 0}^{m} (i n) \leq 2^{n H_{2} (m / n)} .$

证明:取 $X \sim Uniform {Z \subseteq [n] : ∣ Z ∣ \leq m}$ ,则 $H (X) = lo g (\sum_{i = 0}^{m} (i n)) .$ 设 $X_{i} = 1_{i \in X} \in {0, 1}$ 。 $(X_{1}, \dots, X_{n})$ 与 $X$ 一一对应,故 $H (X) = H (X_{1}, \dots, X_{n})$ 。

由次可加性: $H (X_{1}, \dots, X_{n}) \leq \sum_{i = 1}^{n} H (X_{i}) = n H (X_{1})$ (对称性)。

又 $Pr [X_{1} = 1] = Pr [1 \in X] \leq m / n$ ,且 $H_{2} (\cdot)$ 在 $[0, 1/2]$ 单调递增,故 $H (X_{1}) \leq H_{2} (m / n) .$ 综合得 $lo g \sum_{i = 0}^{m} (i n) \leq n H_{2} (m / n)$ ,即结论。 $■$

应用 2:二元对称信道初探

例 4.7(BSC 信道的联合熵)
设 $X \sim Bern (1/2)$ ,噪声 $N \sim Bern (ε)$ 与 $X$ 独立, $Y = X \oplus N \in {0, 1}$ 。

计算:

$H (X) = H_{2} (1/2) = 1$ 。

$Pr [Y = 0] = Pr [X = 0, N = 0] + Pr [X = 1, N = 1] = \frac{1}{2} (1 - ε) + \frac{1}{2} ε = \frac{1}{2}$ 。所以 $H (Y) = 1$ 。

联合分布: $Pr [(X, Y) = (0, 0)] = \frac{1}{2} (1 - ε), Pr [(X, Y) = (0, 1)] = \frac{1}{2} ε,$ $(1, 1)$ 与 $(0, 0)$ 同概率, $(1, 0)$ 与 $(0, 1)$ 同概率。

因此 $H (X, Y) = H (\frac{1 - ε}{2}, \frac{ε}{2}, \frac{ε}{2}, \frac{1 - ε}{2}) = 1 + H_{2} (ε) .$

验证次可加性: $H (X, Y) = 1 + H_{2} (ε) \leq 1 + 1 = H (X) + H (Y)$ ,等号当且仅当 $ε = 1/2$ (此时 $X, Y$ 独立)。
     X            Y
 0 ──────1-ε─────► 0
    ╲   ε    ╱
     ╲      ╱
      ╲    ╱
     ε ╲  ╱
 1 ──────1-ε─────► 1
BSC(ε):比特以概率 ε 翻转。

4.5 条件熵 (Conditional Entropy)

定义 4.8(条件熵)

设 $X, Y$ 联合 PMF 为 $p_{X, Y}$ 。给定 $Y$ 时 $X$ 的条件熵为 $H (X ∣ Y) = - \sum_{(x, y) \in D_{X} \times D_{Y}} p_{X, Y} (x, y) lo g p_{X ∣ Y} (x ∣ y) = - E [lo g p_{X ∣ Y} (X ∣ Y)] .$

等价表达

先固定 $Y = y$ 计算”片段熵”,再按 $Y$ 的分布加权平均: $H (X ∣ Y = y) = - \sum_{x \in D_{X}} p_{X ∣ Y} (x ∣ y) lo g p_{X ∣ Y} (x ∣ y),$ $H (X ∣ Y) = \sum_{y \in D_{Y}} p_{Y} (y) H (X ∣ Y = y) = E_{Y} [H (X ∣ Y = y)] .$

链式法则 (Chain Rule)

$H (X, Y) = H (Y) + H (X ∣ Y) = H (X) + H (Y ∣ X) .$

证明:由 $p_{X, Y} = p_{Y} \cdot p_{X ∣ Y}$ ,两边取 $- lo g$ 再求期望即可。

几个直接推论

由次可加性 $H (X, Y) \leq H (X) + H (Y)$ 与链式法则,得 条件不增: $H (X ∣ Y) \leq H (X),$ 等号 $⟺$ $X ⊥ ⊥ Y$ 。即”知道更多,信息量(不确定性)不增”。

$H (X ∣ Y) \geq 0$ ,等号 $⟺$ $X$ 是 $Y$ 的确定函数。

第 5 周条件熵的性质与链式法则

回顾:条件熵的定义(第 4 周末) $H (X ∣ Y) = - \sum_{x, y} p_{X, Y} (x, y) lo g p_{X ∣ Y} (x ∣ y) = - E! [lo g p_{X ∣ Y} (X ∣ Y)] .$ 等价地, $H (X ∣ Y) = \sum_{y} p_{Y} (y), H (X ∣ Y = y)$ 。

5.1 条件熵的边界情况(两个典型例子)

例 5.1

若 $X = f (Y)$ ( $X$ 是 $Y$ 的确定函数): $H (X ∣ Y) = 0$ 。知道 $Y$ 后, $X$ 完全确定,不确定性为零。

若 $X ⊥ Y$ ( $X$ 与 $Y$ 独立): $H (X ∣ Y) = H (X)$ 。 $Y$ 的信息对 $X$ 毫无帮助。

例 5.2(BSC(ε) 的条件熵) 设 $X \sim 0, 1$ 均匀, $N \sim Bern (ε)$ 与 $X$ 独立, $Y = X \oplus N$ 。

联合分布(行为 $Y$ ,列为 $X$ ):

$Y \ X$ 0 1
0 $\frac{1}{2} (1 - ε)$ $\frac{1}{2} ε$
1 $\frac{1}{2} ε$ $\frac{1}{2} (1 - ε)$

计算: $H (X ∣ Y) = \sum_{x, y} P (x, y) lo g \frac{1}{P ( x ∣ y )} = (1 - ε) lo g \frac{1}{1 - ε} + ε lo g \frac{1}{ε} = H_{2} (ε) .$

直观解读:

$ε \to 0$ :信道几乎无噪声, $H (X ∣ Y) \to 0$ (接收到 $Y$ 就能还原 $X$ );

$ε \to \frac{1}{2}$ :信道完全随机, $H (X ∣ Y) \to 1$ (知道 $Y$ 也没有帮助)。

$Y \ X$	0	1
0	$\frac{1}{2} (1 - ε)$	$\frac{1}{2} ε$
1	$\frac{1}{2} ε$	$\frac{1}{2} (1 - ε)$

5.2 条件使熵减小(Conditioning Reduces Entropy)

定理 5.3(Thm 3.13) 对任意随机变量 $X, Y$ , $H (X ∣ Y) \leq H (X),$ 等号成立 $⟺$ $X ⊥!!! ⊥ Y$ 。

证明 $H (X ∣ Y) - H (X) = E! [lo g \frac{1}{P ( X ∣ Y )}] - E! [lo g \frac{1}{P ( X )}] = E! [lo g \frac{P ( X )}{P ( X ∣ Y )}] = E! [lo g \frac{P ( X ) P ( Y )}{P ( X , Y )}] .$

令 $Z = \frac{P ( X ) P ( Y )}{P ( X , Y )}$ ,由 Jensen 不等式(对凹函数 $lo g$ ): $E [lo g Z] \leq lo g E [Z] = lo g \sum_{x, y} \frac{P ( x , y ) \cdot P ( x ) P ( y )}{P ( x , y )} = lo g! (\sum_{x} P (x) \sum_{y} P (y)) = lo g 1 = 0.$

故 $H (X ∣ Y) - H (X) \leq 0$ 。等号成立当且仅当 $Z$ 几乎处处为常数 1,即 $P (X, Y) = P (X) P (Y)$ ,即 $X ⊥!!! ⊥ Y$ 。 $■$

注意:"条件使熵减小"是 平均意义下的! 对特定的 $Y = y$ ,条件熵 $H (X ∣ Y = y)$ 可以大于 $H (X)$ ;但加权平均后一定不超过 $H (X)$ 。

5.3 熵的链式法则

定理 5.4(两变量链式法则,Thm 3.14) $H (X, Y) = H (X) + H (Y ∣ X) .$

证明 $H (X) + H (Y ∣ X) = - E [lo g P (X)] - E [lo g P (Y ∣ X)] = - E! [lo g \frac{P ( X , Y )}{P ( X )} \cdot P (X)] = - E [lo g P (X, Y)] = H (X, Y) . ■$

定理 5.5(一般链式法则,Thm 3.15) 对任意随机变量 $X_{1}, \dots, X_{n}$ , $H (X_{1}, \dots, X_{n}) = \sum_{i = 1}^{n} H (X_{i} ∣ X_{1}, \dots, X_{i - 1}) \leq \sum_{i = 1}^{n} H (X_{i}) .$ (不等号由定理 5.3 逐项给出,即次可加性。)

证明(归纳法) 基础( $n = 2$ ):即定理 5.4。

归纳步骤:设对 $n - 1$ 成立,则 $H (X_{1}, \dots, X_{n}) = H (X_{1}, \dots, X_{n - 1}) + H (X_{n} ∣ X_{1}, \dots, X_{n - 1})$ $= \sum_{i = 1}^{n - 1} H (X_{i} ∣ X_{1}, \dots, X_{i - 1}) + H (X_{n} ∣ X_{1}, \dots, X_{n - 1}) = \sum_{i = 1}^{n} H (X_{i} ∣ X_{1}, \dots, X_{i - 1}) . ■$

定理 5.6(条件熵的链式法则,Thm 3.16 & 3.17) $H (X_{1}, X_{2} ∣ Y) = H (X_{1} ∣ Y) + H (X_{2} ∣ X_{1}, Y) .$ 一般地, $H (X_{1}, \dots, X_{n} ∣ Y) = \sum_{i = 1}^{n} H (X_{i} ∣ X_{1}, \dots, X_{i - 1}, Y) .$

证明(以两变量为例) 对 $H (X_{1}, X_{2}, Y)$ 用两种方式展开: $H (X_{1}, X_{2}, Y) = H (Y) + H (X_{1}, X_{2} ∣ Y) = H (Y) + H (X_{1} ∣ Y) + H (X_{2} ∣ X_{1}, Y) .$ 同时 $H (X_{1}, X_{2}, Y) = H (X_{1}, X_{2}) + H (Y ∣ X_{1}, X_{2})$ ,两式相减整理即得。 $■$

5.4 Kolmogorov 复杂度(补充)

定义 5.7(Kolmogorov 复杂度) 对二进制串 $X \in 0, 1^{*}$ ,定义其 Kolmogorov 复杂度 $K (X)$ 为能在通用图灵机(UTM,如 Python 解释器)上输出 $X$ 的最短程序的长度(以比特计)。

直观: $K (X)$ 衡量 $X$ 的”内在随机性”——若 $X$ 有规律可循(如 $00 \dots 0$ ),则存在短程序输出它;若 $X$ 完全随机,则没有比 $X$ 本身更短的描述。 $K (X)$ 与熵的关系是信息论的深层主题,此处暂不展开。

第 6 周互信息、KL 散度与信息不等式

6.1 互信息(Mutual Information)

定义 6.1(互信息,Def 3.18) 随机变量 $X$ 与 $Y$ 之间的互信息定义为 $I (X; Y) = H (X) - H (X ∣ Y) .$ 直观:知道 $Y$ 之后, $X$ 的不确定性减少了多少。

等价表达式

以下四种形式完全等价,各有用武之地:

$I (X; Y) = H (X) - H (X ∣ Y) = H (Y) - H (Y ∣ X) = H (X) + H (Y) - H (X, Y) = D_{KL} (P_{X Y}, ∣, P_{X} P_{Y}) = x, y \sum P (x, y) lo g \frac{P ( x , y )}{P ( x ) P ( y )}$

推导(从定义出发) $I (X; Y) = H (X) - H (X ∣ Y) = H (X) - H (X, Y) + H (Y) = H (X) + H (Y) - H (X, Y) .$ 又 $I (X; Y) = \sum_{x, y} P (x, y) lo g \frac{1}{P ( x ∣ y )} - \sum_{x, y} P (x, y) lo g \frac{1}{P ( x )} = \sum_{x, y} P (x, y) lo g \frac{P ( x , y )}{P ( x ) P ( y )} = D_{KL} (P_{X Y} ∣ P_{X} P_{Y}) .$

逐点互信息(Pointwise MI)

定义 6.2 对特定取值 $(X, Y = y)$ ,逐点互信息为 $I (X; Y = y) = H (X) - H (X ∣ Y = y) .$

注意: $I (X; Y = y)$ 可以为负(例如观测到一个低概率事件反而增大了对 $X$ 的不确定性);但对 $Y$ 取期望后一定非负: $I (X; Y) = E_{Y} [I (X; Y = y)] \geq 0.$

6.2 互信息的基本性质

命题 6.3(对称性,Prop 3.19) $I (X; Y) = I (Y; X) .$ 从 $H (X) + H (Y) - H (X, Y)$ 的形式立即可见。

定理 6.4(非负性,Thm 3.20) $I (X; Y) \geq 0,$ 等号成立 $⟺$ $X ⊥!!! ⊥ Y$ 。

证明 $I (X; Y) = D_{KL} (P_{X Y} ∣ P_{X} P_{Y}) \geq 0,$ 由 Gibbs 不等式(见定理 6.8)直接得到。等号条件: $P_{X Y} = P_{X} P_{Y}$ ,即独立。 $■$

命题 6.5(上界) $I (X; Y) \leq min H (X), H (Y) .$

证明: $I (X; Y) = H (X) - H (X ∣ Y) \leq H (X)$ ;由对称性也 $\leq H (Y)$ 。

特殊情形

若 $X ⊥!!! ⊥ Y$ : $I (X; Y) = 0$ ;

若 $Y = f (X)$ (确定函数): $I (X; Y) = H (Y) - H (Y ∣ X) = H (Y)$ ;

BSC( $ε$ ): $I (X; Y) = H (Y) - H (Y ∣ X) = 1 - H_{2} (ε)$ ,在 $X \sim Bern (1/2)$ 时取最大值。

6.3 条件互信息(Conditional Mutual Information)

定义 6.6(条件互信息,Def 3.25) 对随机变量 $X, Y, Z$ ,条件互信息为 $I (X; Y ∣ Z) = H (X ∣ Z) - H (X ∣ Y, Z) .$ 直观:在已知 $Z$ 的前提下, $Y$ 带来的关于 $X$ 的额外信息量。

等价表达式(Prop 1.3) $I (X; Y ∣ Z) = H (Y ∣ Z) - H (Y ∣ X, Z) = H (Y, Z) - H (Z) - H (X, Y, Z) + H (X, Z) .$

例 6.7 若 $X = f (Y, Z)$ (确定函数),则 $H (X ∣ Y, Z) = 0$ ,故 $I (X; Y ∣ Z) = H (X ∣ Z) .$ 这说明:在已知 $Z$ 后, $Y$ 的加入使 $X$ 的不确定性完全消除。

定理 6.8(条件互信息非负) $I (X; Y ∣ Z) \geq 0,$ 等号成立 $⟺$ $X ⊥!!! ⊥ Y ∣ Z$ 。

证明: $I (X; Y ∣ Z) = H (X ∣ Z) - H (X ∣ Y, Z) \geq 0$ ,因为条件使熵减小(定理 5.3 的条件版)。 $■$

两个推论:

$I (X; Y) = I (X; Y ∣ \emptyset) \geq 0$ (互信息非负);

$H (X ∣ Y) = I (X; X ∣ Y) \geq 0$ (条件熵非负)。

6.4 互信息的链式法则

定理 6.9(互信息链式法则) $I (X; Y, Z) = I (X; Y) + I (X; Z ∣ Y) .$

证明 $LHS = H (X) + H (Y, Z) - H (X, Y, Z) .$ $RHS = [H (X) + H (Y) - H (X, Y)] + [H (X ∣ Y) - H (X ∣ Y, Z)] .$ 其中 $H (X ∣ Y) = H (X, Y) - H (Y)$ , $H (X ∣ Y, Z) = H (X, Y, Z) - H (Y, Z)$ ,代入整理: $RHS = H (X) + H (Y, Z) - H (X, Y, Z) = LHS . ■$

推论 6.10(一般链式法则) $I (X; Y_{1}, \dots, Y_{n}) = \sum_{i = 1}^{n} I (X; Y_{i} ∣ Y_{1}, \dots, Y_{i - 1}) .$ 带条件的版本: $I (X; Y_{1}, \dots, Y_{n} ∣ Z) = \sum_{i = 1}^{n} I (X; Y_{i} ∣ Y_{1}, \dots, Y_{i - 1}, Z) .$

证明(归纳法) 基础( $n = 2$ ):即定理 6.9。

归纳步骤:设对 $n - 1$ 成立, $I (X; Y_{1}, \dots, Y_{n}) = I (X; Y_{1}, \dots, Y_{n - 1}) + I (X; Y_{n} ∣ Y_{1}, \dots, Y_{n - 1})$ $= \sum_{i = 1}^{n - 1} I (X; Y_{i} ∣ Y_{1}, \dots, Y_{i - 1}) + I (X; Y_{n} ∣ Y_{1}, \dots, Y_{n - 1}) = \sum_{i = 1}^{n} I (X; Y_{i} ∣ Y_{1}, \dots, Y_{i - 1}) . ■$

6.5 距离与散度

定义 6.11(全变差距离与 KL 散度) 设 $P, Q$ 是有限集 $Ω$ 上的概率分布。

全变差距离 (Total Variation Distance): $∣ P - Q ∣_{TV} = \frac{1}{2} \sum_{ω \in Ω} ∣ P (ω) - Q (ω) ∣.$

KL 散度 (KL Divergence): $D_{KL} (P ∣ Q) = \sum_{ω \in Ω} P (ω) lo g \frac{P ( ω )}{Q ( ω )} = E_{X \sim P}! [lo g \frac{P ( X )}{Q ( X )}] .$

KL 散度不是距离!

不对称: $D_{KL} (P ∣ Q) \neq = D_{KL} (Q ∣ P)$ ;

不满足三角不等式。

但 KL 散度始终非负(Gibbs 不等式),且等于零 $⟺$ $P = Q$ 。

定理 6.12(Gibbs 不等式 / Thm 3.22) 对任意两个分布 $P, Q$ : $D_{KL} (P ∣ Q) \geq 0,$ 等号成立 $⟺$ $P (x) = Q (x)$ 对所有 $x$ 成立。

证明(Jensen 不等式) $D_{KL} (P ∣ Q) = - E_{X \sim P}! [lo g \frac{Q ( X )}{P ( X )}] \geq - lo g E_{X \sim P}! [\frac{Q ( X )}{P ( X )}] = - lo g \sum_{x} P (x) \cdot \frac{Q ( x )}{P ( x )} = - lo g 1 = 0.$ 第一个不等号由 $- lo g$ 的凸性与 Jensen 不等式给出。等号条件: $Q (X) / P (X)$ 几乎处处为常数,结合 $\sum P = \sum Q = 1$ 即得 $P = Q$ 。 $■$

6.6 信息不等式

6.6.1 数据处理不等式(互信息版)

定理 6.13(Data Processing Inequality for MI) 若 $X \to Y \to Z$ 构成马尔可夫链(即 $X ⊥!!! ⊥ Z ∣ Y$ ),则 $I (X; Z) \leq I (X; Y) .$ 等号成立 $⟺$ $X \to Z \to Y$ 也构成马尔可夫链(即 $X ⊥!!! ⊥ Y ∣ Z$ )。

证明由马尔可夫条件 $X ⊥!!! ⊥ Z ∣ Y$ ,有 $I (X; Z ∣ Y) = 0$ 。

用链式法则对 $I (X; Y, Z)$ 做两种展开: $I (X; Y, Z) = I (X; Y) + = 0 I (X; Z ∣ Y) = I (X; Y) .$ $I (X; Y, Z) = I (X; Z) + I (X; Y ∣ Z) \geq I (X; Z) .$

因此 $I (X; Y) \geq I (X; Z)$ 。等号成立当且仅当 $I (X; Y ∣ Z) = 0$ ,即 $X ⊥!!! ⊥ Y ∣ Z$ 。 $■$

直观理解数据处理只会 损失信息,不会增加信息。 $Z$ 是 $Y$ 的"下游",而 $Y$ 是 $X$ 的"下游";从 $X$ 的角度看, $Z$ 携带的信息不可能超过 $Y$ 。

6.6.2 对数和不等式(Log-Sum Inequality)

引理 6.14(Log-Sum Inequality / Lemma 2.2) 对非负实数 $a_{1}, \dots, a_{n}$ 和 $b_{1}, \dots, b_{n}$ (其中 $\sum a_{i} > 0$ , $\sum b_{i} > 0$ ), $\sum_{i = 1}^{n} a_{i} lo g \frac{a _{i}}{b _{i}} \geq! (\sum_{i = 1}^{n} a_{i}) lo g \frac{\sum _{i} a _{i}}{\sum _{i} b _{i}} .$ 等号成立 $⟺$ $a_{i} / b_{i}$ 对所有 $b_{i} > 0$ 的 $i$ 为常数。

证明令 $A = \sum a_{i}$ , $B = \sum b_{i}$ ,定义分布 $p_{i} = a_{i} / A$ , $q_{i} = b_{i} / B$ 。

由 Gibbs 不等式 $D_{KL} (p ∣ q) \geq 0$ : $\sum_{i} p_{i} lo g \frac{p _{i}}{q _{i}} \geq 0 ⟹ \frac{1}{A} \sum_{i} a_{i} lo g \frac{a _{i} / A}{b _{i} / B} \geq 0.$ 展开 $lo g$ : $\frac{1}{A} \sum_{i} a_{i}! (lo g \frac{a _{i}}{b _{i}} - lo g \frac{A}{B}) \geq 0 ⟹ \sum_{i} a_{i} lo g \frac{a _{i}}{b _{i}} \geq A lo g \frac{A}{B} . ■$

6.6.3 数据处理不等式(KL 散度版)

定理 6.15(Data Processing Inequality for KL Divergence) 设 $P, Q$ 是 $X$ 上的概率分布, $T : X \to Y$ 是任意函数。令 $P_{T (X)}, Q_{T (X)}$ 分别为 $P, Q$ 在 $T$ 下的推前分布 (pushforward): $P_{T (X)} (y) = \sum_{x : T (x) = y} P (x), Q_{T (X)} (y) = \sum_{x : T (x) = y} Q (x) .$ 则 $D_{KL} (P_{X} ∣ Q_{X}) \geq D_{KL} (P_{T (X)} ∣ Q_{T (X)}) .$

证明 $D_{KL} (P_{X} ∣ Q_{X}) = \sum_{x} P (x) lo g \frac{P ( x )}{Q ( x )} = \sum_{y} \sum_{x : T (x) = y} P (x) lo g \frac{P ( x )}{Q ( x )} .$

对每个 $y$ ,令 $a_{x} = P (x)$ , $b_{x} = Q (x)$ (对所有 $x \in T^{- 1} (y)$ ),由对数和不等式: $\sum_{x : T (x) = y} P (x) lo g \frac{P ( x )}{Q ( x )} \geq! (\sum_{x : T (x) = y} P (x)) lo g \frac{\sum _{x : T (x) = y} P ( x )}{\sum _{x : T (x) = y} Q ( x )} = P_{T (X)} (y) lo g \frac{P _{T (X)} ( y )}{Q _{T (X)} ( y )} .$

对 $y$ 求和即得 $D_{KL} (P_{X} ∣ Q_{X}) \geq D_{KL} (P_{T (X)} ∣ Q_{T (X)})$ 。 $■$

直观对数据做任何处理(映射/压缩/随机化),两个分布之间的 KL 散度只会减小,不会增大。这与互信息版本的数据处理不等式在本质上是同一件事(因为 $I (X; Y) = D_{KL} (P_{X Y} ∣ P_{X} P_{Y})$ )。

6.6.4 Fano 不等式

背景:在信息论与统计中,我们常常想知道:如果从 $Y$ 中恢复 $X$ ,错误概率至少有多大?Fano 不等式给出了这个下界。

定理 6.16(Fano's Inequality) 设 $X \in D_{X}$ , $Y$ 为随机变量, $\hat{X} = f (Y)$ 是基于 $Y$ 对 $X$ 的估计器。令 $P_{e} = Pr [\hat{X} \neq = X] .$ 则 $H (X ∣ Y) \leq H_{2} (P_{e}) + P_{e} lo g (∣ D_{X} ∣ - 1) .$ 从而(由 $H_{2} (P_{e}) \leq 1$ )得到简化下界: $P_{e} \geq \frac{H ( X ∣ Y ) - 1}{l o g ∣ D _{X} ∣} .$

证明(平均参数法 + 双向展开) 不妨设 $\hat{X}$ 是 $Y$ 的确定函数(若为随机函数,对随机化参数取期望后结论不变)。令 $E = 1 [\hat{X} \neq = X] \in 0, 1 (错误指示变量) .$

对 $H (E, X ∣ Y)$ 做两种展开:

展开一(先展开 $X$ ): $H (E, X ∣ Y) = H (X ∣ Y) + H (E ∣ X, Y) .$ 因为 $E$ 由 $X$ 和 $Y$ (以及 $\hat{X} = f (Y)$ )完全确定,所以 $H (E ∣ X, Y) = 0$ 。故 $H(E,X\mid Y)=H(X\mid Y).\tag{1}$

展开二(先展开 $E$ ): $H(E,X\mid Y)=H(E\mid Y)+H(X\mid E,Y)\le H(E)+H(X\mid E,Y).\tag{2}$ 上式不等号由”条件使熵减小”给出。

估计 $H (X ∣ E, Y)$ : $H (X ∣ E, Y) = 1 - P_{e} Pr [E = 0] \cdot H (X ∣ E = 0, Y) + P_{e} Pr [E = 1] \cdot H (X ∣ E = 1, Y) .$

$E = 0$ 意味着 $\hat{X} = X$ ,故 $X$ 由 $Y$ 完全确定, $H (X ∣ E = 0, Y) = 0$ ;

$E = 1$ 意味着 $X \neq = \hat{X} (Y)$ ,此时 $X$ 落在 $D_{X} ∖ \hat{X} (Y)$ 中,共 $∣ D_{X} ∣ - 1$ 个值,故 $H (X ∣ E = 1, Y) \leq lo g (∣ D_{X} ∣ - 1)$ 。

因此 $H (X ∣ E, Y) \leq P_{e} lo g (∣ D_{X} ∣ - 1)$ 。

合并:由 $(1) = (2)$ 及 $H (E) = H_{2} (P_{e})$ : $H (X ∣ Y) \leq H_{2} (P_{e}) + P_{e} lo g (∣ D_{X} ∣ - 1) . ■$

Fano 不等式的应用若要证明任何基于 $Y$ 的估计器都有较大错误概率,只需证明 $H (X ∣ Y)$ 很大。这是信息论证明下界的标准框架,在编码定理逆向证明、统计学习理论等场合大量使用。

6.7 信道容量初探

定义 6.17(信道容量,Shannon 1948) 信道 $Π$ 的容量定义为对所有合法输入分布取最大化的互信息: $C (Π) = max_{X \sim χ} I (X; Y), Y \sim Π (\cdot ∣ X) .$

Shannon 信道编码定理(非正式) 任何速率 $R < C (Π)$ 的可靠通信都是可实现的:存在编码方案使错误概率趋于零。反之,任何 $R > C (Π)$ 的可靠通信都是不可能的。

可实现速率上限: $R = C (Π) - o (1)$ 。

例 6.18(BSC(ε) 的容量) $C (BSC (ε)) = max_{X} I (X; Y) = 1 - H_{2} (ε),$ 在 $X \sim Bern (1/2)$ 时取到(此时 $H (Y) = 1$ 取最大)。

当 $ε = 0$ (无噪声)时 $C = 1$ ;当 $ε = 1/2$ (完全随机)时 $C = 0$ 。

附录:第 5—6 周公式速查

公式	含义
$H (X ∣ Y) \leq H (X)$	条件使熵减小(等号 $⟺$ 独立)
$H (X, Y) = H (X) + H (Y ∣ X)$	链式法则(熵)
$I (X; Y) = H (X) - H (X ∣ Y)$	互信息定义
$I (X; Y) = D_{KL} (P_{X Y} ∥ P_{X} P_{Y})$	互信息与 KL 散度
$I (X; Y, Z) = I (X; Y) + I (X; Z ∣ Y)$	链式法则(互信息)
$I (X; Z) \leq I (X; Y)$ ,若 $X \to Y \to Z$	数据处理不等式
$D_{KL} (P_{X} ∥ Q_{X}) \geq D_{KL} (P_{T (X)} ∥ Q_{T (X)})$	KL 散度的数据处理
$H (X ∣ Y) \leq H_{2} (P_{e}) + P_{e} lo g (∥ D_{X} ∥ - 1)$	Fano 不等式
$C (Π) = max_{X} I (X; Y)$	信道容量

符号	含义
$Ω$	样本空间
$D_{X}, Supp (X)$	$X$ 的值域、支撑集
$p_{X} (x)$	$X$ 的 PMF
$p_{X, Y}, p_{X ∣ Y}$	联合/条件 PMF
$E [X], Var (X)$	期望、方差
$X ⊥ ⊥ Y$	$X, Y$ 独立
$X ⊥ ⊥ Y ∣ Z$	给定 $Z$ 条件独立
$H (X), H_{2} (p)$	熵、二元熵
$H (X, Y), H (X ∣ Y)$	联合熵、条件熵
$lo g$	默认以 2 为底

一句话总结

概率三大不等式(Markov / Chebyshev / Chernoff)给我们尾部估计的工具;熵则把这些”概率”凝练成对”信息量”的度量,联合熵与条件熵进一步刻画多个随机变量间的信息关系。

Starry's Blog

Explorer

信息论讲义

目录

第 1 周 概率论基础

1.1 概率空间

1.2 条件概率与三大公式

第 2 周 随机变量、独立性与一阶/二阶矩不等式

2.1 随机变量与分布

2.2 期望与方差

2.3 独立性

2.4 集中不等式 I:Markov 与 Chebyshev

第 3 周 Chernoff 界、大数定律与熵的引入

3.1 Chernoff 界(一般形式)

3.2 Chernoff 界(常用简化形式)

3.3 大数定律

3.4 熵 (Entropy):刻画随机变量的不确定性

典型例子

3.5 凸函数与 Jensen 不等式

3.6 熵的上界

第 4 周 熵的性质、Shannon 唯一性定理、联合熵与条件熵

4.1 Stirling 公式与多项式系数

4.2 熵在确定性函数下的不增

4.3 Shannon 唯一性定理 (Shannon 1948)

4.4 联合熵 (Joint Entropy)

应用 1:二项系数和的熵界

应用 2:二元对称信道初探

4.5 条件熵 (Conditional Entropy)

第 5 周 条件熵的性质与链式法则

5.1 条件熵的边界情况(两个典型例子)

5.2 条件使熵减小(Conditioning Reduces Entropy)

5.3 熵的链式法则

5.4 Kolmogorov 复杂度(补充)

第 6 周 互信息、KL 散度与信息不等式

6.1 互信息(Mutual Information)

等价表达式

逐点互信息(Pointwise MI)

6.2 互信息的基本性质

6.3 条件互信息(Conditional Mutual Information)

6.4 互信息的链式法则

6.5 距离与散度

6.6 信息不等式

6.6.1 数据处理不等式(互信息版)

6.6.2 对数和不等式(Log-Sum Inequality)

6.6.3 数据处理不等式(KL 散度版)

6.6.4 Fano 不等式

6.7 信道容量初探

附录:第 5—6 周公式速查

Graph View

Table of Contents

第 1 周概率论基础

第 2 周随机变量、独立性与一阶/二阶矩不等式

第 4 周熵的性质、Shannon 唯一性定理、联合熵与条件熵

第 5 周条件熵的性质与链式法则

第 6 周互信息、KL 散度与信息不等式