目录


第 1 周 概率论基础

信息论中最基本的研究对象————是建立在随机变量及其分布之上的,因此首先严格回顾概率论的核心定义。

1.1 概率空间

定义 1.1(概率测度)

概率是一个映射 ,其中 是样本空间 上的事件域(σ-代数)。 满足:

  1. 非负性:;
  2. 归一性:;
  3. 可加性:对两两不相交的事件 ,有
  • 事件 (Event):样本空间 中样本点的集合,通常视为 的子集。
  • 独立事件 (Independent Events):若 ,则称事件 独立。

1.2 条件概率与三大公式

定义 1.2(条件概率)

,在 发生条件下 的概率为

全概率公式 (Law of Total Probability)

的一个划分,且 ,则对任意事件 ,

贝叶斯公式 (Bayes' Law)

对任意事件 ,:

直观理解:贝叶斯公式把”先验” 通过观察到 后更新成”后验” , 是似然带来的更新因子。


第 2 周 随机变量、独立性与一阶/二阶矩不等式

2.1 随机变量与分布

定义 2.1(随机变量)

随机变量 (r.v.) 是一个函数 ,其中 称为 值域 (domain/range)

定义 2.2(概率质量函数 PMF)

离散随机变量 PMF支撑集 (support)

定义 2.3(联合/边缘/条件分布)

为随机变量。

  • 联合分布:
  • 边缘分布:
  • 条件分布:对 ,

2.2 期望与方差

定义 2.4(期望与方差)

定义 2.5(条件期望)

对事件 ,:

期望的线性性 (Linearity of Expectation)

任意两个随机变量 (无论是否独立),

2.3 独立性

定义 2.6(独立性)

随机变量 独立,记作 ,当且仅当对所有 ,

定义 2.7(相互独立 / 两两独立 / 条件独立)

, 为随机变量。

  • 相互独立 (mutually independent):对所有 ,
  • 两两独立 (pairwise independent):对所有 ,
  • 条件独立:给定 ,称 ,若对所有满足 ,

两两独立 ≠ 相互独立

相互独立严格强于两两独立。例如三个 0/1 变量 两两独立但不相互独立。

命题 2.8(独立随机变量的性质)

相互独立,则

  1. ;
  2. ;
  3. 对任意函数 , 仍相互独立。

定义 2.9(马尔可夫链)

称随机变量 构成马尔可夫链 (Markov chain),若对每个 , 直观:给定”现在”,则”未来”与”过去”无关。

2.4 集中不等式 I:Markov 与 Chebyshev

定理 2.10(Markov 不等式 / 一阶矩方法)

的随机变量,,则

例 2.11

,则 。Markov 给出的界比较松。

定理 2.12(Chebyshev 不等式 / 二阶矩方法)

有均值 、方差 。对任意 :

例 2.13(1000 次硬币实验)

, 独立。则 ,

估计 : 比 Markov 给出的界精细得多。


第 3 周 Chernoff 界、大数定律与熵的引入

3.1 Chernoff 界(一般形式)

定理 3.1(Chernoff Bound, General Form)

相互独立,,

  • 上尾 (upper tail):对任意 ,
  • 下尾 (lower tail):对任意 ,

注:Chernoff 界的紧度

对 Bernoulli 随机变量,Chernoff 界在 直至 范围内是紧的(tight)。

3.2 Chernoff 界(常用简化形式)

实际使用时,以下指数形式更便于估计。

定理 3.2(乘性 Chernoff 界,简化形式)

在定理 3.1 的条件下:

  • 上尾:对任意 ,
  • 下尾:对 ,

直观对比

不等式适用条件衰减速度
Markov
Chebyshev有限方差
Chernoff独立有界和(指数)

Chernoff 是目前最强、最紧的尾部界,广泛用于随机化算法、密码学、机器学习、信息论。

3.3 大数定律

定理 3.3(弱大数定律, Weak Law of Large Numbers)

独立同分布(i.i.d.),,方差有限 。令 则对任意 ,


3.4 熵 (Entropy):刻画随机变量的不确定性

定义 3.4(熵)

是离散随机变量,PMF 为 ,定义为 (默认底数为 2,单位 bit。)

熵是对不确定性的度量: 越大, 越”不可预测”。

命题 3.5(非负性)

对任意随机变量 ,,等号成立 几乎处处取确定值。

证明草图:每一项 (对 ),且仅当某个 、其余 时整个和为 0。

典型例子

例 3.6(常见分布的熵)

  • 均匀分布: 均匀分布,,
  • 二元(Bernoulli)熵:,, 时取最大值 1,函数对称且关于 凹。

3.5 凸函数与 Jensen 不等式

定义 3.7(凸函数)

,若对所有 , 时严格小于,则称 严格凸

定理 3.8(Jensen 不等式)

凸,,,则 严格凸,则等号成立 在所有 的位置上 全相等。

凹函数(如 ),不等号反向。

3.6 熵的上界

定理 3.9(熵的最大值)

取值数为 ,则 ; 等号成立 在其支撑集上均匀分布。


第 4 周 熵的性质、Shannon 唯一性定理、联合熵与条件熵

4.1 Stirling 公式与多项式系数

Stirling 公式

由此可估计二项系数:对 ,

更一般地,多项式系数:对概率向量 ,

直观理解

熵刻画了典型序列的数量级:在长度 、字符分布为 的序列中,典型序列约有 条。这是熵作为”信息量”度量的组合学根据。

4.2 熵在确定性函数下的不增

定理 4.1

是随机变量,,其中 确定性函数。则 等号成立 上是单射

直观:确定性函数不会增加随机性——可能把不同 合并成同一个 ,从而损失信息。

4.3 Shannon 唯一性定理 (Shannon 1948)

定理 4.2(Shannon 1948,熵的唯一性)

是非负函数,满足以下三条公理:

  1. 连续性 (Continuity): 关于每个 连续;
  2. 对称性 (Symmetry): 的任意置换下不变;
  3. 可加性 / 分组律 (Additivity / Grouping):若一个选择被分解为多步, 其中

则存在常数 使得

4.4 联合熵 (Joint Entropy)

定义 4.3(联合熵)

联合 PMF 为 联合熵

例 4.4(独立时联合熵相加)

独立,则 ,

定理 4.5(联合熵的次可加性, Subadditivity)

对任意随机变量 , 等号成立 独立。

应用 1:二项系数和的熵界

例 4.6(二项系数和的上界)

,

证明:取 ,则 一一对应,故

由次可加性:(对称性)。

,且 单调递增,故 综合得 ,即结论。

应用 2:二元对称信道初探

例 4.7(BSC 信道的联合熵)

,噪声 独立,

计算:

  • 。所以

  • 联合分布: 同概率, 同概率。

    因此

验证次可加性:,等号当且仅当 (此时 独立)。

     X            Y
 0 ──────1-ε─────► 0
    ╲   ε    ╱
     ╲      ╱
      ╲    ╱
     ε ╲  ╱
 1 ──────1-ε─────► 1

BSC(ε):比特以概率 ε 翻转。

4.5 条件熵 (Conditional Entropy)

定义 4.8(条件熵)

联合 PMF 为 给定 的条件熵

等价表达

先固定 计算”片段熵”,再按 的分布加权平均:

链式法则 (Chain Rule)

证明:由 ,两边取 再求期望即可。

几个直接推论

  • 由次可加性 与链式法则,得 条件不增: 等号 。即”知道更多,信息量(不确定性)不增”。
  • ,等号 的确定函数。

第 5 周 条件熵的性质与链式法则

回顾:条件熵的定义(第 4 周末) 等价地,

5.1 条件熵的边界情况(两个典型例子)

例 5.1

  • ( 的确定函数):。 知道 后, 完全确定,不确定性为零。
  • ( 独立): 的信息对 毫无帮助。

例 5.2(BSC(ε) 的条件熵) 设 均匀, 独立,

联合分布(行为 ,列为 ):

01
0
1

计算:

直观解读:

  • :信道几乎无噪声,(接收到 就能还原 );
  • :信道完全随机,(知道 也没有帮助)。

5.2 条件使熵减小(Conditioning Reduces Entropy)

定理 5.3(Thm 3.13) 对任意随机变量 , 等号成立

注意:"条件使熵减小"是 平均意义下的! 对特定的 ,条件熵 可以大于 ;但加权平均后一定不超过

5.3 熵的链式法则

定理 5.4(两变量链式法则,Thm 3.14)

定理 5.5(一般链式法则,Thm 3.15) 对任意随机变量 , (不等号由定理 5.3 逐项给出,即次可加性。)

定理 5.6(条件熵的链式法则,Thm 3.16 & 3.17) 一般地,

5.4 Kolmogorov 复杂度(补充)

定义 5.7(Kolmogorov 复杂度) 对二进制串 ,定义其 Kolmogorov 复杂度 为能在通用图灵机(UTM,如 Python 解释器)上输出 的最短程序的长度(以比特计)。

直观: 衡量 的”内在随机性”——若 有规律可循(如 ),则存在短程序输出它;若 完全随机,则没有比 本身更短的描述。 与熵的关系是信息论的深层主题,此处暂不展开。


第 6 周 互信息、KL 散度与信息不等式

6.1 互信息(Mutual Information)

定义 6.1(互信息,Def 3.18) 随机变量 之间的互信息定义为 直观:知道 之后, 的不确定性减少了多少。

等价表达式

以下四种形式完全等价,各有用武之地:

逐点互信息(Pointwise MI)

定义 6.2 对特定取值 ,逐点互信息

注意: 可以为负(例如观测到一个低概率事件反而增大了对 的不确定性);但对 取期望后一定非负:

6.2 互信息的基本性质

命题 6.3(对称性,Prop 3.19) 的形式立即可见。

定理 6.4(非负性,Thm 3.20) 等号成立

命题 6.5(上界)

证明:;由对称性也

特殊情形

  • :;
  • (确定函数):;
  • BSC():,在 时取最大值。

6.3 条件互信息(Conditional Mutual Information)

定义 6.6(条件互信息,Def 3.25) 对随机变量 ,条件互信息 直观:在已知 的前提下, 带来的关于 的额外信息量。

等价表达式(Prop 1.3)

例 6.7 若 (确定函数),则 ,故 这说明:在已知 后, 的加入使 的不确定性完全消除。

定理 6.8(条件互信息非负) 等号成立

证明:,因为条件使熵减小(定理 5.3 的条件版)。

两个推论:

  • (互信息非负);
  • (条件熵非负)。

6.4 互信息的链式法则

定理 6.9(互信息链式法则)

推论 6.10(一般链式法则) 带条件的版本:


6.5 距离与散度

定义 6.11(全变差距离与 KL 散度) 设 是有限集 上的概率分布。

  • 全变差距离 (Total Variation Distance):
  • KL 散度 (KL Divergence):

KL 散度不是距离!

  • 不对称:;
  • 不满足三角不等式

但 KL 散度始终非负(Gibbs 不等式),且等于零

定理 6.12(Gibbs 不等式 / Thm 3.22) 对任意两个分布 : 等号成立 对所有 成立。


6.6 信息不等式

6.6.1 数据处理不等式(互信息版)

定理 6.13(Data Processing Inequality for MI) 若 构成马尔可夫链(即 ),则 等号成立 也构成马尔可夫链(即 )。

直观理解 数据处理只会 损失信息,不会增加信息。 的"下游",而 的"下游";从 的角度看, 携带的信息不可能超过

6.6.2 对数和不等式(Log-Sum Inequality)

引理 6.14(Log-Sum Inequality / Lemma 2.2) 对非负实数 (其中 ,), 等号成立 对所有 为常数。

6.6.3 数据处理不等式(KL 散度版)

定理 6.15(Data Processing Inequality for KL Divergence) 设 上的概率分布, 是任意函数。令 分别为 下的推前分布 (pushforward):

直观 对数据做任何处理(映射/压缩/随机化),两个分布之间的 KL 散度只会减小,不会增大。这与互信息版本的数据处理不等式在本质上是同一件事(因为 )。

6.6.4 Fano 不等式

背景:在信息论与统计中,我们常常想知道:如果从 中恢复 ,错误概率至少有多大?Fano 不等式给出了这个下界。

定理 6.16(Fano's Inequality) 设 , 为随机变量, 是基于 的估计器。令 从而(由 )得到简化下界:

Fano 不等式的应用 若要证明 任何基于 的估计器都有较大错误概率,只需证明 很大。这是信息论证明下界的标准框架,在编码定理逆向证明、统计学习理论等场合大量使用。


6.7 信道容量初探

定义 6.17(信道容量,Shannon 1948) 信道 容量定义为对所有合法输入分布取最大化的互信息:

Shannon 信道编码定理(非正式) 任何速率 的可靠通信都是可实现的:存在编码方案使错误概率趋于零。反之,任何 的可靠通信都是不可能的

可实现速率上限:

例 6.18(BSC(ε) 的容量) 时取到(此时 取最大)。

(无噪声)时 ;当 (完全随机)时


附录:第 5—6 周公式速查

公式含义
条件使熵减小(等号 独立)
链式法则(熵)
互信息定义
互信息与 KL 散度
链式法则(互信息)
,若 数据处理不等式
KL 散度的数据处理
Fano 不等式
信道容量
符号含义
样本空间
的值域、支撑集
的 PMF
联合/条件 PMF
期望、方差
独立
给定 条件独立
熵、二元熵
联合熵、条件熵
默认以 2 为底

一句话总结

概率三大不等式(Markov / Chebyshev / Chernoff)给我们尾部估计的工具;熵则把这些”概率”凝练成对”信息量”的度量,联合熵与条件熵进一步刻画多个随机变量间的信息关系。