机器学习定义与任务分类 (ML Definitions & Tasks)

1. 机器学习的本质

机器学习是人工智能的一个分支,旨在设计算法,通过输入经验数据 (Empirical data) 来产生模式或预测 (Patterns or predictions)

2. 任务分类 (Broad Categories)

分类目标典型算法/任务
监督学习 (Supervised)学习预测函数 分类 (Discrete Labels)、回归 (Continuous Labels)

+1
无监督学习 (Unsupervised)学习解释性函数 ,“无老师学习”聚类、密度估计、降维 (Dimensionality reduction)
其他任务针对特定场景优化半监督学习、主动学习、强化学习 (RL)、迁移学习

核心模型与硬核考点 (Core Models & Key Concepts)

1. 经典分类器 (Classifiers)

  • K-Nearest Neighbors (K-NN): 一种非参数化 (Non-parametric) 方法。考点在于距离度量 (Distance metric) 的选择对结果至关重要 。
  • 支持向量机 (Support Vector Machines, SVM): * 最大间隔原则 (Maximum margin principle): 寻找鲁棒性最强的决策边界 。
    • 核技巧 (Kernel trick): 将线性不可分问题映射到高维空间处理 。
    • 通过凸优化 (Convex optimization) 技术高效求解 。
  • 朴素贝叶斯 (Naïve Bayes): 基于贝叶斯准则的概率图模型。 其中 是先验 (Prior), 是似然 (Likelihood), 是证据 (Evidence) 。

2. 模型选择原则

  • 奥卡姆剃刀 (Occam’s Razor): 在解释能力相当时,倾向于简单的模型。
  • 欠拟合 (Underfitting) vs. 过拟合 (Overfitting):
    • 欠拟合: 模型太简单,无法捕捉训练数据特征 。
    • 过拟合: 模型太复杂,过度拟合了训练数据的噪声,导致泛化能力差 。
  • No Free Lunch: 没有一种模型能在所有问题上表现最好 。

3. 维度的诅咒与祝福 (Dimensionality)

  • 维度的诅咒 (Curse of Dimensionality): 在高维空间中,数据变得极度稀疏,无论有多少数据都显得不足 。

  • 维度的祝福 (Blessing of Dimensionality): 现实世界的数据通常集中在高维空间中的低维、稀疏或退化的结构(流形)上 。


深度学习与表示学习 (Deep Learning)

1. 核心思想

  • 表示学习 (Representation Learning): 传统机器学习依赖人工特征工程 (Feature extraction),而深度学习实现了特征提取 + 分类的端到端自动化 。

  • 层次化结构 (Hierarchical): 模仿生物视觉系统。从低层(边缘、细节)到中层(纹理、局部),再到高层(物体、语义)的抽象过程 。

2. 生物学基础

  • Hubel & Wiesel (1981 诺贝尔奖): 发现初级视觉皮层 (V1) 的神经元具有感受野,且信息处理具有层级性,这是 CNN 的生物学启发 。

2026 前沿研究热点 (Hot Topics 2026)

作为 2026 年的课程,以下是当前最硬核的研究方向 :

  • 具身智能与世界模型 (Embodied AI and World Models)
  • 多模态与全模态生成 (Multimodality and “Any-to-Any” Generation)
  • 高效 AI 与小语言模型 (SLMs)
  • AI for Automated Science (AI4Science)
  • 推理侧计算优化 (Test time compute / Reasoning)