机器学习十大算法核心思想及应用
监督学习
1. 线性回归:
* 核心思想: 寻找自变量和因变量之间的线性关系。
* 工作原理: 通过拟合一条直线或超平面来最小化预测值与实际值之间的误差。
* 适用场景: 预测连续值,例如房价预测、销售额预测。
2. 逻辑回归:
* 核心思想: 基于线性回归,使用sigmoid函数将输出映射到概率区间(0,1)。
* 工作原理: 通过最大化似然函数来找到最佳拟合曲线,用于分类。
* 适用场景: 二分类问题,例如垃圾邮件识别、信用风险评估。
3. 支持向量机 (SVM):
* 核心思想: 找到一个最优超平面,使得不同类别样本之间的间隔最大化。
* 工作原理: 通过核函数将数据映射到高维空间,并在高维空间中寻找最优超平面。
* 适用场景: 分类和回归问题,例如图像分类、文本分类。
4. 决策树:
* 核心思想: 通过一系列二元问题将数据递归地划分成子集。
* 工作原理: 根据信息增益或基尼系数选择最佳划分特征和阈值。
* 适用场景: 分类和回归问题,例如客户 churn 预测、疾病诊断。
5. 朴素贝叶斯:
* 核心思想: 基于贝叶斯定理,假设特征之间相互独立。
* 工作原理: 计算每个类别下样本特征的概率,并根据贝叶斯公式计算样本属于每个类别的概率。
* 适用场景: 文本分类、垃圾邮件过滤。
无监督学习
6. K 均值聚类:
* 核心思想: 将数据划分成 K 个簇,使得每个簇内的样本尽可能相似。
* 工作原理: 迭代地更新簇中心,直到簇中心不再变化或达到最大迭代次数。
* 适用场景: 客户细分、图像分割。
7. 主成分分析 (PCA):
* 核心思想: 将高维数据降维到低维,同时保留尽可能多的信息。
* 工作原理: 找到数据中方差最大的方向,并将其作为主成分。
* 适用场景: 数据可视化、特征提取。
强化学习
8. Q-学习:
* 核心思想: 通过学习一个 Q 表,来指导智能体在环境中做出最佳决策。
* 工作原理: 智能体根据 Q 表选择动作,并根据环境反馈更新 Q 表。
* 适用场景: 游戏 AI、机器人控制。
集成学习
9. 随机森林:
* 核心思想: 构建多个决策树,并结合它们的预测结果。
* 工作原理: 通过随机抽取样本和特征来构建多个决策树,并使用投票或平均值来进行预测。
* 适用场景: 分类和回归问题,例如图像分类、目标检测。
10. 梯度提升树 (GBDT):
* 核心思想: 依次训练多个弱学习器,每个弱学习器都尝试修正前一个学习器的错误。
* 工作原理: 通过梯度下降法来最小化损失函数,并逐步构建强学习器。
* 适用场景: 分类和回归问题,例如点击率预测、搜索排序。