人工智能机器学习常用算法总结及各个常用算法精确率对比

发布时间：2020-05-12 20:56:21 所属栏目：安全来源：站长网

导读：副标题#e# 机器学习的知识树，这个图片是Github上的，有兴趣的可以自己去看一下：地址：https://github.com/trekhleb/homemade-machine-learning 简单的翻译一下这个树：英文中文 Machine Learning 机器学习 Supervised Learning 监督学习 Unsupervised L

集成算法用一些相对较弱的学习模型独立地就同样的样本进行训练，然后把结果整合起来进行整体预测。集成算法的主要难点在于究竟集成哪些独立的较弱的学习模型以及如何把学习结果整合起来。这是一类非常强大的算法，同时也非常流行。

常见的算法包括：

Boosting， Bootstrapped Aggregation（Bagging），

AdaBoost，堆叠泛化（Stacked Generalization， Blending），

梯度推进机（Gradient Boosting Machine, GBM），随机森林（Random Forest）。

那么集成方法是怎样工作的，为什么他们会优于单个的模型？

他们拉平了输出偏差：如果你将具有民主党倾向的民意调查和具有共和党倾向的民意调查取平均，你将得到一个中和的没有倾向一方的结果。

它们减小了方差：一堆模型的聚合结果和单一模型的结果相比具有更少的噪声。在金融领域，这被称为多元化——多只股票的混合投资要比一只股票变化更小。这就是为什么数据点越多你的模型会越好，而不是数据点越少越好。

它们不太可能产生过拟合：如果你有一个单独的没有过拟合的模型，你是用一种简单的方式（平均，加权平均，逻辑回归）将这些预测结果结合起来，然后就没有产生过拟合的空间了。

无监督学习聚类算法

聚类算法就是将一堆数据进行处理，根据它们的相似性对数据进行聚类。

聚类，就像回归一样，有时候人们描述的是一类问题，有时候描述的是一类算法。聚类算法通常按照中心点或者分层的方式对输入数据进行归并。所以的聚类算法都试图找到数据的内在结构，以便按照最大的共同点将数据进行归类。常见的聚类算法包括 k-Means算法以及期望最大化算法（Expectation Maximization， EM）。

聚类算法有很多种，具体如下：中心聚类、关联聚类、密度聚类、概率聚类、降维、神经网络/深度学习。

人工智能机器学习常用算法总结及各个常用算法精确率对比

K-均值算法(K-Means)

K-means算法是硬聚类算法，是典型的基于原型的目标函数聚类方法的代表，它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度，它是求对应某一初始聚类中心向量V最优分类，使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。K-means算法是很典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。

人工智能机器学习常用算法总结及各个常用算法精确率对比

通常，人们根据样本间的某种距离或者相似性来定义聚类，即把相似的（或距离近的）样本聚为同一类，而把不相似的（或距离远的）样本归在其他类。

主成分分析（Principal Component Analysis，PCA）

主成分分析是利用正交变换将一些列可能相关数据转换为线性无关数据，从而找到主成分。PCA方法最著名的应用应该是在人脸识别中特征提取及数据降维。

人工智能机器学习常用算法总结及各个常用算法精确率对比

PCA主要用于简单学习与可视化中数据压缩、简化。但是PCA有一定的局限性，它需要你拥有特定领域的相关知识。对噪音比较多的数据并不适用。

SVD矩阵分解（Singular Value Decomposition）

也叫奇异值分解（Singular Value Decomposition），是线性代数中一种重要的矩阵分解，是矩阵分析中正规矩阵酉对角化的推广。在信号处理、统计学等领域有重要应用。SVD矩阵是一个复杂的实复负数矩阵，给定一个m行、n列的矩阵M,那么M矩阵可以分解为M = UΣV。U和V是酉矩阵，Σ为对角阵。

人工智能机器学习常用算法总结及各个常用算法精确率对比

PCA实际上就是一个简化版本的SVD分解。在计算机视觉领域，第一个脸部识别算法就是基于PCA与SVD的，用特征对脸部进行特征表示，然后降维、最后进行面部匹配。尽管现在面部识别方法复杂，但是基本原理还是类似的。

独立成分分析(ICA)

独立成分分析（Independent Component Analysis，ICA）是一门统计技术，用于发现存在于随机变量下的隐性因素。ICA为给观测数据定义了一个生成模型。在这个模型中，其认为数据变量是由隐性变量，经一个混合系统线性混合而成，这个混合系统未知。并且假设潜在因素属于非高斯分布、并且相互独立，称之为可观测数据的独立成分。

人工智能机器学习常用算法总结及各个常用算法精确率对比

ICA与PCA相关，但它在发现潜在因素方面效果良好。它可以应用在数字图像、档文数据库、经济指标、心里测量等。

人工智能机器学习常用算法总结及各个常用算法精确率对比

上图为基于ICA的人脸识别模型。实际上这些机器学习算法并不是全都像想象中一样复杂，有些还和高中数学紧密相关。

强化学习 Q-Learning算法

Q-learning要解决的是这样的问题：一个能感知环境的自治agent，怎样通过学习选择能达到其目标的最优动作。

（编辑：源码门户网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

4/7

首页

尾页

企业应对勒索软件攻击	灾难恢复即服务的几个
8种顶级多因素身份验证	2022年数据分析的6大趋