机器学习概论-科普篇
什么是机器学习?
机器学习是一门多领域交叉学科。专门研究计算机或其他软硬件设备怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有知识结构使不断改善自身的性能。
机器学习的应用领域
机器学习是人工智能研究的核心内容。它的应用已遍及人工智能的各个分支。如:专家系统,自动推理,自然语言处理,模式识别,计算机视觉,智能机器人等领域。
机器学习与数据挖掘的区别
机器学习在数据挖掘中被大量使用,其技术内涵几乎通用,可以看作同一座山峰在不同角度下的侧影。
机器学习与统计学的关系
机器学习和统计学是非常接近的两个领域。根据 Michael I. Jordan在机器学习领域的理念,从方法论原则到理论工具,在统计学领域是有一段很长的史前史。他也建议数据科学这一术语作为全部领域的前置。 Leo Breiman区别两个统计学的模型:数据模型和算法模型,在算法模型中意味着或多或少包含着机器学习的算法,比如随机森林(Random forest)。 一些统计学家已经采纳了机器学习中的一些做法,引申出了一个联结领域—–统计学习。
机器学习方法
决策树学习:决策树学习使用了一个决策树作为预测性模型,映射一个对象的观察结果给其目标价值一个推论。
关联规则学习:是一种用来在大型数据库中发现变量之间的有趣联系的方法,例如频繁模式挖掘。
人工神经网络:一个人工神经网络学习(ANN)算法,通常被称为神经网络(NN),是一个由生物的神经网络所激发出的一个算法。计算结构是由联结的人工神经元组所构成,通过联结式的方法来传递信息和计算。现代神经网络是非线性的统计学数据模型工具。它们通常被用来在输入和输出之间模拟复杂关系,找到数据中的关系,或者在观测变量中从不知道的节点捕获统计学结构。
深度学习:个人不能承受硬件的价格和GPU的发展推动了这些年深度学习的进步,深度学习是由人工神经网络中的多个隐藏层组成的。这条道路试图去模拟人脑的过程,光、声进入视觉和听觉。一些成功的应用有计算机视觉和演讲识别。
归纳逻辑编程:归纳逻辑编程(ILP)是一门用逻辑编程控制规则的学科,它使用统一的表示法来处理输入样例,背景知识和假说。给定已知的背景知识的编码和一组被表示为事实的逻辑数据库的示例,ILP系统将派生出一个假设的逻辑程序,该程序包含所有积极的和没有负面的示例。归纳编程是一个相关的领域,它考虑任何一种表示假设(而不仅仅是逻辑编程)的编程语言,例如函数式编程。
支持向量机:支持向量机是一系列关于监督学习在分类和回归上的应用。给出训练样本的数据集,每一个标记属于两类中的一类,一个SVM训练算法构成了一个模型,可以用来预测一个新的样本是否进入一个类别或者是另一个。
集群:集群分析是将一组观察结果分配到子集(称为集群),这样,同一集群中的观察与一些预先确定的标准或标准相似,而来自不同集群的观察则不同。不同的聚类技术对数据的结构作出不同的假设,通常由一些相似性度量定义,并通过内部紧度(相同集群的成员之间的相似性)和不同的集群之间的分离来评估。其他方法基于估计的密度和图连通性。摘要聚类是一种非引导性学习的方法,是一种统计数据分析的常用技术。
贝叶斯网络:一个贝叶斯网络,信任网络或者有向无环图模型是一个概率性图的模型,它通过有向无环图代表了一系列的随机变量和他们的条件独立性。举例,一个贝叶斯网络代表着疾病和症状可能的关系。给出症状,网络可以被用来计算疾病出现的可能性。有效的算法存在于执行推理和学习的过程中。
增强学习:增强学习关心代理人如何在一个环境中采取行动,从而最大化一些长期受益的概念。增强学习算法尝试去寻找一些策略,映射当前世界的状态给代理在这些状态中应该采取的行动。
相似度量学习:在这个问题中,学习机被给予了很多对相似或者不相似的例子。它需要去学习一个相似的函数,以用来预测一个新的对象是否相似。它有时被用到推荐系统中。
遗传算法:遗传算法是一种启发式搜索,它模仿自然选择的过程,并且使用一些突变和变向来生成新的基因型,以找到好的情况解决问题。在机器学习中,遗传算法在20世纪80年代和90年代使用过。反之,机器学习技术被用来提高遗传和进化算法的表现。
基于规则的机器学习:基于规则的机器学习是任何机器学习方法的通用术语,它可以识别、学习或发展规则来存储、操作或应用知识。基于规则的机器学习者的定义特征是一组关系规则的标识和利用,这些规则集合了系统所捕获的知识。这与其他机器学习者形成鲜明对比,他们通常会识别出一种特殊的模型,这种模型可以普遍应用于任何实例,以便做出预测。基于规则的机器学习方法包括学习分类器系统、关联规则学习和人工免疫系统。
机器学习应用场景
活跃的领域:
- 数据分析
- 数据挖掘。
- 图像和语音识别
- 智能机器,机器人,人机对话,电脑博弈。
推荐系统:
- 基于物品的协同过滤
- 频繁模式挖掘
贝叶斯分类器:
- 垃圾邮件过滤
- 网页自动分类:自动化门户系统
- 评论自动分析
决策树
- 量化交易
- 智能博弈
- 局面标准化
- 局面评估函数
- 棋谱学习
神经网络和深度学习
- 语音识别,图像识别
- 图形识别:
- 车牌识别
- 指纹,虹膜纹识别
- 脸像识别
- 动态图像识别
- 小波分析
机器学习常用软件
常用软件列表:
- R(及其扩展包)
- Weka(Waikato Environment for Knowledge Analysis)
- Matlab
- Python,numpy,matplotlib,sklearn,tensorflow
代表性算法
回归预测及降维技术:
- 线性回归
- Logistic回归
- 主成分分析
- 因子分析
- 岭回归
- LASSO
分类器:
- 决策树
- 朴素贝叶斯
- 贝叶斯信念网络
- 支持向量机(SVM)
- 提升分类器准确率的Adaboost和随机森林算法
聚类和孤立点判别
- Kmeans聚类
人工神经网路及深度学习
- CNN
- RNN
…