机器学习(Machine Leaming)日记N1

mac2024-01-28  55

机器学习(Machine Learning)是什么?

背景:

 机器学习一词源自于IBM的Arthur Samuel,他定义机器学习的概念是在进行特定编程的情况下,给予计算机学习能力的领域。在上世纪的五十世纪,他设计了一款可以自己学习的西洋棋程序,他通过编程让西洋棋自己和自己下了上万盘棋,久而久之西洋棋便明白了什么布局是能够胜利的,什么布局是失败的,而程序通过学习后下棋的水平已经超过了Samuel。  而近代另一个更形式化的定义是由Tom Mitchell提出来的,Mitchell将这个定义更加抽象到普遍现象下。他说,一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P,当且仅当,有了经验E后,经过P评判,程序在处理T时的性能有所提升。所以在Samuel的概念下,经验E就是程序自己经过上万次的训练得到的经验,而T就是下棋这项任务,最关键的P就是程序与一些新对手下棋比赛时赢得比赛的概率。  “经验”通常以 “数据” 形式存在,因此机器学习所研究的主要内容是关于在计算机上数据中产生的“模型”(model)的算法,即“学习算法”(learning algorithm)

基本术语:

1、数据集(data set):

一组记录的集合称为数据集。

2、示例(instance):

也叫 “样本”(sample),数据集中每条记录是关于一个事件或对象的描述。

3、属性(attribute):

也叫 “特征”(feature),反应事件或对象在某方面的表现或性质的事项。

4、属性值(attribute value):

属性上的取值。

5、属性空间(attribute space):

属性张成的空间,也叫 “样本空间”(sample space) 或者"输入空间"。

6、特征向量(feature vector):

一个示例称为一个特征向量。

7、学习(learning):

从数据中学的模型的过程称为“学习”或 “训练”(training),这个过程需要通过执行某个学习算法来完成。

8、训练数据(training data):

训练过程中使用的数据称为训练数据。其中每一个样本称为 “训练样本”(training sample)。训练样本组成的集合称为 “训练集”(training set)。

9、假设(hypothesis):

学得模型对应了关于数据的某种潜在规律,称为“假设”,这种潜在规律自身,则称为“真相”或“真实”(grand-truth)。学习过程就是为了找出或逼近真相。

10、预测(prediction):

我们通过获得的训练样本的“结果”信息来建立关于事件的“预测”模型。

11、分类(classification):

如果我们欲预测的是离散值,此类学习任务就称为“分类”。

12、回归(regression):

如果我们欲预测的是连续值,此类任务就称为“回归”。

13、测试(testing):

学得模型后,使用其进行预测的过程称为"测试",被预测的样本称为“测试样本”。

14、聚类(clustering):

我们对训练集中的样本分为若干个组,每组称为一个“簇”(cluster)。

15、监督学习(supervised learning)和无监督学习(unsupervised learning):

根据训练数据是否标有标记信息,学习任务可大致分为两大类:监督学习和无监督学习,分类和回归是监督学习的代表,而聚类则是无监督学习的代表。

16、泛化(generalization):

我们希望学得的簇划分能适用于没在训练集中出现的样本,学得模型适用于新样本的能力,称为“泛化”能力。具有强泛化能力的模型能很好的适用于整个样本空间。

17、分布(distribution):

通常假设样本空间中全体样本服从一个未知“分布”D,我们获得的每个样本都是随机地从这个分布上采样获得的,即 “独立同分布”(independent and identically 简称i.i.d),一般而言,训练样本越多,我们得到的关于D的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型,达到我们预期的目的。

两个基本的机器学习问题

1、监督学习

监督学习 基本思想: 在数据集中每个样本都有相应的“正确答案”,再根据这些样本做出预测。 回归问题: 通过回归,推出一个连续的输出; 分类问题: 其目标就是推出一组离散的结果。

2、无监督学习

针对数据集,无监督学习能判断出两个不同的聚类簇,unsupervised learning 可能把这些数据分成两个不同的簇,叫做 聚类算法。

最新回复(0)