导论class2

mac2025-04-25  8

数据集名称(业务上要解决的问题) 机器学习中的数据集行和列:行是样本/实例;列是特征/属性 类别标签列 特征或属性空间:由特征张成的特征空间 特征或属性向量:组成特征或属性空间中的样本点(行) 特征或属性值:组成特征向量中的值 定义多少行,定义多少列,定义多少类别标签列。 特征列如果是非数值型,应该将其转化为数值。 1.labelencoder标签编码 2.onehot encoder独热编码(将维度扩大) 概念学习:布尔函数氏学习 正例与反例 分类问题(类别标签为离散型)与回归问题(类别标签为连续) 分类: 有监督学习(训练数据集中有类别标签)-任务驱动型 常见算法: 分类问题:决策树算法/KNN/SVM/perception neural network/logistic regression 回归问题:简单线性回归;多元线性回归;Ridgel回归;Lassol回归;ElasticNet回归。 非监督学习(无类别标签:根据特征的相似性或相异性对数据分类、检测异常)-数据驱动型 包括聚类(KMeans)和降维(PCA/LDA) 半监督学习:(有些有类别标签有些没有) 聚类的假设:先根据特征的相似性相异性将样本分组,这时一个组中包括了有标签和无标签样本,根据有标签样本的投票,将无标签的样本打上标签(无标签转化为有标签)。

强化学习:机器学习的重要分支,解决的是连续决策的问题。是一个环境与智能体之间相互作用的连续闭环。介于有监督和无监督之间。 迁移学习:将数据量大的领域构建一个模型,再将这个模型应用于一个数据量小的模型上。

模型:分为决策函数(输出是否)和条件概率分布函数(输出概率) 策略(评价模型好坏-损失函数/误差函数/目标函数):0-1损失函数(模型为决策函数);平方损失函数(条件概率分布函数);绝对损失函数;对数损失函数。 算法:提供求解模型参数的方法。

模型的泛化能力:为了让模型不但在训练集上效果好,在测试集上效果也好(过拟合是模型过于复杂时,在训练集上效果好,在测试集上效果不好)。模型在训练初期,模型过于简单,这时候要增加多项式的项,增加多项式项的次数。在模型训练的中后期,由于模型过于复杂,数据不纯或者训练数据量太少,出现过拟合。这是要增加正则罚项,重新清洗数据,增加训练数量,对样本抽样或特征进行抽样,dropout-随机丢弃一些点(深度学习)。奥卡姆剃刀原则:防止过拟合相同泛化误差时,选择简单模型。

经验风险+正则罚项=结构风险

最新回复(0)