人工智能标准化白皮书(2018版) Andrew Ng (吴恩达) Microsoft(微软公司) 样本(sample)、示例(instance): 特征(feature)、属性(attribute): 属性值(attribute value): 特征空间(feature space): 样本集 (sample set)、数据集(data set): 测试样本”(testing sample): 标记(label): 分类(classification): 回归(regression) 聚类”(clustering) 根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:“ 监督学习”(supervised learning) 和 “无监督学习”(unsupervised learning), 分类和回归是前者的代表,而聚类则是后者的代表. 典型的学习任务包括: 3.1分类(classification) 两类别 vs.多类别 对给定的数据集进行划分,得到若干“簇”;使得“簇内”样本之间较“簇间”样本之间更为相似。通过聚类得到的可能各簇对应一些潜在的概念结构,聚类是自动为给定的样本赋予标记的过程。 聚类举例 将初始的数据高维表示转化为关于样本的低维表示,借助由高维输入空间向低维空间的映射,来简化输入。 – 特征提取,如PCA 假设(hypothesis)、假设空间(hypothesis space): 版本空间(version space) 主要准则: 其它原则 机器学习方法由模型、策略、算法构成,可以简单的表示为:方法=模型+策略+算法 模型的输入X与输出Y构成输入空间X与输出空间Y的联合随机变量(X,Y),遵循联合分布P(X, Y) C经验风险(empirical risk)或经验损失(empirical los) 实际问题中,训练样本数目N非常有限,需对经验风险矫正 D.经验风险最小化(empirical risk minimization,ERM) 在假设空间、损失函数形式、以及训练样本集确定的前提下,经验风险最小化”策略认为:假设空间F中,使经验风险R最小的模型就是最优模型 E.结构风险最小化(structural risk minimization,SRM) ”结构风险最小化”策略认为:假设空间F中,使结构风险R(srm)最小的模型,就是最优模型一.什么是机器学习
基于数据的机器学习是现代智能技术中的重要方法之一,研究从观测数据(样本)出发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测。
机器学习是一门让计算机无需显式编程即可运行的科学。
机器学习是一种数据科学技术,它帮助计算机从现有数据中学习,从而预测未来的行为、结果和趋势。二.机器学习的相关术语
三.机器学习的典型任务
基于已知类别标签的样本构成的训练集,学习预测模型;最终预测模型,对新的观测样本,预测相应的输出;预测结果为事先指定的两个或多个类别中的某一个,或预测结果来自数目有限的离散值之一。
类别数C=2, 两类别分类(binary classification)
类别数C>2, 多类别分类(multiclass classification)
3.2回归(regression)
回归分析基于已知答案的样本构成的训练集,估计自变量与因变量之间关系的统计过程,进而基于该关系对新的观测产生的输出进行预测,预测输出为连续的实数值
3.3 聚类(clustering)
3.4特征降维
–高维数据的低维可视化四.假设与假设空间
五.假设的选择原则
“奥克姆剃刀(Occam’s Razor)”准则
“多释原则”:
(与集成学习的思想一致)六.机器学习的三要素
B.期望风险(expected risk)
机器学习的目标就在于选择具有最小期望风险的模型
当容量 趋于无穷时,经验风险R趋于期望风险R
N足够大时,采用”经验风险最小化”策略可获得较好学习效果;
N很小时,该策略的学习效果未必好,易产生”过拟合(overfitting)”
为防止模型过拟合,提出结构风险最小化”策略
完整的机器学方法步骤示例:
本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器 下载并得到。
ImovieBox网页视频下载器 下载地址: ImovieBox网页视频下载器-最新版本下载
本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.
阅读和此文章类似的: 全球云计算