D)h(x)=c(x)一个样例x在h(x)=1时称为满足假设h,无论x是目标概念的正例还是反例。 当一假设能正确划分一个正例时,称该假设覆盖该正例。 变型空间(version space):与训练样例一致的所有假设组成的集合,表示了目标概念的所有合理的变型,VS H,D={hH|Consistent(h,D)} 第三章
决策树适用问题的特征: 实例由“属性-值”对(pair)表示 目标函数具有离散的输出值 可能需要析取的描述 训练数据可以包含错误
训练数据可以包含缺少属性值的实例 ID3算法特点:
搜索完整的假设空间(也就是说,决策树空间能够表示定义在离散实例上的任何离
散值函数)
从根向下推断决策树,为每个要加入树的新决策分支贪婪地选择最佳的属性。 归纳偏置,优先选择较小的树
观察ID3的搜索空间和搜索策略,认识到这个算法的优势和不足
假设空间包含所有的决策树,它是关于现有属性的有限离散值函数的一个完整空间 维护单一的当前假设(不同于第二章的变型空间候选消除算法) 不进行回溯,可能收敛到局部最优
每一步使用所有的训练样例,不同于基于单独的训练样例递增作出决定,容错性增强 ID3和候选消除算法的比较
ID3的搜索范围是一个完整的假设空间,但不彻底地搜索这个空间
候选消除算法的搜索范围是不完整的假设空间,但彻底地搜索这个空间 ID3的归纳偏置完全是搜索策略排序假设的结果,来自搜索策略
候选消除算法完全是假设表示的表达能力的结果,来自对搜索空间的定义 过度拟合:
1文档来源为:从网络收集整理.word版本可编辑.
文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.
对于一个假设,当存在其他的假设对训练样例的拟合比它差,但事实上在实例的整个分布上表现得却更好时,我们说这个假设过度拟合训练样例
定义:给定一个假设空间H,一个假设hH,如果存在其他的假设h’H,使得在训练样例上h的错误率比h’小,但在整个实例分布上h’的错误率比h小,那么就说假设h过度拟合训练数据
导致过度拟合的原因
1.一种可能原因是训练样例含有随机错误或噪声
2.特别是当少量的样例被关联到叶子节点时,很可能出现巧合的规律性,使得一些属性恰巧可以很好地分割样例,但却与实际的目标函数并无关系 避免过度拟合的方法 特点
及早停止树增长 精确地估计何时停止树增长 后修剪法 被证明在实践中更成功 避免过度拟合的关键:使用什么样的准则来确定最终正确树的规模,解决这个问题的方法有: 训练和验证集法
可用数据分成两个样例集合: 训练集合,形成学习到的假设
验证集合,评估这个假设在后续数据上的精度 方法的动机:即使学习器可能会被训练集合误导,但验证集合不大可能表现出同样的随机波动
验证集合应该足够大,以便它本身可提供具有统计意义的实例样本 常见的做法是,样例的三分之二作训练集合,三分之一作验证集合 错误率降低修剪(reduced-error pruning)
将树上的每一个节点作为修剪的候选对象 修剪步骤
删除以此节点为根的子树,使它成为叶结点 把和该节点关联的训练样例的最常见分类赋给它 反复修剪节点,每次总是选取那些删除后可以最大提高决策树在验证集合上
的精度的节点
继续修剪,直到进一步的修剪是有害的为止 数据集分成3个子集
训练样例,形成决策树 验证样例,修剪决策树 测试样例,精度的无偏估计
如果有大量的数据可供使用,那么使用分离的数据集合来引导修剪 规则后修剪(rule post-pruning)
步骤
从训练集合推导出决策树,增长决策树直到尽可能好地拟合训练数据,允许
过度拟合发生
将决策树转化为等价的规则集合,方法是为从根节点到叶节点的每一条路径
创建一条规则
通过删除任何能导致估计精度提高的前件来修剪每一条规则 按照修剪过的规则的估计精度对它们进行排序,并按这样的顺序应用这些规
则来分类后来的实例
第四章
2文档来源为:从网络收集整理.word版本可编辑.
文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.
解决反向传播算法中的过度拟合问题的方法: 权值衰减
它在每次迭代过程中以某个小因子降低每个权值,这等效于修改E的定义,加
入一个与网络权值的总量相应的惩罚项,此方法的动机是保持权值较小,从而使学习过程向着复杂决策面的反方向偏置
验证数据
一个最成功的方法是在训练数据外再为算法提供一套验证数据,应该使用在验
证集合上产生最小误差的迭代次数,不是总能明显地确定验证集合何时达到最小误差
k-fold交叉方法
把训练样例分成k份,然后进行k次交叉验证过程,每次使用不同的一份作为验证集合,其余k-1份合并作为训练集合。
每个样例会在一次实验中被用作验证样例,在k-1次实验中被用作训练样例 每次实验中,使用上面讨论的交叉验证过程来决定在验证集合上取得最佳性能的迭代次数,然后计算这些迭代次数的均值
最后,运行一次反向传播算法,训练所有m个实例并迭代 i 次 前馈网络的表征能力 布尔函数:任何布尔函数可以被具有两层单元的网络准确表示,尽管在最坏情况下所需隐藏单元的数量随着网络输入数量的增加成指数级增长。 连续函数:每个有界的连续函数可以由一个两层的网络以任意小的误差逼近。这个结论适用于在隐藏层使用sigmoid单元、在输出层使用(非阈值)线性单元的网络。所需的隐藏单元数量依赖于要逼近的函数。 任意函数:任意函数可以被一个有三层单元的网络以任意精度逼近。两个隐藏层使用sigmoid单元,输出层使用线性单元,每层所需单元数不确定。 第五章
对有限数据样本集的采样方法
k-fold方法
随机抽取至少有30个样例的测试集合,剩余样例组成训练集合,重复这一过程
直到足够的次数
随机方法的好处是能够重复无数次,以减少置信区间到需要的宽度 k-fold方法受限于样例的总数
随机方法的缺点是,测试集合不再被看作是从基准实例分布中抽取
k-fold交叉验证生成的测试集合是的,因为一个实例只在测试集合中出现一次 概括而言,统计学模型在数据有限时很少能完美地匹配学习算法验证中的所有约束。然
而,它们确实提供了近似的置信区间 第六章
贝叶斯学习方法的特性
观察到的每个训练样例可以增量地降低或升高某假设的估计概率 先验知识可以与观察数据一起决定假设的最终概率
每个候选假设的先验概率
每个可能假设在可观察数据上的概率分布
贝叶斯方法可允许假设做出不确定性的预测
新的实例分类可由多个假设一起做出预测,用它们的概率来加权
即使在贝叶斯方法计算复杂度较高时,它们仍可作为一个最优的决策标准衡量其他
3文档来源为:从网络收集整理.word版本可编辑.
文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.
方法
一致学习器定义:如果某个学习器输出的假设在训练样例上为0错误率 一致学习器输出一个MAP假设的条件 1.H上有均匀的先验概率
2.。训练数据是确定性和无噪声的
在特定前提下,任一学习算法如果使输出的假设预测和训练数据之间的误差平方和最小化,它将输出一极大似然假设
误差平方最小化的法则寻找到极大似然假设的前提是:训练数据可以由目标函数值加上正态分布噪声来模拟
使交叉熵最小化的法则寻找极大似然假设基于的前提是:观察到的布尔值为输入实例的概率函数
贝叶斯最优分类器的定义:
特点:1。它所做的分类可以对应于H中不存在的假设
2.在给定可用数据、假设空间及这些假设的先验概率下使新实例被正确分类的可能性达到最大
vargmaxP(vj)P(ai|vj)朴素贝叶斯分类器的定义: NBvjVi只要条件性得到满足,朴素贝叶斯分类vNB等于MAP分类,否则是近似
区别:没有明确地搜索可能假设空间的过程(假设的形成不需要搜索,只是简单地计算训练样例中不同数据组合的出现频率)
各学习器的归纳偏置:
机械式学习器没有归纳偏置
候选消除算法的归纳偏置:目标概念c包含在给定的假设空间H中,即h H
Find-s 的归纳偏置:除了假设目标概念须在假设空间中,还有另一个归纳偏置前提:任何实例,除非它的逆实例可由其他知识逻辑推出,否则它为反例。
ID3算法的归纳偏置:较短的树比较长的树优先。那些信息增益高的属性更靠近根节点的树优先。
反向传播算法的归纳偏置:在数据之间平滑插值 奥坎姆剃刀:优先选择拟合数据的最简单假设
误差平方最小化的法则寻找到极大似然假设的前提是:训练数据可以由目标函数值加上正态分布噪声来模拟
使交叉熵最小化的法则寻找极大似然假设基于的前提是:观察到的布尔值为输入实例的概率函数
对于不等式约束的条件极值问题,可以用拉格朗日方法求解。于是得到拉格朗日方程如下:
(3) 其中:
4文档来源为:从网络收集整理.word版本可编辑.
文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.
(4)
那么我们要处理的规划问题就变为:
(5)
(5)式是一个凸规划问题,其意义是先对α求偏导,令其等于0消掉α,然后再对w和b求L的最小值。为此我们把(5)式做一个等价变换:
上式即为对偶变换,这样就把这个凸规划问题转换成了对偶问题:
(6)
其意义是:原凸规划问题可以转化为先对w和b求偏导,令其等于0消掉w和b,然后再对α求L的最大值。下面我们就来求解(6)式,为此我们先计算w和b的偏导数。由(3)式有:
(7)
为了让L在w和b上取到最小值,令(7)式的两个偏导数分别为0,于是得到:
(8)
将(8)代回(3)式,可得:
(9)
再把(9)代入(6)式有:
5文档来源为:从网络收集整理.word版本可编辑.
文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.
(10)
考虑到(8)式,我们的对偶问题就变为:
(11)
上式这个规划问题可以直接从数值方法计算求解。
需要指出的一点是,(2)式的条件极值问题能够转化为(5)式的凸规划问题,其中隐含着一个约束,即:
(12)
这个约束是这样得来的,如果(2)和(5)等效,必有: 把(3)式代入上式中,得到:
化简得到:
(13)
又因为约束(1)式和(4)式,有: 所以要使(13)式成立,只有令:
,由此得到(12)式的
约束。该约束的意义是:如果一个样本是支持向量,则其对应的拉格朗日系数非零;如果一个样本不是支持向量,则其对应的拉格朗日系数一定为0。由此可知大多数拉格朗日系数都是0。
一旦我们从(11)式求解出所有拉格朗日系数,就可以通过(8)式的
6文档来源为:从网络收集整理.word版本可编辑.
文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.
计算得到最优分割面H的法向量w。而分割阈值b也可以通过(12)式的约束用支持向量计算出来。这样我们就找到了最优的H1和H2,这就是我们训练出来的SVM
此文档是由网络收集并进行重新排版整理.word可编辑版本!
7文档来源为:从网络收集整理.word版本可编辑.