< 西瓜书机器学习课后答案周志华pdf_新闻中心_华体育app官网登录|华体会手机版
2025-08-19 新闻中心

  第一章 绪论 (略) 第一章 绪论 (略) 第二章 模型评估与选择 第二章 模型评估与选择 1.数据集包含 1000个样本,其中500个正例,500个反例,将其划分为包含70%样本的训 1.数据集包含 1000个样本,其中500个正例,500个反例,将其划分为包含70%样本的训 练集和30%样本的测试集用于留出法评估,试估算共有多少种划分方式。 练集和30%样本的测试集用于留出法评估,试估算共有多少种划分方式。 一个组合问题 ,从 500500 正反例 中分别选出 150150 正反例用于留出法评估 ,所 以可能取 一个组合问题 ,从 500500 正反例 中分别选出 150150 正反例用于留出法评估 ,所 以可能取 150 150 2 )2 ( ) 法应该是( 。 法应该是 500 。 500 2.数据集包含100个样本,其中正反例各一半,假定学习算法所产生的模型是将新样本预测 2.数据集包含100个样本,其中正反例各一半,假定学习算法所产生的模型是将新样本预测 为训练样本数较多的类别 (训练样本数相一起进行随机猜测),试给出用 10 折 叉验证法 为训练样本数较多的类别 (训练样本数相一起进行随机猜测),试给出用 10 折 叉验证法 和留一法分别对错误率做评估所得的结果。 和留一法分别对错误率做评估所得的结果。 10 折交叉检验 :由于每次训练样本 中正反例数 目一样 ,所 以讲结果判断为正反例的概率也 10 折交叉检验 :由于每次训练样本 中正反例数 目一样 ,所 以讲结果判断为正反例的概率也 是一样的,所 以错误率的期望是 5050% 。 是一样的,所 以错误率的期望是 5050% 。 留一法 :如果留下的是正例 ,训练样本 中反例的数 目比正例多一个 ,所 以留出的样本会被判 留一法 :如果留下的是正例 ,训练样本 中反例的数 目比正例多一个 ,所 以留出的样本会被判 断是反例;同理 ,留出的是反例 ,则会被判断成正例 ,所 以错误率是 100% 。 断是反例;同理 ,留出的是反例 ,则会被判断成正例 ,所 以错误率是 100% 。 3.若学习器A 的F1值比学习器B高,试析A 的BEP值是否也比B高。 3.若学习器A 的F1值比学习器B高,试析A 的BEP值是否也比B高。 4.试述真正例率 (TPR)、假正例率 (FPR)与查准率 (P)、查全率 (R)之间的联系。 4.试述真正例率 (TPR)、假正例率 (FPR)与查准率 (P)、查全率 (R)之间的联系。 查全率: 真实正例被预测为正例的比例 查全率: 真实正例被预测为正例的比例 真正例率: 真实正例被预测为正例的比例 真正例率: 真实正例被预测为正例的比例 显然查全率与真正例率是相等的。 显然查全率与真正例率是相等的。 查准率:预测为正例的实例 中真实正例的比例 查准率:预测为正例的实例 中真实正例的比例 假正例率: 真实反例被预测为正例的比例 假正例率: 真实反例被预测为正例的比例 两者并没有直接的数值关系。 两者并没有直接的数值关系。 9.试述卡方检验过程。 9.试述卡方检验过程。 第三章 线性模型 第三章 线.试证明,对于参数w,对率回归 (logistics 回归)的目标函数 (式1) 非凸的,但其对 2.试证明,对于参数w,对率回归 (logistics 回归)的目标函数 (式1) 非凸的,但其对 数似然函数 (式2) 凸的。 数似然函数 (式2) 凸的。 如果一个多元函数是凸的,那么它的 Hessian 矩阵是半正定的。 如果一个多元函数是凸的,那么它的 Hessian 矩阵是半正定的。 3.编程实现对率回归,并给出西瓜数据集 3.0α 上的结果 3.编程实现对率回归,并给出西瓜数据集 3.0α 上的结果 /icefire_tyh/article/details /icefire_tyh/article/details 4.选择两个 UCI 数据集 ,比较 10 折交叉验证法和留一法所估计出的对率回归的错误率。 4.选择两个 UCI 数据集 ,比较 10 折交叉验证法和留一法所估计出的对率回归的错误率。 /icefire_tyh/article/details /icefire_tyh/article/details 5.编程实现线性判别分析 ,并给出西瓜数据集 3.0α 上的结果 。 5.编程实现线性判别分析 ,并给出西瓜数据集 3.0α 上的结果 。 /icefire_tyh/article/details /icefire_tyh/article/details 6. LDA 仅在线性可分数据上能获得理想结果 ,试设计一个改进方法 ,使其能较好地用 非 6. LDA 仅在线性可分数据上能获得理想结果 ,试设计一个改进方法 ,使其能较好地用 非 线性可分数据 。 线性可分数据 。 在 当前维度线性不可分 ,能够正常的使用适当的映射方法,使其在更高一维上可分 ,典型的方法有 在 当前维度线性不可分 ,能够正常的使用适当的映射方法,使其在更高一维上可分 ,典型的方法有 KLDA ,可以很好的划分数据。 KLDA ,可以很好的划分数据。 9.使用 OvR 和 MvM 将多分类任务分解为二分类任务求解时,试述为何无需专对于类别 9.使用 OvR 和 MvM 将多分类任务分解为二分类任务求解时,试述为何无需专对于类别 不平衡性做处理 。 不平衡性做处理 。 书中提到,对于 OvROvR,MvMMvM 来说,由于对每个类进行了相同的处理 ,其拆解出的 书中提到,对于 OvROvR,MvMMvM 来说,由于对每个类进行了相同的处理 ,其拆解出的 二分类任务 中类别不平衡的影响会相互抵消,因此通常不需要专门处理。以 ECOCECOC 编 二分类任务 中类别不平衡的影响会相互抵消,因此通常不需要专门处理。以 ECOCECOC 编 码为例 ,每个生成的二分类器会将所有样本分成较为均衡的二类,使类别不平衡的影响减小。 码为例 ,每个生成的二分类器会将所有样本分成较为均衡的二类,使类别不平衡的影响减小。 当然拆解后仍然也许会出现 明显的类别不平衡现象,比如一个超级大类和一群小类。 当然拆解后仍然也许会出现 明显的类别不平衡现象,比如一个超级大类和一群小类。 第四章 决策树 第四章 决策树 4.1.试证明对于不含冲突数据 (即特征向量完 相同但标记不同)的训练集,必存在与训练 4.1.试证明对于不含冲突数据 (即特征向量完 相同但标记不同)的训练集,必存在与训练 集一致 (即训练误差为0)的决策树。 集一致 (即训练误差为0)的决策树。 因为决策树是通过属性来划分 ,相同属性的样本最终肯定会进入相同的叶节点。一个叶节点 因为决策树是通过属性来划分 ,相同属性的样本最终肯定会进入相同的叶节点。一个叶节点 只有一个分类,如果样本属性相同而分类不同,必然产生训练误差。反之,决策树只会在 当 只有一个分类,如果样本属性相同而分类不同,必然产生训练误差。反之,决策树只会在 当 前样本集合是同一类或者所有属性相同时才会停止划分 ,最终得到训练误差为 0 的决策树。 前样本集合是同一类或者所有属性相同时才会停止划分 ,最终得到训练误差为 0 的决策树。 4.2.试析使用“最小训练误差”作为决策树划分选择的缺陷。 4.2.试析使用“最小训练误差”作为决策树划分选择的缺陷。 从机器学习最开始就讲起 ,最小训练误差并不可靠,由于过度学习样本特性最后导致严重的 从机器学习最开始就讲起 ,最小训练误差并不可靠,由于过度学习样本特性最后导致严重的 过拟合 ,而没有泛化能力。 过拟合 ,而没有泛化能力。 4.3.试编程实现基于信息熵进行划分选择的决策树算法,并为表4.3 中数据生成一棵决策树。 4.3.试编程实现基于信息熵进行划分选择的决策树算法,并为表4.3 中数据生成一棵决策树。 /icefire_tyh/article/details /icefire_tyh/article/details 重写的不剪枝的决策树 重写的不剪枝的决策树 /icefire_tyh/article/details /icefire_tyh/article/details 即 ID3 算法 即 ID3 算法 4.4.试编程实现基于基尼指数进行划分选择的决策树算法,并为表 4.2 中数据生成预剪枝、 4.4.试编程实现基于基尼指数进行划分选择的决策树算法,并为表 4.2 中数据生成预剪枝、 后剪枝决策树,并与未剪枝决策树作比较。 后剪枝决策树,并与未剪枝决策树作比较。 /icefire_tyh/article/details /icefire_tyh/article/details 即 CART 算法 即 CART 算法 4.5.试编程实现基于对率回归进行划分选择的决策树算法,并为表 4.3 中数据生成一棵决策 4.5.试编程实现基于对率回归进行划分选择的决策树算法,并为表 4.3 中数据生成一棵决策 树。 树。 /icefire_tyh/article/details /icefire_tyh/article/details 思路 :参考书 p90-91 的多变量决策树模型,这里我们将每个非叶节点作为一个对率回归分 思路 :参考书 p90-91 的多变量决策树模型,这里我们将每个非叶节点作为一个对率回归分 类器 ,输出为”是”、”否”两类,形成形如二叉树的决策树。 类器 ,输出为”是”、”否”两类,形成形如二叉树的决策树。 4.6.试选择4个UCI数据集,对上述3种算法所产生的未剪枝、预剪枝、后剪枝决策树进行 4.6.试选择4个UCI数据集,对上述3种算法所产生的未剪枝、预剪枝、后剪枝决策树进行 实验比较,并进行适当的统计显著性检验。 实验比较,并进行适当的统计显著性检验。 答案一 答案一 简要的分析一下: 简要的分析一下: ID3 算法基于信息熵增益,CART 算法则采用了基尼系数。两种划分属性选择均是基于数据 ID3 算法基于信息熵增益,CART 算法则采用了基尼系数。两种划分属性选择均是基于数据 纯度的角度,方法差距应该不大 (CART 可能要好一点)。而对率回归进行划分选择,以斜划 纯度的角度,方法差距应该不大 (CART 可能要好一点)。而对率回归进行划分选择,以斜划 分的方式,实现 了多变量参与划分 ,其模型决策边界更光滑。 分的方式,实现 了多变量参与划分 ,其模型决策边界更光滑。 相比于决策树的生成算法,剪枝操作更影响模型性能。 相比于决策树的生成算法,剪枝操作更影响模型性能。

  2、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。

  3、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。

  4、VIP文档为合作方或网友上传,每下载1次, 网站将按照每个用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

  大卫不可以绘本讲解幼儿读物幼儿教育教育专区-大卫不可以绘本讲解.pdf

  LPCQ空气处理机组LPCQ-PRC001-ZH20170804.pdf

  CECS193-2005 城镇供水长距离输水管(渠)道工程作业规程.pdf

  《Python数学建模算法与应用课件》04第4章 线性规划和整数规划模型.pptx

  ASME中国制造-ISO12944-7-2017 中文译稿 第7部分 涂装工作的实施和监管.pdf

  JTT1495-2024公路水运危险性较大工程安全专项实施工程的方案审查规程.pdf

  原创力文档创建于2008年,本站为文档C2C交易模式,即用户上传的文档直接分享给其他用户(可下载、阅读),本站只是中间服务平台,本站所有文档下载所得的收益归上传人所有。原创力文档是网络服务平台方,若您的权利被侵害,请发链接和相关诉求至 电线) ,上传者

CONTACT US
欢迎随时与我们联系