选择特殊符号

Ф δ ° × # Ⅱ Ⅲ ½ ¼

选择搜索类型

市场价信息价参考价询价供应商云知资讯文库百科

热门搜索

造价通

请输入搜索

首页 > 百科 > 建设工程百科

数据挖掘：实用机器学习工具与技术

《数据挖掘:实用机器学习工具与技术》是2014年机械工业出版社出版的图书，作者是威滕、弗兰克。

数据挖掘：实用机器学习工具与技术基本信息

中文名数据挖掘
外文名Data Mining
作者威滕、弗兰克
出版社机械工业出版社
页数462页
开本16
品牌机械工业出版社
类型科技
出版日期2014年5月1日
语种简体中文
ISBN9787111453819

数据挖掘：实用机器学习工具与技术作者简介

Ian H. Witten 新西兰怀卡托大学计算机科学系教授，ACM Fellow和新西兰皇家学会Fellow，曾荣获2004年国际信息处理研究协会（IFIP）颁发的Namur奖项。他的研究兴趣包括语言学习、信息检索和机器学习。 Eibe Frank 新西兰怀卡托大学计算机科学系副教授，《Machine Learning Journal》和《Journal of Artificial Intelligence Research》编委。 Mark A. Hall 新西兰怀卡托大学名誉副研究员，曾获得2005年ACM SIGKDD服务奖。 李川博士，副教授，四川大学计算机学院数据库知识工程研究所副所长，中国计算机学会数据库专委会委员。主持国家自然科学基金青年基金等项目多项，合作发表论文30余篇，获四川省科技成果二等奖1项。

数据挖掘：实用机器学习工具与技术造价信息

市场价
信息价
询价

挖掘机

规格型号：
传动方式:液压;品种:履带式单斗挖掘机;型号:200;斗容量(m3):1.3
价格行情：
材料单位：
台班
材料品牌：
日立
材料税率：
13%
供应商：
天津市驿和泽土方工程有限公司
报价时间：
2022-12-08

查看价格

挖掘机

规格型号：
传动方式:液压;品种:履带式单斗挖掘机;型号:300;斗容量(m3):1.3
价格行情：
材料单位：
台班/月
材料品牌：
徐工
材料税率：
13%
供应商：
徐工集团阿城办事处
报价时间：
2022-12-08

查看价格

挖掘机

规格型号：
传动方式:液压;品种:履带式单斗挖掘机;型号:450;斗容量(m3):1.9
价格行情：
材料单位：
台班/月
材料品牌：
徐工
材料税率：
13%
供应商：
徐工集团北京销售服务中心
报价时间：
2022-12-08

查看价格

挖掘机

规格型号：
传动方式:液压;品种:履带式单斗挖掘机;型号:450;斗容量(m3):1.9
价格行情：
材料单位：
台班/月
材料品牌：
徐工
材料税率：
13%
供应商：
徐工集团阿城办事处
报价时间：
2022-12-08

查看价格

挖掘机

规格型号：
传动方式:液压;品种:履带式单斗挖掘机;型号:300;斗容量(m3):1.3
价格行情：
材料单位：
台班/月
材料品牌：
徐工
材料税率：
13%
供应商：
徐工集团北京销售服务中心
报价时间：
2022-12-08

查看价格

挖掘机

规格型号：
斗容量1m3
价格行情：
材料单位：
台
材料税率：
地区时间：
广州市2016年2季度信息价
所属行业：
建筑工程
备注说明：

查看价格

挖掘机

规格型号：
斗容量0.6m3
价格行情：
材料单位：
台·日
材料税率：
地区时间：
广州市2015年2季度信息价
所属行业：
建筑工程
备注说明：

查看价格

挖掘机

规格型号：
斗容量1m3
价格行情：
材料单位：
台
材料税率：
地区时间：
广州市2015年2季度信息价
所属行业：
建筑工程
备注说明：

查看价格

挖掘机

规格型号：
斗容量0.6m3
价格行情：
材料单位：
台·日
材料税率：
地区时间：
广州市2015年1季度信息价
所属行业：
建筑工程
备注说明：

查看价格

挖掘机

规格型号：
斗容量1.2m3
价格行情：
材料单位：
台
材料税率：
地区时间：
广州市2015年1季度信息价
所属行业：
建筑工程
备注说明：

查看价格

数据备份与恢复系统

规格型号：
数据备份与恢复系统【V8.0】
需求量：
1套
报价数：
3
材料品牌：
材料档次：
中档
费用说明：
不含税费 | 含运费
询价时间：
2022-10-14

查看价格

数据挖掘分析服务器

规格型号：
1.名称:数据挖掘分析服务器 2.品牌:徽粤大海/DHWL 3.型号:DHWL-SER-3CSPFWFA 4.产地:中国5.功能参数:1、数据挖掘查询、技战法分析应用;2、CPU主频2.2GHz;3、CPU核心数量:10个;4、内存:32G DDR4;5、硬盘:2.4T ;6、网口:2个千兆电口.
需求量：
1套
报价数：
3
材料品牌：
材料档次：
高档
费用说明：
不含税费 | 含运费
询价时间：
2020-10-23

查看价格

学科学习与潜能开发的高效实践心理干预技术

规格型号：
详见线下技术要求文件
需求量：
1项
报价数：
2
材料品牌：
材料档次：
中高档
费用说明：
含税费 | 含运费
询价时间：
2022-05-24

查看价格

技术与设计教学挂图

规格型号：
8张,彩色,内容是常用设备和工具的使用方法以及注意事项.
需求量：
1套
报价数：
1
材料品牌：
材料档次：
中高档
费用说明：
含税费 | 含运费
询价时间：
2019-06-21

查看价格

数据收集与整编入库

规格型号：
包括针对灌区信息对数据库进行设计,灌区数据的收集、整理与录入,使用期间数据的更新维护.
需求量：
1套
报价数：
1
材料品牌：
材料档次：
中档
费用说明：
含税费 | 含运费
询价时间：
2020-08-04

查看价格

数据挖掘：实用机器学习工具与技术图书目录

出版者的话 译者序 前言 致谢 第一部分数据挖掘简介 第1章绪论2 1.1 数据挖掘和机器学习2 1.1.1 描述结构模式3 1.1.2 机器学习5 1.1.3 数据挖掘6 1.2 简单的例子：天气问题和其他问题6 1.2.1 天气问题7 1.2.2 隐形眼镜：一个理想化的问题8 1.2.3 鸢尾花：一个经典的数值型数据集10 1.2.4 CPU性能：介绍数值预测11 1.2.5 劳资协商：一个更真实的例子11 1.2.6 大豆分类：一个经典的机器学习的成功例子13 1.3 应用领域14 1.3.1 Web挖掘15 1.3.2 包含评判的决策15 1.3.3 图像筛选16 1.3.4 负载预测17 1.3.5 诊断17 1.3.6 市场和销售18 1.3.7 其他应用19 1.4 机器学习和统计学20 1.5 将泛化看做搜索21 1.5.1 枚举概念空间22 1.5.2 偏差22 1.6 数据挖掘和道德24 1.6.1 再识别25 1.6.2 使用个人信息25 1.6.3 其他问题26 1.7 补充读物27 第2章输入：概念、实例和属性29 2.1 概念29 2.2 样本31 2.2.1 关系32 2.2.2 其他实例类型34 2.3 属性35 2.4 输入准备37 2.4.1 数据收集37 2.4.2 ARFF格式38 2.4.3 稀疏数据40 2.4.4 属性类型40 2.4.5 缺失值41 2.4.6 不正确的值42 2.4.7 了解数据43 2.5 补充读物43 第3章输出：知识表达44 3.1 表44 3.2 线性模型44 3.3 树45 3.4 规则48 3.4.1 分类规则49 3.4.2 关联规则52 3.4.3 包含例外的规则52 3.4.4 表达能力更强的规则54 3.5 基于实例的表达56 3.6 聚类58 3.7 补充读物60 第4章算法：基本方法61 4.1 推断基本规则61 4.1.1 缺失值和数值属性62 4.1.2 讨论64 4.2 统计建模64 4.2.1 缺失值和数值属性67 4.2.2 用于文档分类的朴素贝叶斯68 4.2.3 讨论70 4.3 分治法：建立决策树70 4.3.1 计算信息量73 4.3.2 高度分支属性74 4.3.3 讨论75 4.4 覆盖算法：建立规则76 4.4.1 规则与树77 4.4.2 一个简单的覆盖算法77 4.4.3 规则与决策列表80 4.5 挖掘关联规则81 4.5.1 项集81 4.5.2 关联规则83 4.5.3 有效地生成规则85 4.5.4 讨论87 4.6 线性模型87 4.6.1 数值预测：线性回归87 4.6.2 线性分类：Logistic回归88 4.6.3 使用感知机的线性分类90 4.6.4 使用Winnow的线性分类91 4.7 基于实例的学习92 4.7.1 距离函数93 4.7.2 有效寻找最近邻93 4.7.3 讨论97 4.8 聚类97 4.8.1 基于距离的迭代聚类98 4.8.2 快速距离计算99 4.8.3 讨论100 4.9 多实例学习100 4.9.1 聚集输入100 4.9.2 聚集输出100 4.9.3 讨论101 4.10 补充读物101 4.11 Weka实现103 第5章可信度：评估学习结果104 5.1 训练和测试104 5.2 预测性能106 5.3 交叉验证108 5.4 其他评估方法109 5.4.1 留一交叉验证109 5.4.2 自助法109 5.5 数据挖掘方法比较110 5.6 预测概率113 5.6.1 二次损失函数114 5.6.2 信息损失函数115 5.6.3 讨论115 5.7 计算成本116 5.7.1 成本敏感分类117 5.7.2 成本敏感学习118 5.7.3 提升图119 5.7.4 ROC曲线122 5.7.5 召回率—精确率曲线124 5.7.6 讨论124 5.7.7 成本曲线125 5.8 评估数值预测127 5.9 最小描述长度原理129 5.10 在聚类方法中应用MDL原理131 5.11 补充读物132 第二部分高级数据挖掘 第6章实现：真正的机器学习方案134 6.1 决策树135 6.1.1 数值属性135 6.1.2 缺失值136 6.1.3 剪枝137 6.1.4 估计误差率138 6.1.5 决策树归纳的复杂度140 6.1.6 从决策树到规则140 6.1.7 C4.5：选择和选项141 6.1.8 成本—复杂度剪枝141 6.1.9 讨论142 6.2 分类规则142 6.2.1 选择测试的标准143 6.2.2 缺失值和数值属性143 6.2.3 生成好的规则144 6.2.4 使用全局优化146 6.2.5 从局部决策树中获得规则146 6.2.6 包含例外的规则149 6.2.7 讨论151 6.3 关联规则152 6.3.1 建立频繁模式树152 6.3.2 寻找大项集157 6.3.3 讨论157 6.4 扩展线性模型158 6.4.1 最大间隔超平面159 6.4.2 非线性类边界160 6.4.3 支持向量回归161 6.4.4 核岭回归163 6.4.5 核感知机164 6.4.6 多层感知机165 6.4.7 径向基函数网络171 6.4.8 随机梯度下降172 6.4.9 讨论173 6.5 基于实例的学习174 6.5.1 减少样本集的数量174 6.5.2 对噪声样本集剪枝174 6.5.3 属性加权175 6.5.4 泛化样本集176 6.5.5 用于泛化样本集的距离函数176 6.5.6 泛化的距离函数177 6.5.7 讨论178 6.6 局部线性模型用于数值预测178 6.6.1 模型树179 6.6.2 构建树179 6.6.3 对树剪枝180 6.6.4 名目属性180 6.6.5 缺失值181 6.6.6 模型树归纳的伪代码181 6.6.7 从模型树到规则184 6.6.8 局部加权线性回归184 6.6.9 讨论185 6.7 贝叶斯网络186 6.7.1 预测186 6.7.2 学习贝叶斯网络189 6.7.3 算法细节190 6.7.4 用于快速学习的数据结构192 6.7.5 讨论194 6.8 聚类194 6.8.1 选择聚类的个数195 6.8.2 层次聚类195 6.8.3 层次聚类的例子196 6.8.4 增量聚类199 6.8.5 分类效用203 6.8.6 基于概率的聚类204 6.8.7 EM算法205 6.8.8 扩展混合模型206 6.8.9 贝叶斯聚类207 6.8.10 讨论209 6.9 半监督学习210 6.9.1 用于分类的聚类210 6.9.2 协同训练212 6.9.3 EM和协同训练212 6.9.4 讨论213 6.10 多实例学习213 6.10.1 转换为单实例学习213 6.10.2 升级学习算法215 6.10.3 专用多实例方法215 6.10.4 讨论216 6.11 Weka实现216 第7章数据转换218 7.1 属性选择219 7.1.1 独立于方案的选择220 7.1.2 搜索属性空间222 7.1.3 具体方案相关的选择223 7.2 离散化数值属性225 7.2.1 无监督离散化226 7.2.2 基于熵的离散化226 7.2.3 其他离散化方法229 7.2.4 基于熵的离散化与基于误差的离散化229 7.2.5 离散属性转换成数值属性230 7.3 投影230 7.3.1 主成分分析231 7.3.2 随机投影233 7.3.3 偏最小二乘回归233 7.3.4 从文本到属性向量235 7.3.5 时间序列236 7.4 抽样236 7.5 数据清洗237 7.5.1 改进决策树237 7.5.2 稳健回归238 7.5.3 检测异常239 7.5.4 一分类学习239 7.6 多分类问题转换成二分类问题242 7.6.1 简单方法242 7.6.2 误差校正输出编码243 7.6.3 集成嵌套二分法244 7.7 校准类概率246 7.8 补充读物247 7.9 Weka实现249 第8章集成学习250 8.1 组合多种模型250 8.2 装袋251 8.2.1 偏差—方差分解251 8.2.2 考虑成本的装袋253 8.3 随机化253 8.3.1 随机化与装袋254 8.3.2 旋转森林254 8.4 提升255 8.4.1 AdaBoost算法255 8.4.2 提升算法的威力257 8.5 累加回归258 8.5.1 数值预测258 8.5.2 累加Logistic回归259 8.6 可解释的集成器260 8.6.1 选择树260 8.6.2 Logistic模型树262 8.7 堆栈262 8.8 补充读物264 8.9 Weka实现265 第9章继续：扩展和应用266 9.1 应用数据挖掘266 9.2 从大型的数据集里学习268 9.3 数据流学习270 9.4 融合领域知识272 9.5 文本挖掘273 9.6 Web挖掘276 9.7 对抗情形278 9.8 无处不在的数据挖掘280 9.9 补充读物281 第三部分 Weka数据挖掘平台 第10章 Weka简介284 10.1 Weka中包含了什么284 10.2 如何使用Weka285 10.3 Weka的其他应用286 10.4 如何得到Weka286 第11章 Explorer界面287 11.1 开始287 11.1.1 准备数据287 11.1.2 将数据载入Explorer288 11.1.3 建立决策树289 11.1.4 查看结果290 11.1.5 重做一遍292 11.1.6 运用模型292 11.1.7 运行错误的处理294 11.2 探索Explorer294 11.2.1 载入及过滤文件294 11.2.2 训练和测试学习方案299 11.2.3 自己动手：用户分类器301 11.2.4 使用元学习器304 11.2.5 聚类和关联规则305 11.2.6 属性选择306 11.2.7 可视化306 11.3 过滤算法307 11.3.1 无监督属性过滤器307 11.3.2 无监督实例过滤器312 11.3.3 有监督过滤器314 11.4 学习算法316 11.4.1 贝叶斯分类器317 11.4.2 树320 11.4.3 规则322 11.4.4 函数325 11.4.5 神经网络331 11.4.6 懒惰分类器334 11.4.7 多实例分类器335 11.4.8 杂项分类器336 11.5 元学习算法336 11.5.1 装袋和随机化337 11.5.2 提升338 11.5.3 组合分类器338 11.5.4 成本敏感学习339 11.5.5 优化性能339 11.5.6 针对不同任务重新调整分类器340 11.6 聚类算法340 11.7 关联规则学习器345 11.8 属性选择346 11.8.1 属性子集评估器347 11.8.2 单一属性评估器347 11.8.3 搜索方法348 第12章 KnowledgeFlow界面351 12.1 开始351 12.2 KnowledgeFlow组件353 12.3 配置及连接组件354 12.4 增量学习356 第13章 Experimenter界面358 13.1 开始358 13.1.1 运行一个实验358 13.1.2 分析结果359 13.2 简单设置362 13.3 高级设置363 13.4 分析面板365 13.5 将运行负荷分布到多个机器上366 第14章命令行界面368 14.1 开始368 14.2 Weka的结构368 14.2.1 类、实例和包368 14.2.2 weka.core包370 14.2.3 weka.classifiers包371 14.2.4 其他包372 14.2.5 Javadoc索引373 14.3 命令行选项373 14.3.1 通用选项374 14.3.2 与具体方案相关的选项375 第15章嵌入式机器学习376 15.1 一个简单的数据挖掘应用376 15.1.1 MessageClassifier（）380 15.1.2 updateData（）380 15.1.3 classifyMessage（）381 第16章编写新的学习方案382 16.1 一个分类器范例382 16.1.1 buildClassifier（）389 16.1.2 makeTree（）389 16.1.3 computeInfoGain（）390 16.1.4 classifyInstance（）390 16.1.5 toSource（）391 16.1.6 main（）394 16.2 与实现分类器有关的惯例395 第17章 WekaExplorer的辅导练习397 17.1 Explorer界面简介397 17.1.1 导入数据集397 17.1.2 数据集编辑器397 17.1.3 应用过滤器398 17.1.4 可视化面板399 17.1.5 分类器面板399 17.2 最近邻学习和决策树402 17.2.1 玻璃数据集402 17.2.2 属性选择403 17.2.3 类噪声以及最近邻学习403 17.2.4 改变训练数据的数量404 17.2.5 交互式建立决策树405 17.3 分类边界406 17.3.1 可视化1R406 17.3.2 可视化最近邻学习407 17.3.3 可视化朴素贝叶斯407 17.3.4 可视化决策树和规则集407 17.3.5 弄乱数据408 17.4 预处理以及参数调整408 17.4.1 离散化408 17.4.2 离散化的更多方面408 17.4.3 自动属性选择409 17.4.4 自动属性选择的更多方面410 17.4.5 自动参数调整410 17.5 文档分类411 17.5.1 包含字符串属性的数据411 17.5.2 实际文档文类412 17.5.3 探索StringToWordVector过滤器413 17.6 挖掘关联规则413 17.6.1 关联规则挖掘413 17.6.2 挖掘一个真实的数据集415 17.6.3 购物篮分析415 参考文献416 索引4312100433B

数据挖掘：实用机器学习工具与技术内容简介

大数据时代应用机器学习方法解决数据挖掘问题的实用指南。 洞察隐匿于大数据中的结构模式，有效指导数据挖掘实践和商业应用。 weka系统的主要开发者将丰富的研发、商业应用和教学实践的经验和技术融会贯通。 广泛覆盖在数据挖掘实践中采用的算法和机器学习技术，着眼于解决实际问题 避免过分要求理论基础和数学知识，重点在于告诉读者“如何去做”，同时包括许多算法、代码以及具体实例的实现。 将所有的概念都建立在具体实例的基础之上，促使读者首先考虑使用简单的技术。如果简单的技术不足以解决问题，再考虑提升到更为复杂的高级技术。 新版增加了大量近年来最新涌现的数据挖掘算法和诸如Web数据挖掘等新领域的介绍，所介绍的weka系统增加了50%的算法及大量新内容。 本书是机器学习和数据挖掘领域的经典畅销教材，被众多国外名校选为教材。书中详细介绍用于数据挖掘领域的机器学习技术和工具以及实践方法，并且提供了一个公开的数据挖掘工作平台Weka。本书主要内容包括：数据输入/输出、知识表示、数据挖掘技术（决策树、关联规则、基于实例的学习、线性模型、聚类、多实例学习等）以及在实践中的运用。本版对上一版内容进行了全面更新，以反映自第2版出版以来数据挖掘领域的技术变革和新方法，包括数据转换、集成学习、大规模数据集、多实例学习等，以及新版的Weka机器学习软件。本书逻辑严谨、内容翔实、极富实践性，适合作为高等院校本科生或研究生的教材，也可供相关技术人员参考。

数据挖掘：实用机器学习工具与技术常见问题

数据挖掘中数据光滑技术分箱深度指什么

就是只几个数据一组来光滑数据，举例说明：bin1：13 15 16bin2：19 20 22bin3：25 25 29上面的深度为3，就是3个一组来smooth
如何对客户进行数据挖掘与分析

如何对客户进行数据挖掘与分大数据平台是为了计算，现今社会所产生的越来越大的数据量。以存储、运算、展现作为目的的平台大数据平台是允许开发者们或是将写好的程序放在“云”里运行，或是使用“云”里提供的服务，...
挖掘机技术

不懂LZ有关动臂方面的知识是什么意思？如果真要把动臂方方面面都弄懂弄全，估计基本就是一个结构设计工程师了。我工作和挖掘机相关，就了解的方面给你说一点吧。今晚有空，也无聊呵呵，就慢慢给你手打吧，望对你...

数据挖掘：实用机器学习工具与技术文献

数据挖掘技术在挖掘机故障诊断中的应用

数据挖掘技术在挖掘机故障诊断中的应用

数据挖掘技术在挖掘机故障诊断中的应用

格式：pdf

大小：233KB

页数： 5页

针对工程机械的特点,提出了将数据挖掘技术应用于挖掘机故障诊断中,利用粗糙集具有较强的处理不确定和不完备信息的能力,对决策表的条件属性进行约简处理;再利用C4.5决策树算法的高效性对约简后的决策表进行诊断规则提取;将产生的规则运用于挖掘机故障诊断中以实现快速故障诊断。最后,以实例介绍了利用该模型进行故障诊断的完整过程,可以看出该方案提高了挖掘机故障诊断的效率。

在线阅读立即下载

数据挖掘技术在挖掘机故障诊断中的应用效果研究

数据挖掘技术在挖掘机故障诊断中的应用效果研究

数据挖掘技术在挖掘机故障诊断中的应用效果研究

格式：pdf

大小：233KB

页数：未知

随着计算机信息技术的高速发展,数据挖掘技术在对各个领域中得到了广泛的应用,它是一种结合了人工智能、数理统计以及模式辨别等高端技术为一身的新兴技术,具体作用是在大量的数据和信息中发掘价值高的知识和内容。尤其在挖掘机的故障诊断中,数据挖掘技术的应用得到了高度的重视,本文简单介绍了数据挖掘技术的基本概念,并详细研究了数据挖掘技术在挖掘机故障诊断中的应用建模及效果,可为相关部门提供借鉴和参考。

在线阅读立即下载

数据挖掘：实用机器学习工具与技术（原书第4版）内容简介

本书是数据挖掘和机器学习领域的经典畅销教材，被国内外众多名校选用。第4版新增了关于深度学习和概率方法的重要章节，同时，备受欢迎的机器学习软件Weka也再度升级。书中全面覆盖了该领域的实用技术，致力于帮助读者理解不同技术的工作方式和应用方式，从而学会在工程实践和商业项目中解决真实问题。本书适合作为高等院校相关课程的教材，同时也适合业内技术人员阅读参考。

数据挖掘：实用机器学习工具与技术（原书第4版）图书目录

译者序 前言 致谢 第一部分　数据挖掘基础 第1章　绪论 2 1.1　数据挖掘和机器学习 2 1.1.1　描述结构模式 3 1.1.2　机器学习 5 1.1.3　数据挖掘 6 1.2　简单的例子：天气问题和其他问题 6 1.2.1　天气问题 6 1.2.2　隐形眼镜：一个理想化的问题 8 1.2.3　鸢尾花：一个经典的数值型数据集 9 1.2.4　CPU性能：引入数值预测 10 1.2.5　劳资协商：一个更真实的例子 11 1.2.6　大豆分类：一个经典的机器学习的成功例子 12 1.3　应用领域 14 1.3.1　Web挖掘 14 1.3.2　包含判断的决策 15 1.3.3　图像筛选 15 1.3.4　负载预测 16 1.3.5　诊断 17 1.3.6　市场和销售 17 1.3.7　其他应用 18 1.4　数据挖掘过程 19 1.5　机器学习和统计学 20 1.6　将泛化看作搜索 21 1.6.1　枚举概念空间 22 1.6.2　偏差 22 1.7　数据挖掘和道德问题 24 1.7.1　再识别 24 1.7.2　使用个人信息 25 1.7.3　其他问题 26 1.8　拓展阅读及参考文献 26 第2章　输入：概念、实例和属性 29 2.1　概念 29 2.2　实例 31 2.2.1　关系 31 2.2.2　其他实例类型 34 2.3　属性 35 2.4　输入准备 36 2.4.1　数据收集 37 2.4.2　ARFF格式 37 2.4.3　稀疏数据 39 2.4.4　属性类型 40 2.4.5　缺失值 41 2.4.6　不正确的值 42 2.4.7　非均衡数据 42 2.4.8　了解数据 43 2.5　拓展阅读及参考文献 43 第3章　输出：知识表达 44 3.1　表 44 3.2　线性模型 44 3.3　树 46 3.4　规则 49 3.4.1　分类规则 49 3.4.2　关联规则 52 3.4.3　包含例外的规则 53 3.4.4　表达能力更强的规则 54 3.5　基于实例的表达 56 3.6　聚类 58 3.7　拓展阅读及参考文献 59 第4章　算法：基本方法 60 4.1　推断基本规则 60 4.2　简单概率模型 63 4.2.1　缺失值和数值属性 65 4.2.2　用于文档分类的朴素贝叶斯 67 4.2.3　讨论 68 4.3　分治法：创建决策树 69 4.3.1　计算信息量 71 4.3.2　高度分支属性 73 4.4　覆盖算法：建立规则 74 4.4.1　规则与树 75 4.4.2　一个简单的覆盖算法 76 4.4.3　规则与决策列表 79 4.5　关联规则挖掘 79 4.5.1　项集 80 4.5.2　关联规则 81 4.5.3　高效地生成规则 84 4.6　线性模型 86 4.6.1　数值预测：线性回归 86 4.6.2　线性分类：logistic回归 87 4.6.3　使用感知机的线性分类 89 4.6.4　使用Winnow的线性分类 90 4.7　基于实例的学习 91 4.7.1　距离函数 92 4.7.2　高效寻找最近邻 92 4.7.3　讨论 96 4.8　聚类 96 4.8.1　基于距离的迭代聚类 97 4.8.2　更快的距离计算 98 4.8.3　选择簇的个数 99 4.8.4　层次聚类 100 4.8.5　层次聚类示例 101 4.8.6　增量聚类 102 4.8.7　分类效用 104 4.8.8　讨论 106 4.9　多实例学习 107 4.9.1　聚集输入 107 4.9.2　聚集输出 107 4.10　拓展阅读及参考文献 108 4.11　Weka实现 109 第5章　可信度：评估学习结果 111 5.1　训练和测试 111 5.2　预测性能 113 5.3　交叉验证 115 5.4　其他评估方法 116 5.4.1　留一交叉验证法 116 5.4.2　自助法 116 5.5　超参数选择 117 5.6　数据挖掘方法比较 118 5.7　预测概率 121 5.7.1　二次损失函数 121 5.7.2　信息损失函数 122 5.7.3　讨论 123 5.8　计算成本 123 5.8.1　成本敏感分类 125 5.8.2　成本敏感学习 126 5.8.3　提升图 126 5.8.4　ROC曲线 129 5.8.5　召回率–精确率曲线 130 5.8.6　讨论 131 5.8.7　成本曲线 132 5.9　评估数值预测 134 5.10　最小描述长度原理 136 5.11　将MDL原理应用于聚类 138 5.12　使用验证集进行模型选择 138 5.13　拓展阅读及参考文献 139 第二部分　高级机器学习方案 第6章　树和规则 144 6.1　决策树 144 6.1.1　数值属性 144 6.1.2　缺失值 145 6.1.3　剪枝 146 6.1.4　估计误差率 147 6.1.5　决策树归纳法的复杂度 149 6.1.6　从决策树到规则 150 6.1.7　C4.5：选择和选项 150 6.1.8　成本–复杂度剪枝 151 6.1.9　讨论 151 6.2　分类规则 152 6.2.1　选择测试的标准 152 6.2.2　缺失值和数值属性 153 6.2.3　生成好的规则 153 6.2.4　使用全局优化 155 6.2.5　从局部决策树中获得规则 157 6.2.6　包含例外的规则 158 6.2.7　讨论 160 6.3　关联规则 161 6.3.1　建立频繁模式树 161 6.3.2　寻找大项集 163 6.3.3　讨论 166 6.4　Weka 实现 167 第7章　基于实例的学习和线性模型的扩展 168 7.1　基于实例的学习 168 7.1.1　减少样本集的数量 168 7.1.2　对噪声样本集剪枝 169 7.1.3　属性加权 170 7.1.4　泛化样本集 170 7.1.5　用于泛化样本集的距离函数 171 7.1.6　泛化的距离函数 172 7.1.7　讨论 172 7.2　扩展线性模型 173 7.2.1　最大间隔超平面 173 7.2.2　非线性类边界 174 7.2.3　支持向量回归 176 7.2.4　核岭回归 177 7.2.5　核感知机 178 7.2.6　多层感知机 179 7.2.7　径向基函数网络 184 7.2.8　随机梯度下降 185 7.2.9　讨论 186 7.3　局部线性模型用于数值预测 187 7.3.1　模型树 187 7.3.2　构建树 188 7.3.3　对树剪枝 188 7.3.4　名目属性 189 7.3.5　缺失值 189 7.3.6　模型树归纳的伪代码 190 7.3.7　从模型树到规则 192 7.3.8　局部加权线性回归 192 7.3.9　讨论 193 7.4　Weka实现 194 第8章　数据转换 195 8.1　属性选择 196 8.1.1　独立于方案的选择 197 8.1.2　搜索属性空间 199 8.1.3　具体方案相关的选择 200 8.2　离散化数值属性 201 8.2.1　无监督离散化 202 8.2.2　基于熵的离散化 203 8.2.3　其他离散化方法 205 8.2.4　基于熵和基于误差的离散化 205 8.2.5　将离散属性转换成数值属性 206 8.3　投影 207 8.3.1　主成分分析 207 8.3.2　随机投影 209 8.3.3　偏最小二乘回归 209 8.3.4　独立成分分析 210 8.3.5　线性判别分析 211 8.3.6　二次判别分析 211 8.3.7　Fisher线性判别分析 211 8.3.8　从文本到属性向量 212 8.3.9　时间序列 213 8.4　抽样 214 8.5　数据清洗 215 8.5.1　改进决策树 215 8.5.2　稳健回归 215 8.5.3　检测异常 216 8.5.4　一分类学习 217 8.5.5　离群点检测 217 8.5.6　生成人工数据 218 8.6　将多分类问题转换成二分类问题 219 8.6.1　简单方法 219 8.6.2　误差校正输出编码 220 8.6.3　集成嵌套二分法 221 8.7　校准类概率 223 8.8　拓展阅读及参考文献 224 8.9　Weka实现 226 第9章　概率方法 228 9.1　基础 228 9.1.1　最大似然估计 229 9.1.2　最大后验参数估计 230 9.2　贝叶斯网络 230 9.2.1　预测 231 9.2.2　学习贝叶斯网络 233 9.2.3　具体算法 235 9.2.4　用于快速学习的数据结构 237 9.3　聚类和概率密度估计 239 9.3.1　用于高斯混合模型的期望最大化算法 239 9.3.2　扩展混合模型 242 9.3.3　使用先验分布聚类 243 9.3.4　相关属性聚类 244 9.3.5　核密度估计 245 9.3.6　比较用于分类的参数、半参数和无参数的密度模型 245 9.4　隐藏变量模型 246 9.4.1　对数似然和梯度的期望 246 9.4.2　期望最大化算法 247 9.4.3　将期望最大化算法应用于贝叶斯网络 248 9.5　贝叶斯估计与预测 249 9.6　图模型和因子图 251 9.6.1　图模型和盘子表示法 251 9.6.2　概率主成分分析 252 9.6.3　隐含语义分析 254 9.6.4　使用主成分分析来降维 255 9.6.5　概率LSA 256 9.6.6　隐含狄利克雷分布 257 9.6.7　因子图 258 9.6.8　马尔可夫随机场 260 9.6.9　使用sum-product算法和max-product算法进行计算 261 9.7　条件概率模型 265 9.7.1　概率模型的线性和多项式回归 265 9.7.2　使用先验参数 266 9.7.3　多分类logistic回归 268 9.7.4　梯度下降和二阶方法 271 9.7.5　广义线性模型 271 9.7.6　有序类的预测 272 9.7.7　使用核函数的条件概率模型 273 9.8　时序模型 273 9.8.1　马尔可夫模型和N元法 273 9.8.2　隐马尔可夫模型 274 9.8.3　条件随机场 275 9.9　拓展阅读及参考文献 278 9.10　Weka实现 282 第10章　深度学习 283 10.1　深度前馈网络 284 10.1.1　MNIST评估 284 10.1.2　损失和正则化 285 10.1.3　深层网络体系结构 286 10.1.4　激活函数 287 10.1.5　重新审视反向传播 288 10.1.6　计算图以及复杂的网络结构 290 10.1.7　验证反向传播算法的实现 291 10.2　训练和评估深度网络 292 10.2.1　早停 292 10.2.2　验证、交叉验证以及超参数调整 292 10.2.3　小批量随机梯度下降 293 10.2.4　小批量随机梯度下降的伪代码 294 10.2.5　学习率和计划 294 10.2.6　先验参数的正则化 295 10.2.7　丢弃法 295 10.2.8　批规范化 295 10.2.9　参数初始化 295 10.2.10　无监督的预训练 296 10.2.11　数据扩充和合成转换 296 10.3　卷积神经网络 296 10.3.1　ImageNet评估和深度卷积神经网络 297 10.3.2　从图像滤波到可学习的卷积层 297 10.3.3　卷积层和梯度 300 10.3.4　池化层二次抽样层以及梯度 300 10.3.5　实现 301 10.4　自编码器 301 10.4.1　使用RBM预训练深度自编码器 302 10.4.2　降噪自编码器和分层训练 304 10.4.3　重构和判别式学习的结合 304 10.5　随机深度网络 304 10.5.1　玻尔兹曼机 304 10.5.2　受限玻尔兹曼机 306 10.5.3　对比分歧 306 10.5.4　分类变量和连续变量 306 10.5.5　深度玻尔兹曼机 307 10.5.6　深度信念网络 308 10.6　递归神经网络 309 10.6.1　梯度爆炸与梯度消失 310 10.6.2　其他递归网络结构 311 10.7　拓展阅读及参考文献 312 10.8　深度学习软件以及网络实现 315 10.8.1　Theano 315 10.8.2　Tensor Flow 315 10.8.3　Torch 315 10.8.4　CNTK 315 10.8.5　Caffe 315 10.8.6　DeepLearning4j 316 10.8.7　其他包：Lasagne、Keras以及cuDNN 316 10.9　Weka实现 316 第11章　有监督和无监督学习 317 11.1　半监督学习 317 11.1.1　用以分类的聚类 317 11.1.2　协同训练 318 11.1.3　EM和协同训练 319 11.1.4　神经网络方法 319 11.2　多实例学习 320 11.2.1　转换为单实例学习 320 11.2.2　升级学习算法 321 11.2.3　专用多实例方法 322 11.3　拓展阅读及参考文献 323 11.4　Weka实现 323 第12章　集成学习 325 12.1　组合多种模型 325 12.2　装袋 326 12.2.1　偏差–方差分解 326 12.2.2　考虑成本的装袋 327 12.3　随机化 328 12.3.1　随机化与装袋 328 12.3.2　旋转森林 329 12.4　提升 329 12.4.1　AdaBoost算法 330 12.4.2　提升算法的威力 331 12.5　累加回归 332 12.5.1　数值预测 332 12.5.2　累加logistic回归 333 12.6　可解释的集成器 334 12.6.1　选择树 334 12.6.2　logistic模型树 336 12.7　堆栈 336 12.8　拓展阅读及参考文献 338 12.9　Weka实现 339 第13章　扩展和应用 340 13.1　应用机器学习 340 13.2　从大型的数据集学习 342 13.3　数据流学习 344 13.4　融合领域知识 346 13.5　文本挖掘 347 13.5.1　文档分类与聚类 348 13.5.2　信息提取 349 13.5.3　自然语言处理 350 13.6　Web挖掘 350 13.6.1　包装器归纳 351 13.6.2　网页分级 351 13.7　图像和语音 353 13.7.1　图像 353 13.7.2　语音 354 13.8　对抗情形 354 13.9　无处不在的数据挖掘 355 13.10　拓展阅读及参考文献 357 13.11　Weka实现 359 附录A　理论基础 360 附录B　Weka工作平台 375 索引 388 参考文献2100433B

统计挖掘与机器学习（原书第3版）作品简介

本书创造性地汇编了数据挖掘技术，将统计数据挖掘和机器学习数据挖掘进行了区分，对经典和现代统计方法框架进行了扩展，以用于预测建模和大数据分析。本书在第2版的基础上新增了13章，内容涵盖数据科学发展历程、市场份额估算、无抽样调研数据预测钱包份额、潜在市场细分、利用缺失数据构建统计回归模型、十分位分析评估数据的预测能力，以及一个无须精通自然语言处理就能使用的文本挖掘工具。本书适合数据挖掘从业者以及对机器学习数据挖掘感兴趣的人阅读。

相关推荐

相关百科
相关知识
相关专栏

免费服务热线: 400-888-9639