选择特殊符号
选择搜索类型
请输入搜索
第3版前言
第2版前言
致谢
关于作者
第1章 引论
第2章 数据处理相关学科:统计学和数据科学
第3章 变量评估的两种基本数据挖掘方法
第4章 用于评估成对变量的基于CHAID的数据挖掘方法
第5章 校直数据的简单性和可取性对建模十分重要
第6章 排序数据对称化:提高数据预测能力的统计数据挖掘方法
第7章 主成分分析:多变量评估的统计数据挖掘方法
第8章 市场份额估算:一个特殊的数据挖掘案例
第9章 相关系数在[-1, 1]内取值,是这样吗
第10章 逻辑斯谛回归:回应建模方法
第11章 无抽样调研数据预测钱包份额
第12章 普通回归:利润建模的强大工具
第13章 回归变量选择方法:可忽略的问题和重要解决方案
第14章 用CHAID解读逻辑斯谛回归模型
第15章 回归系数的重要性
第16章 相关系数均值:评估预测模型和预测变量重要性的统计数据挖掘指标
第17章 交互变量指定CHAID模型
第18章 市场细分:逻辑斯谛回归建模
第19章 市场细分:时间序列数据LCA
第20章 市场细分:理解细分群体的便捷途径
第21章 统计回归模型:理解模型的简单方法
第22章 CHAID:填充缺失值的方法
第23章 大数据建模
第24章 艺术、科学、数字和诗歌
第25章 识别最佳客户:描述性、预测性和相似性描述
第26章 营销模型评估
第27章 十分位分析:视角与效果
第28章 T-C净提升度模型:评估试验组与对照组的营销效果
第29章 自助法在营销中的应用:一种新的模型验证方法
第30章 用自助法验证逻辑斯谛回归模型
第31章 营销模型可视化:用数据深度挖掘模型
第32章 预测贡献系数:预测重要性的度量
第33章 建模是艺术、科学与诗的结合
第34章 献给数据狂的数据分析12步法
第35章 遗传回归模型与统计回归模型
第36章 数据重用:GenIQ模型的强大数据挖掘技术
第37章 数据挖掘技术——离群值的调整
第38章 过拟合的全新解决方案
第39章 回顾:为何校直数据如此重要
第40章 GenIQ模型的定义与应用
第41章 如何为营销模型选择最佳变量
第42章 解读无系数模型
第43章 文本挖掘:入门、示例及TXTDM软件
第44章 一些我比较喜欢的统计子程序
译后记 2100433B
本书创造性地汇编了数据挖掘技术,将统计数据挖掘和机器学习数据挖掘进行了区分,对经典和现代统计方法框架进行了扩展,以用于预测建模和大数据分析。本书在第2版的基础上新增了13章,内容涵盖数据科学发展历程、市场份额估算、无抽样调研数据预测钱包份额、潜在市场细分、利用缺失数据构建统计回归模型、十分位分析评估数据的预测能力,以及一个无须精通自然语言处理就能使用的文本挖掘工具。本书适合数据挖掘从业者以及对机器学习数据挖掘感兴趣的人阅读。
你到啊里巴巴找吧 里面有很多这方面的信息的 投资不是很大
说明书 :随着社会的发展,科技的进步,一系列新科技应用在人们的日常生活中。上下楼梯自动化的研究也趋于热门。我们运用了轮式机器人爬楼梯的原理进而设计了一种新型爬楼机,并在此基础上...
所有的挖掘机都是液压挖掘机。。。根据行走方式可以分为轮式挖掘机和履带式挖掘机。。。
基于机器学习的推荐系统
基于机器学习的推荐系统
本书是数据挖掘和机器学习领域的经典畅销教材,被国内外众多名校选用。第4版新增了关于深度学习和概率方法的重要章节,同时,备受欢迎的机器学习软件Weka也再度升级。书中全面覆盖了该领域的实用技术,致力于帮助读者理解不同技术的工作方式和应用方式,从而学会在工程实践和商业项目中解决真实问题。本书适合作为高等院校相关课程的教材,同时也适合业内技术人员阅读参考。
译者序
前言
致谢
第一部分 数据挖掘基础
第1章 绪论 2
1.1 数据挖掘和机器学习 2
1.1.1 描述结构模式 3
1.1.2 机器学习 5
1.1.3 数据挖掘 6
1.2 简单的例子:天气问题和其他问题 6
1.2.1 天气问题 6
1.2.2 隐形眼镜:一个理想化的问题 8
1.2.3 鸢尾花:一个经典的数值型数据集 9
1.2.4 CPU性能:引入数值预测 10
1.2.5 劳资协商:一个更真实的例子 11
1.2.6 大豆分类:一个经典的机器学习的成功例子 12
1.3 应用领域 14
1.3.1 Web挖掘 14
1.3.2 包含判断的决策 15
1.3.3 图像筛选 15
1.3.4 负载预测 16
1.3.5 诊断 17
1.3.6 市场和销售 17
1.3.7 其他应用 18
1.4 数据挖掘过程 19
1.5 机器学习和统计学 20
1.6 将泛化看作搜索 21
1.6.1 枚举概念空间 22
1.6.2 偏差 22
1.7 数据挖掘和道德问题 24
1.7.1 再识别 24
1.7.2 使用个人信息 25
1.7.3 其他问题 26
1.8 拓展阅读及参考文献 26
第2章 输入:概念、实例和属性 29
2.1 概念 29
2.2 实例 31
2.2.1 关系 31
2.2.2 其他实例类型 34
2.3 属性 35
2.4 输入准备 36
2.4.1 数据收集 37
2.4.2 ARFF格式 37
2.4.3 稀疏数据 39
2.4.4 属性类型 40
2.4.5 缺失值 41
2.4.6 不正确的值 42
2.4.7 非均衡数据 42
2.4.8 了解数据 43
2.5 拓展阅读及参考文献 43
第3章 输出:知识表达 44
3.1 表 44
3.2 线性模型 44
3.3 树 46
3.4 规则 49
3.4.1 分类规则 49
3.4.2 关联规则 52
3.4.3 包含例外的规则 53
3.4.4 表达能力更强的规则 54
3.5 基于实例的表达 56
3.6 聚类 58
3.7 拓展阅读及参考文献 59
第4章 算法:基本方法 60
4.1 推断基本规则 60
4.2 简单概率模型 63
4.2.1 缺失值和数值属性 65
4.2.2 用于文档分类的朴素贝叶斯 67
4.2.3 讨论 68
4.3 分治法:创建决策树 69
4.3.1 计算信息量 71
4.3.2 高度分支属性 73
4.4 覆盖算法:建立规则 74
4.4.1 规则与树 75
4.4.2 一个简单的覆盖算法 76
4.4.3 规则与决策列表 79
4.5 关联规则挖掘 79
4.5.1 项集 80
4.5.2 关联规则 81
4.5.3 高效地生成规则 84
4.6 线性模型 86
4.6.1 数值预测:线性回归 86
4.6.2 线性分类:logistic回归 87
4.6.3 使用感知机的线性分类 89
4.6.4 使用Winnow的线性分类 90
4.7 基于实例的学习 91
4.7.1 距离函数 92
4.7.2 高效寻找最近邻 92
4.7.3 讨论 96
4.8 聚类 96
4.8.1 基于距离的迭代聚类 97
4.8.2 更快的距离计算 98
4.8.3 选择簇的个数 99
4.8.4 层次聚类 100
4.8.5 层次聚类示例 101
4.8.6 增量聚类 102
4.8.7 分类效用 104
4.8.8 讨论 106
4.9 多实例学习 107
4.9.1 聚集输入 107
4.9.2 聚集输出 107
4.10 拓展阅读及参考文献 108
4.11 Weka实现 109
第5章 可信度:评估学习结果 111
5.1 训练和测试 111
5.2 预测性能 113
5.3 交叉验证 115
5.4 其他评估方法 116
5.4.1 留一交叉验证法 116
5.4.2 自助法 116
5.5 超参数选择 117
5.6 数据挖掘方法比较 118
5.7 预测概率 121
5.7.1 二次损失函数 121
5.7.2 信息损失函数 122
5.7.3 讨论 123
5.8 计算成本 123
5.8.1 成本敏感分类 125
5.8.2 成本敏感学习 126
5.8.3 提升图 126
5.8.4 ROC曲线 129
5.8.5 召回率–精确率曲线 130
5.8.6 讨论 131
5.8.7 成本曲线 132
5.9 评估数值预测 134
5.10 最小描述长度原理 136
5.11 将MDL原理应用于聚类 138
5.12 使用验证集进行模型选择 138
5.13 拓展阅读及参考文献 139
第二部分 高级机器学习方案
第6章 树和规则 144
6.1 决策树 144
6.1.1 数值属性 144
6.1.2 缺失值 145
6.1.3 剪枝 146
6.1.4 估计误差率 147
6.1.5 决策树归纳法的复杂度 149
6.1.6 从决策树到规则 150
6.1.7 C4.5:选择和选项 150
6.1.8 成本–复杂度剪枝 151
6.1.9 讨论 151
6.2 分类规则 152
6.2.1 选择测试的标准 152
6.2.2 缺失值和数值属性 153
6.2.3 生成好的规则 153
6.2.4 使用全局优化 155
6.2.5 从局部决策树中获得规则 157
6.2.6 包含例外的规则 158
6.2.7 讨论 160
6.3 关联规则 161
6.3.1 建立频繁模式树 161
6.3.2 寻找大项集 163
6.3.3 讨论 166
6.4 Weka 实现 167
第7章 基于实例的学习和线性模型的扩展 168
7.1 基于实例的学习 168
7.1.1 减少样本集的数量 168
7.1.2 对噪声样本集剪枝 169
7.1.3 属性加权 170
7.1.4 泛化样本集 170
7.1.5 用于泛化样本集的距离函数 171
7.1.6 泛化的距离函数 172
7.1.7 讨论 172
7.2 扩展线性模型 173
7.2.1 最大间隔超平面 173
7.2.2 非线性类边界 174
7.2.3 支持向量回归 176
7.2.4 核岭回归 177
7.2.5 核感知机 178
7.2.6 多层感知机 179
7.2.7 径向基函数网络 184
7.2.8 随机梯度下降 185
7.2.9 讨论 186
7.3 局部线性模型用于数值预测 187
7.3.1 模型树 187
7.3.2 构建树 188
7.3.3 对树剪枝 188
7.3.4 名目属性 189
7.3.5 缺失值 189
7.3.6 模型树归纳的伪代码 190
7.3.7 从模型树到规则 192
7.3.8 局部加权线性回归 192
7.3.9 讨论 193
7.4 Weka实现 194
第8章 数据转换 195
8.1 属性选择 196
8.1.1 独立于方案的选择 197
8.1.2 搜索属性空间 199
8.1.3 具体方案相关的选择 200
8.2 离散化数值属性 201
8.2.1 无监督离散化 202
8.2.2 基于熵的离散化 203
8.2.3 其他离散化方法 205
8.2.4 基于熵和基于误差的离散化 205
8.2.5 将离散属性转换成数值属性 206
8.3 投影 207
8.3.1 主成分分析 207
8.3.2 随机投影 209
8.3.3 偏最小二乘回归 209
8.3.4 独立成分分析 210
8.3.5 线性判别分析 211
8.3.6 二次判别分析 211
8.3.7 Fisher线性判别分析 211
8.3.8 从文本到属性向量 212
8.3.9 时间序列 213
8.4 抽样 214
8.5 数据清洗 215
8.5.1 改进决策树 215
8.5.2 稳健回归 215
8.5.3 检测异常 216
8.5.4 一分类学习 217
8.5.5 离群点检测 217
8.5.6 生成人工数据 218
8.6 将多分类问题转换成二分类问题 219
8.6.1 简单方法 219
8.6.2 误差校正输出编码 220
8.6.3 集成嵌套二分法 221
8.7 校准类概率 223
8.8 拓展阅读及参考文献 224
8.9 Weka实现 226
第9章 概率方法 228
9.1 基础 228
9.1.1 最大似然估计 229
9.1.2 最大后验参数估计 230
9.2 贝叶斯网络 230
9.2.1 预测 231
9.2.2 学习贝叶斯网络 233
9.2.3 具体算法 235
9.2.4 用于快速学习的数据结构 237
9.3 聚类和概率密度估计 239
9.3.1 用于高斯混合模型的期望最大化算法 239
9.3.2 扩展混合模型 242
9.3.3 使用先验分布聚类 243
9.3.4 相关属性聚类 244
9.3.5 核密度估计 245
9.3.6 比较用于分类的参数、半参数和无参数的密度模型 245
9.4 隐藏变量模型 246
9.4.1 对数似然和梯度的期望 246
9.4.2 期望最大化算法 247
9.4.3 将期望最大化算法应用于贝叶斯网络 248
9.5 贝叶斯估计与预测 249
9.6 图模型和因子图 251
9.6.1 图模型和盘子表示法 251
9.6.2 概率主成分分析 252
9.6.3 隐含语义分析 254
9.6.4 使用主成分分析来降维 255
9.6.5 概率LSA 256
9.6.6 隐含狄利克雷分布 257
9.6.7 因子图 258
9.6.8 马尔可夫随机场 260
9.6.9 使用sum-product算法和max-product算法进行计算 261
9.7 条件概率模型 265
9.7.1 概率模型的线性和多项式回归 265
9.7.2 使用先验参数 266
9.7.3 多分类logistic回归 268
9.7.4 梯度下降和二阶方法 271
9.7.5 广义线性模型 271
9.7.6 有序类的预测 272
9.7.7 使用核函数的条件概率模型 273
9.8 时序模型 273
9.8.1 马尔可夫模型和N元法 273
9.8.2 隐马尔可夫模型 274
9.8.3 条件随机场 275
9.9 拓展阅读及参考文献 278
9.10 Weka实现 282
第10章 深度学习 283
10.1 深度前馈网络 284
10.1.1 MNIST评估 284
10.1.2 损失和正则化 285
10.1.3 深层网络体系结构 286
10.1.4 激活函数 287
10.1.5 重新审视反向传播 288
10.1.6 计算图以及复杂的网络结构 290
10.1.7 验证反向传播算法的实现 291
10.2 训练和评估深度网络 292
10.2.1 早停 292
10.2.2 验证、交叉验证以及超参数调整 292
10.2.3 小批量随机梯度下降 293
10.2.4 小批量随机梯度下降的伪代码 294
10.2.5 学习率和计划 294
10.2.6 先验参数的正则化 295
10.2.7 丢弃法 295
10.2.8 批规范化 295
10.2.9 参数初始化 295
10.2.10 无监督的预训练 296
10.2.11 数据扩充和合成转换 296
10.3 卷积神经网络 296
10.3.1 ImageNet评估和深度卷积神经网络 297
10.3.2 从图像滤波到可学习的卷积层 297
10.3.3 卷积层和梯度 300
10.3.4 池化层二次抽样层以及梯度 300
10.3.5 实现 301
10.4 自编码器 301
10.4.1 使用RBM预训练深度自编码器 302
10.4.2 降噪自编码器和分层训练 304
10.4.3 重构和判别式学习的结合 304
10.5 随机深度网络 304
10.5.1 玻尔兹曼机 304
10.5.2 受限玻尔兹曼机 306
10.5.3 对比分歧 306
10.5.4 分类变量和连续变量 306
10.5.5 深度玻尔兹曼机 307
10.5.6 深度信念网络 308
10.6 递归神经网络 309
10.6.1 梯度爆炸与梯度消失 310
10.6.2 其他递归网络结构 311
10.7 拓展阅读及参考文献 312
10.8 深度学习软件以及网络实现 315
10.8.1 Theano 315
10.8.2 Tensor Flow 315
10.8.3 Torch 315
10.8.4 CNTK 315
10.8.5 Caffe 315
10.8.6 DeepLearning4j 316
10.8.7 其他包:Lasagne、Keras以及cuDNN 316
10.9 Weka实现 316
第11章 有监督和无监督学习 317
11.1 半监督学习 317
11.1.1 用以分类的聚类 317
11.1.2 协同训练 318
11.1.3 EM和协同训练 319
11.1.4 神经网络方法 319
11.2 多实例学习 320
11.2.1 转换为单实例学习 320
11.2.2 升级学习算法 321
11.2.3 专用多实例方法 322
11.3 拓展阅读及参考文献 323
11.4 Weka实现 323
第12章 集成学习 325
12.1 组合多种模型 325
12.2 装袋 326
12.2.1 偏差–方差分解 326
12.2.2 考虑成本的装袋 327
12.3 随机化 328
12.3.1 随机化与装袋 328
12.3.2 旋转森林 329
12.4 提升 329
12.4.1 AdaBoost算法 330
12.4.2 提升算法的威力 331
12.5 累加回归 332
12.5.1 数值预测 332
12.5.2 累加logistic回归 333
12.6 可解释的集成器 334
12.6.1 选择树 334
12.6.2 logistic模型树 336
12.7 堆栈 336
12.8 拓展阅读及参考文献 338
12.9 Weka实现 339
第13章 扩展和应用 340
13.1 应用机器学习 340
13.2 从大型的数据集学习 342
13.3 数据流学习 344
13.4 融合领域知识 346
13.5 文本挖掘 347
13.5.1 文档分类与聚类 348
13.5.2 信息提取 349
13.5.3 自然语言处理 350
13.6 Web挖掘 350
13.6.1 包装器归纳 351
13.6.2 网页分级 351
13.7 图像和语音 353
13.7.1 图像 353
13.7.2 语音 354
13.8 对抗情形 354
13.9 无处不在的数据挖掘 355
13.10 拓展阅读及参考文献 357
13.11 Weka实现 359
附录A 理论基础 360
附录B Weka工作平台 375
索引 388
参考文献2100433B
本书通过讲解监督学习的两大支柱——回归和分类——将机器学习纳入统一视角展开讨论。书中首先讨论基础知识,包括均方、*小二乘和*大似然方法、岭回归、贝叶斯决策理论分类、逻辑回归和决策树。然后介绍新近的技术,包括稀疏建模方法,再生核希尔伯特空间中的学习、支持向量机中的学习、关注EM算法的贝叶斯推理及其近似推理变分版本、蒙特卡罗方法、聚焦于贝叶斯网络的概率图模型、隐马尔科夫模型和粒子滤波。此外,本书还深入讨论了降维和隐藏变量建模。全书以关于神经网络和深度学习架构的扩展章节结束。此外,书中还讨论了统计参数估计、维纳和卡尔曼滤波、凸性和凸优化的基础知识,其中,用一章介绍了随机逼近和梯度下降族的算法,并提出了分布式优化的相关概念、算法和在线学习技术。