选择特殊符号
选择搜索类型
请输入搜索
第3版前言
第2版前言
致谢
关于作者
第1章 引论
第2章 数据处理相关学科:统计学和数据科学
第3章 变量评估的两种基本数据挖掘方法
第4章 用于评估成对变量的基于CHAID的数据挖掘方法
第5章 校直数据的简单性和可取性对建模十分重要
第6章 排序数据对称化:提高数据预测能力的统计数据挖掘方法
第7章 主成分分析:多变量评估的统计数据挖掘方法
第8章 市场份额估算:一个特殊的数据挖掘案例
第9章 相关系数在[-1, 1]内取值,是这样吗
第10章 逻辑斯谛回归:回应建模方法
第11章 无抽样调研数据预测钱包份额
第12章 普通回归:利润建模的强大工具
第13章 回归变量选择方法:可忽略的问题和重要解决方案
第14章 用CHAID解读逻辑斯谛回归模型
第15章 回归系数的重要性
第16章 相关系数均值:评估预测模型和预测变量重要性的统计数据挖掘指标
第17章 交互变量指定CHAID模型
第18章 市场细分:逻辑斯谛回归建模
第19章 市场细分:时间序列数据LCA
第20章 市场细分:理解细分群体的便捷途径
第21章 统计回归模型:理解模型的简单方法
第22章 CHAID:填充缺失值的方法
第23章 大数据建模
第24章 艺术、科学、数字和诗歌
第25章 识别最佳客户:描述性、预测性和相似性描述
第26章 营销模型评估
第27章 十分位分析:视角与效果
第28章 T-C净提升度模型:评估试验组与对照组的营销效果
第29章 自助法在营销中的应用:一种新的模型验证方法
第30章 用自助法验证逻辑斯谛回归模型
第31章 营销模型可视化:用数据深度挖掘模型
第32章 预测贡献系数:预测重要性的度量
第33章 建模是艺术、科学与诗的结合
第34章 献给数据狂的数据分析12步法
第35章 遗传回归模型与统计回归模型
第36章 数据重用:GenIQ模型的强大数据挖掘技术
第37章 数据挖掘技术——离群值的调整
第38章 过拟合的全新解决方案
第39章 回顾:为何校直数据如此重要
第40章 GenIQ模型的定义与应用
第41章 如何为营销模型选择最佳变量
第42章 解读无系数模型
第43章 文本挖掘:入门、示例及TXTDM软件
第44章 一些我比较喜欢的统计子程序
译后记 2100433B
本书创造性地汇编了数据挖掘技术,将统计数据挖掘和机器学习数据挖掘进行了区分,对经典和现代统计方法框架进行了扩展,以用于预测建模和大数据分析。本书在第2版的基础上新增了13章,内容涵盖数据科学发展历程、市场份额估算、无抽样调研数据预测钱包份额、潜在市场细分、利用缺失数据构建统计回归模型、十分位分析评估数据的预测能力,以及一个无须精通自然语言处理就能使用的文本挖掘工具。本书适合数据挖掘从业者以及对机器学习数据挖掘感兴趣的人阅读。
《便衣警察》 《死于青春》 《一场风花雪月的事》 《海岩文集》 《永不瞑目》 《海岩散文》 《玉观音》 《海岩中篇选》 《你的生命如此多情》 《海岩长篇经典全集》 《拿什么拯救你,我的爱人》 《煽》 ...
徐韦华,在台湾很有影响力的著名拼布作家,从事 拼布材料包 设计多年,经验非常丰富。《一缝就成的拼布小物》是一本实用的拼布书,以面纸套、手机袋、卡片夹、零钱包、笔袋、相机包等非常实用的拼布小物的制作讲解...
前言第1章 概述1.1 传统的图解展开法1.2 程编计算公式法展开放样1.3 计算器的程编计算应用第2章 圆柱面构件的展开2.1 被平面斜截后的圆柱管构件2.2 被圆柱面截切后的圆柱管构件2.3 被椭...
3C产品目录
中国 3C 认证】第一批实施强制性产品认证 (CCC) 的产品目录 第一批实施强制性产品认证 (CCC)的产品目录 第一批实施强制性产品认证的产品目录 一、电线电缆(共 5 种) 电线组件、矿用橡套软电缆、交流额定电压 3kV 及以下铁路机车车辆用电线电缆、额定电压 450/750V 及以下橡皮绝缘电线电缆、额定电压 450/750 V 及以下聚氯乙烯绝缘电线电缆 二、电路开关及保护或连接用电器装置装(共 6 种) 耦合器 (家用、工业用和类似用途器具 )、插头插座 (家用、工业用和类似用途 )、热熔断体、小型熔断器 的管状熔断体、家用和类似用途固定式电气装置的开关、家用和类似用途固定式电气装置电器附件外 壳 三、低压电器(共 9 种) 漏电保护器、断路器(含 RCCB、RCBO、MCB)、熔断器、低压开关(隔离器、隔离开关、熔断器组 合电器)、其他电路保护装置 [保护器类:限流器、电路
3C认证产品目录
3C认证产品目录 “3C”认证,英文名称为“ China Compulsory Certificate ”,英文缩写为 “CCC”,简称“ 3C”。 作为国家安全认证( CCEE)、进口安全质量许可制度 (CCIB)、中国电磁兼容认证( EMC)三合一的“ CCC”权威认证,是中国质检总 局和国家认监委与国际接轨的一个先进标志,有着不可替代的重要性。自 2003 年 5月 1日起,我国将正式对 19类 132种产品实施强制性认证管理,家电产品 隶属首批实施强制认证的产品。 今后,影碟机必须经国家指定的认证机构认证合 格、取得指定认证机构颁发的强制性产品认证证书, 并标注强制性产品认证标志 (简称“3C”标志 )方可获得出厂、进口和销售资格。原来已获 CCIB认证和长城 认证的企业也必须通过 3C认证。 3C认证就是是中国强制性产品认证的简称。 对强制性产品认证的法律依据、 实施强制性产品认
本书是数据挖掘和机器学习领域的经典畅销教材,被国内外众多名校选用。第4版新增了关于深度学习和概率方法的重要章节,同时,备受欢迎的机器学习软件Weka也再度升级。书中全面覆盖了该领域的实用技术,致力于帮助读者理解不同技术的工作方式和应用方式,从而学会在工程实践和商业项目中解决真实问题。本书适合作为高等院校相关课程的教材,同时也适合业内技术人员阅读参考。
译者序
前言
致谢
第一部分 数据挖掘基础
第1章 绪论 2
1.1 数据挖掘和机器学习 2
1.1.1 描述结构模式 3
1.1.2 机器学习 5
1.1.3 数据挖掘 6
1.2 简单的例子:天气问题和其他问题 6
1.2.1 天气问题 6
1.2.2 隐形眼镜:一个理想化的问题 8
1.2.3 鸢尾花:一个经典的数值型数据集 9
1.2.4 CPU性能:引入数值预测 10
1.2.5 劳资协商:一个更真实的例子 11
1.2.6 大豆分类:一个经典的机器学习的成功例子 12
1.3 应用领域 14
1.3.1 Web挖掘 14
1.3.2 包含判断的决策 15
1.3.3 图像筛选 15
1.3.4 负载预测 16
1.3.5 诊断 17
1.3.6 市场和销售 17
1.3.7 其他应用 18
1.4 数据挖掘过程 19
1.5 机器学习和统计学 20
1.6 将泛化看作搜索 21
1.6.1 枚举概念空间 22
1.6.2 偏差 22
1.7 数据挖掘和道德问题 24
1.7.1 再识别 24
1.7.2 使用个人信息 25
1.7.3 其他问题 26
1.8 拓展阅读及参考文献 26
第2章 输入:概念、实例和属性 29
2.1 概念 29
2.2 实例 31
2.2.1 关系 31
2.2.2 其他实例类型 34
2.3 属性 35
2.4 输入准备 36
2.4.1 数据收集 37
2.4.2 ARFF格式 37
2.4.3 稀疏数据 39
2.4.4 属性类型 40
2.4.5 缺失值 41
2.4.6 不正确的值 42
2.4.7 非均衡数据 42
2.4.8 了解数据 43
2.5 拓展阅读及参考文献 43
第3章 输出:知识表达 44
3.1 表 44
3.2 线性模型 44
3.3 树 46
3.4 规则 49
3.4.1 分类规则 49
3.4.2 关联规则 52
3.4.3 包含例外的规则 53
3.4.4 表达能力更强的规则 54
3.5 基于实例的表达 56
3.6 聚类 58
3.7 拓展阅读及参考文献 59
第4章 算法:基本方法 60
4.1 推断基本规则 60
4.2 简单概率模型 63
4.2.1 缺失值和数值属性 65
4.2.2 用于文档分类的朴素贝叶斯 67
4.2.3 讨论 68
4.3 分治法:创建决策树 69
4.3.1 计算信息量 71
4.3.2 高度分支属性 73
4.4 覆盖算法:建立规则 74
4.4.1 规则与树 75
4.4.2 一个简单的覆盖算法 76
4.4.3 规则与决策列表 79
4.5 关联规则挖掘 79
4.5.1 项集 80
4.5.2 关联规则 81
4.5.3 高效地生成规则 84
4.6 线性模型 86
4.6.1 数值预测:线性回归 86
4.6.2 线性分类:logistic回归 87
4.6.3 使用感知机的线性分类 89
4.6.4 使用Winnow的线性分类 90
4.7 基于实例的学习 91
4.7.1 距离函数 92
4.7.2 高效寻找最近邻 92
4.7.3 讨论 96
4.8 聚类 96
4.8.1 基于距离的迭代聚类 97
4.8.2 更快的距离计算 98
4.8.3 选择簇的个数 99
4.8.4 层次聚类 100
4.8.5 层次聚类示例 101
4.8.6 增量聚类 102
4.8.7 分类效用 104
4.8.8 讨论 106
4.9 多实例学习 107
4.9.1 聚集输入 107
4.9.2 聚集输出 107
4.10 拓展阅读及参考文献 108
4.11 Weka实现 109
第5章 可信度:评估学习结果 111
5.1 训练和测试 111
5.2 预测性能 113
5.3 交叉验证 115
5.4 其他评估方法 116
5.4.1 留一交叉验证法 116
5.4.2 自助法 116
5.5 超参数选择 117
5.6 数据挖掘方法比较 118
5.7 预测概率 121
5.7.1 二次损失函数 121
5.7.2 信息损失函数 122
5.7.3 讨论 123
5.8 计算成本 123
5.8.1 成本敏感分类 125
5.8.2 成本敏感学习 126
5.8.3 提升图 126
5.8.4 ROC曲线 129
5.8.5 召回率–精确率曲线 130
5.8.6 讨论 131
5.8.7 成本曲线 132
5.9 评估数值预测 134
5.10 最小描述长度原理 136
5.11 将MDL原理应用于聚类 138
5.12 使用验证集进行模型选择 138
5.13 拓展阅读及参考文献 139
第二部分 高级机器学习方案
第6章 树和规则 144
6.1 决策树 144
6.1.1 数值属性 144
6.1.2 缺失值 145
6.1.3 剪枝 146
6.1.4 估计误差率 147
6.1.5 决策树归纳法的复杂度 149
6.1.6 从决策树到规则 150
6.1.7 C4.5:选择和选项 150
6.1.8 成本–复杂度剪枝 151
6.1.9 讨论 151
6.2 分类规则 152
6.2.1 选择测试的标准 152
6.2.2 缺失值和数值属性 153
6.2.3 生成好的规则 153
6.2.4 使用全局优化 155
6.2.5 从局部决策树中获得规则 157
6.2.6 包含例外的规则 158
6.2.7 讨论 160
6.3 关联规则 161
6.3.1 建立频繁模式树 161
6.3.2 寻找大项集 163
6.3.3 讨论 166
6.4 Weka 实现 167
第7章 基于实例的学习和线性模型的扩展 168
7.1 基于实例的学习 168
7.1.1 减少样本集的数量 168
7.1.2 对噪声样本集剪枝 169
7.1.3 属性加权 170
7.1.4 泛化样本集 170
7.1.5 用于泛化样本集的距离函数 171
7.1.6 泛化的距离函数 172
7.1.7 讨论 172
7.2 扩展线性模型 173
7.2.1 最大间隔超平面 173
7.2.2 非线性类边界 174
7.2.3 支持向量回归 176
7.2.4 核岭回归 177
7.2.5 核感知机 178
7.2.6 多层感知机 179
7.2.7 径向基函数网络 184
7.2.8 随机梯度下降 185
7.2.9 讨论 186
7.3 局部线性模型用于数值预测 187
7.3.1 模型树 187
7.3.2 构建树 188
7.3.3 对树剪枝 188
7.3.4 名目属性 189
7.3.5 缺失值 189
7.3.6 模型树归纳的伪代码 190
7.3.7 从模型树到规则 192
7.3.8 局部加权线性回归 192
7.3.9 讨论 193
7.4 Weka实现 194
第8章 数据转换 195
8.1 属性选择 196
8.1.1 独立于方案的选择 197
8.1.2 搜索属性空间 199
8.1.3 具体方案相关的选择 200
8.2 离散化数值属性 201
8.2.1 无监督离散化 202
8.2.2 基于熵的离散化 203
8.2.3 其他离散化方法 205
8.2.4 基于熵和基于误差的离散化 205
8.2.5 将离散属性转换成数值属性 206
8.3 投影 207
8.3.1 主成分分析 207
8.3.2 随机投影 209
8.3.3 偏最小二乘回归 209
8.3.4 独立成分分析 210
8.3.5 线性判别分析 211
8.3.6 二次判别分析 211
8.3.7 Fisher线性判别分析 211
8.3.8 从文本到属性向量 212
8.3.9 时间序列 213
8.4 抽样 214
8.5 数据清洗 215
8.5.1 改进决策树 215
8.5.2 稳健回归 215
8.5.3 检测异常 216
8.5.4 一分类学习 217
8.5.5 离群点检测 217
8.5.6 生成人工数据 218
8.6 将多分类问题转换成二分类问题 219
8.6.1 简单方法 219
8.6.2 误差校正输出编码 220
8.6.3 集成嵌套二分法 221
8.7 校准类概率 223
8.8 拓展阅读及参考文献 224
8.9 Weka实现 226
第9章 概率方法 228
9.1 基础 228
9.1.1 最大似然估计 229
9.1.2 最大后验参数估计 230
9.2 贝叶斯网络 230
9.2.1 预测 231
9.2.2 学习贝叶斯网络 233
9.2.3 具体算法 235
9.2.4 用于快速学习的数据结构 237
9.3 聚类和概率密度估计 239
9.3.1 用于高斯混合模型的期望最大化算法 239
9.3.2 扩展混合模型 242
9.3.3 使用先验分布聚类 243
9.3.4 相关属性聚类 244
9.3.5 核密度估计 245
9.3.6 比较用于分类的参数、半参数和无参数的密度模型 245
9.4 隐藏变量模型 246
9.4.1 对数似然和梯度的期望 246
9.4.2 期望最大化算法 247
9.4.3 将期望最大化算法应用于贝叶斯网络 248
9.5 贝叶斯估计与预测 249
9.6 图模型和因子图 251
9.6.1 图模型和盘子表示法 251
9.6.2 概率主成分分析 252
9.6.3 隐含语义分析 254
9.6.4 使用主成分分析来降维 255
9.6.5 概率LSA 256
9.6.6 隐含狄利克雷分布 257
9.6.7 因子图 258
9.6.8 马尔可夫随机场 260
9.6.9 使用sum-product算法和max-product算法进行计算 261
9.7 条件概率模型 265
9.7.1 概率模型的线性和多项式回归 265
9.7.2 使用先验参数 266
9.7.3 多分类logistic回归 268
9.7.4 梯度下降和二阶方法 271
9.7.5 广义线性模型 271
9.7.6 有序类的预测 272
9.7.7 使用核函数的条件概率模型 273
9.8 时序模型 273
9.8.1 马尔可夫模型和N元法 273
9.8.2 隐马尔可夫模型 274
9.8.3 条件随机场 275
9.9 拓展阅读及参考文献 278
9.10 Weka实现 282
第10章 深度学习 283
10.1 深度前馈网络 284
10.1.1 MNIST评估 284
10.1.2 损失和正则化 285
10.1.3 深层网络体系结构 286
10.1.4 激活函数 287
10.1.5 重新审视反向传播 288
10.1.6 计算图以及复杂的网络结构 290
10.1.7 验证反向传播算法的实现 291
10.2 训练和评估深度网络 292
10.2.1 早停 292
10.2.2 验证、交叉验证以及超参数调整 292
10.2.3 小批量随机梯度下降 293
10.2.4 小批量随机梯度下降的伪代码 294
10.2.5 学习率和计划 294
10.2.6 先验参数的正则化 295
10.2.7 丢弃法 295
10.2.8 批规范化 295
10.2.9 参数初始化 295
10.2.10 无监督的预训练 296
10.2.11 数据扩充和合成转换 296
10.3 卷积神经网络 296
10.3.1 ImageNet评估和深度卷积神经网络 297
10.3.2 从图像滤波到可学习的卷积层 297
10.3.3 卷积层和梯度 300
10.3.4 池化层二次抽样层以及梯度 300
10.3.5 实现 301
10.4 自编码器 301
10.4.1 使用RBM预训练深度自编码器 302
10.4.2 降噪自编码器和分层训练 304
10.4.3 重构和判别式学习的结合 304
10.5 随机深度网络 304
10.5.1 玻尔兹曼机 304
10.5.2 受限玻尔兹曼机 306
10.5.3 对比分歧 306
10.5.4 分类变量和连续变量 306
10.5.5 深度玻尔兹曼机 307
10.5.6 深度信念网络 308
10.6 递归神经网络 309
10.6.1 梯度爆炸与梯度消失 310
10.6.2 其他递归网络结构 311
10.7 拓展阅读及参考文献 312
10.8 深度学习软件以及网络实现 315
10.8.1 Theano 315
10.8.2 Tensor Flow 315
10.8.3 Torch 315
10.8.4 CNTK 315
10.8.5 Caffe 315
10.8.6 DeepLearning4j 316
10.8.7 其他包:Lasagne、Keras以及cuDNN 316
10.9 Weka实现 316
第11章 有监督和无监督学习 317
11.1 半监督学习 317
11.1.1 用以分类的聚类 317
11.1.2 协同训练 318
11.1.3 EM和协同训练 319
11.1.4 神经网络方法 319
11.2 多实例学习 320
11.2.1 转换为单实例学习 320
11.2.2 升级学习算法 321
11.2.3 专用多实例方法 322
11.3 拓展阅读及参考文献 323
11.4 Weka实现 323
第12章 集成学习 325
12.1 组合多种模型 325
12.2 装袋 326
12.2.1 偏差–方差分解 326
12.2.2 考虑成本的装袋 327
12.3 随机化 328
12.3.1 随机化与装袋 328
12.3.2 旋转森林 329
12.4 提升 329
12.4.1 AdaBoost算法 330
12.4.2 提升算法的威力 331
12.5 累加回归 332
12.5.1 数值预测 332
12.5.2 累加logistic回归 333
12.6 可解释的集成器 334
12.6.1 选择树 334
12.6.2 logistic模型树 336
12.7 堆栈 336
12.8 拓展阅读及参考文献 338
12.9 Weka实现 339
第13章 扩展和应用 340
13.1 应用机器学习 340
13.2 从大型的数据集学习 342
13.3 数据流学习 344
13.4 融合领域知识 346
13.5 文本挖掘 347
13.5.1 文档分类与聚类 348
13.5.2 信息提取 349
13.5.3 自然语言处理 350
13.6 Web挖掘 350
13.6.1 包装器归纳 351
13.6.2 网页分级 351
13.7 图像和语音 353
13.7.1 图像 353
13.7.2 语音 354
13.8 对抗情形 354
13.9 无处不在的数据挖掘 355
13.10 拓展阅读及参考文献 357
13.11 Weka实现 359
附录A 理论基础 360
附录B Weka工作平台 375
索引 388
参考文献2100433B
本书通过讲解监督学习的两大支柱——回归和分类——将机器学习纳入统一视角展开讨论。书中首先讨论基础知识,包括均方、*小二乘和*大似然方法、岭回归、贝叶斯决策理论分类、逻辑回归和决策树。然后介绍新近的技术,包括稀疏建模方法,再生核希尔伯特空间中的学习、支持向量机中的学习、关注EM算法的贝叶斯推理及其近似推理变分版本、蒙特卡罗方法、聚焦于贝叶斯网络的概率图模型、隐马尔科夫模型和粒子滤波。此外,本书还深入讨论了降维和隐藏变量建模。全书以关于神经网络和深度学习架构的扩展章节结束。此外,书中还讨论了统计参数估计、维纳和卡尔曼滤波、凸性和凸优化的基础知识,其中,用一章介绍了随机逼近和梯度下降族的算法,并提出了分布式优化的相关概念、算法和在线学习技术。