人工智能开发丛书--Scikit-learn机器学习详解(上)
定 价:99 元
丛书名:人工智能开发丛书
- 作者:潘风文、潘启儒 著
- 出版时间:2021/1/1
- ISBN:9787122378491
- 出 版 社:化学工业出版社
- 中图法分类:TP181
- 页码:348
- 纸张:
- 版次:01
- 开本:16开
本书主要内容包括机器学习介绍,NumPy、Pandas、SciPy库、Matplotlib(可视化)四个基础模块,Scikit-learn算法、模型、拟合、过拟合、欠拟合、模型性能度量指标、数据标准化、非线性转换、离散化,以及特征抽取和降维的各种方法,包括特征哈希、文本特征抽取、特征聚合等。全书通过实用范例和图解形式讲解,选材典型,案例丰富,适合从事大数据、数据挖掘、机器学习等人工智能领域开发的各类人员。
潘风文,博士,从事大数据、人工智能领域的研究和实践二十多年,成功主持过多项大型数据仓库及商业智能BI项目,包括电商平台用户画像智能系统,Themis企业征信尽调平台智能系统,武汉农商行数据仓库DW系统,金融界大型网站数据分析系统,CGoGo手机搜索引擎,陕西移动BI智能分析系统,中国电信移动支付系统等,主持过数据挖掘人工智能领域多项国家科研项目。
1 机器学习 1
1.1 机器学习和人工智能 2
1.2 机器学习和大数据 4
1.3 机器学习和数据挖掘 6
1.4 机器学习分类和应用 7
1.5 机器学习开发步骤 10
1.5.1 数据挖掘标准流程 10
1.5.2 机器学习开发步骤 15
本章小结 18
2 Scikit-learn预备知识 20
2.1 NumPy 21
2.1.1 NumPy数组概念 23
2.1.2 NumPy数据类型 24
2.1.3 NumPy数组创建 26
2.1.4 NumPy数组操作 37
2.1.5 NumPy随机数 51
2.1.6 NumPy输入输出 57
2.1.7 NumPy矩阵 58
2.1.8 NumPy线性代数 59
2.1.9 NumPy常数 63
2.2 Pandas 63
2.2.1 Pandas数据结构 64
2.2.2 Pandas顶层函数 114
2.2.3 Pandas应用举例 115
2.3 SciPy库 122
2.3.1 SciPy库基础知识 123
2.3.2 稀疏矩阵及其处理 124
2.3.3 SciPy库应用举例 138
2.4 Matplotlib 144
2.4.1 Matplotlib基础知识 145
2.4.2 Matplotlib应用举例 149
本章小结 161
3 Scikit-learn基础应用 163
3.1 机器学习的算法和模型 164
3.1.1 特征变量和目标变量 165
3.1.2 算法训练 166
3.1.3 过拟合和欠拟合 174
3.1.4 模型性能度量 175
3.2 模型选择 180
3.3 Scikit-learn的功能模块 180
3.4 Scikit-learn 应用 182
3.4.1 安装Scikit-learn 182
3.4.2 数据导入 183
3.4.3 模型持久化 185
3.4.4 文本数据处理 186
3.4.5 随机状态控制 187
3.4.6 分类型变量处理 187
3.4.7 Pandas数据框处理 188
3.4.8 输入输出约定 188
3.5 应用实例 191
本章小结 193
4 Scikit-learn数据变换 195
4.1 概念介绍 196
4.1.1 评估器(estimator) 196
4.1.2 转换器(transformer) 197
4.1.3 管道(pipeline) 198
4.2 数据预处理 199
4.2.1 数据标准化 201
4.2.2 数据非线性转换 223
4.2.3 数据归一化 232
4.2.4 分类型特征变量编码 237
4.2.5 数据离散化 245
4.2.6 特征组合 251
4.3 缺失值处理 254
4.3.1 单变量插补 255
4.3.2 多变量插补 258
4.3.3 最近邻插补 262
4.3.4 标记插补缺失值 264
4.4 目标变量预处理 268
4.4.1 多类别分类标签二值化 268
4.4.2 多标签分类标签二值化 273
4.4.3 目标变量标签编码 276
本章小结 279
5 Scikit-learn特征抽取和降维 281
5.1 特征抽取 282
5.1.1 字典列表对象向量化 283
5.1.2 特征哈希 286
5.1.3 文本特征抽取 291
5.1.4 图像特征抽取 316
5.2 特征降维 320
5.2.1 主成分分析 321
5.2.2 特征聚合 326
5.2.3 随机投影 330
本章小结 340
附录 342
1. 互操作和框架增强包 343
2. 评估器和任务扩展包 344
3. 统计知识扩展包 347
4. 推荐引擎扩展包 347
5. 特定领域的扩展包 347