从Python基础入门开始,到应用Python进行科学计算、数据处理、数据可视化、机器学习、深度学习,再到利用Python进行金融、地理信息、交通、文本、图像等具体领域数据挖掘与分析,并最终利用Python进行项目GUI可视化应用开发。本书深入浅出地介绍了如何学习Python数据分析技能及应用于具体领域,实践性强。
本书分三篇:基础篇、案例篇和提高篇;基础篇(第1~6章)主要介绍Python基本知识及应用于科学计算、数据处理、数据可视化、机器学习、深度学习等方面的基础知识;案例篇(第7~11章)主要介绍了利用Python进行金融、地理信息、交通、文本和图像具体领域的数据挖掘分析应用案例;提高篇(第12章)主要介绍GUI可视化应用项目开发;附录提供6个实训课题,在电子资源中会给出详细的实训指导、数据和程序代码。
本书提供了丰富的数据、案例及程序代码,同时理论与实践相结合,以应用为主。适合大数据、数学、计算机、经济金融管理类的本科生和大专生学习。对于研究生及数据挖掘研究者、爱好者也具有很好的参考价值。
1.从Python程序设计基础入手,深入讲解数据分析的相关包及数据分析方法
2.结合金融、交通、图像识别等行业应用将理论与案例结合,实用性强
3.配套资源丰富,配套微课视频,案例数据源,课件,上机实验指导等
黄恒秋 2011.7-2014.6 就职于深圳市国泰安信息技术有限公司,从事CSMAR数据库分析师、软件策划及设计相关工作 2014.9-今 广西民族师范学院数学与计算机科学学院专任教师,从事数据分析与挖掘、数学建模、Python语言、MATLAB语言、高等数学相关课程教学工作。
基础篇\t1
第 1章 Python基础 1
1.1 Python概述 1
1.2 Python安装及启动 1
1.2.1 Python安装 1
1.2.2 Python启动及界面认识 4
1.3 Python扩展包安装 9
1.3.1 在线安装 9
1.3.2 离线安装 10
1.4 Python基本数据类型 11
1.4.1 数值的定义 11
1.4.2 字符串的定义 11
1.4.3 列表的定义 12
1.4.4 元组的定义 12
1.4.5 集合的定义 12
1.4.6 字典的定义 13
1.5 Python相关的公有方法 13
1.5.1 索引 13
1.5.2 切片 14
1.5.3 长度 15
1.5.4 统计 15
1.5.5 成员身份 15
1.5.6 变量删除 16
1.6 列表、元组、字符串与字典方法 16
1.6.1 列表方法 16
1.6.2 元组方法 18
1.6.3 字符串方法 19
1.6.4 字典方法 20
1.7 条件语句 21
1.7.1 if…语句 21
1.7.2 if…else…语句 21
1.7.3 if…elif…else…语句 22
1.8 循环语句 22
1.8.1 while语句 22
1.8.2 for循环 23
1.9 函数 23
1.9.1 无返回值函数的定义与调用 23
1.9.2 有返回值函数的定义与调用 24
1.9.3 有多返回值函数的定义与调用 24
本章小结 25
本章练习 25
第 2章 科学计算包Numpy 26
2.1 Numpy简介 26
2.2 创建数组 27
2.2.1 利用array()函数创建数组 27
2.2.2 利用内置函数创建数组 28
2.3 数组尺寸 28
2.4 数组运算 29
2.5 数组切片 30
2.5.1 常见的数组切片方法 30
2.5.2 利用ix_()函数进行数组切片 31
2.6 数组连接 32
2.7 数据存取 33
2.8 数组形态变换 34
2.9 数组排序与搜索 35
2.10 矩阵与线性代数运算 36
2.10.1 创建Numpy矩阵 36
2.10.2 矩阵的属性和基本运算 37
2.10.3 线性代数运算 38
本章小结 41
本章练习 42
第3章 数据处理包Pandas 43
3.1 Pandas简介 43
3.2 序列 44
3.2.1 序列创建及访问 44
3.2.2 序列属性 45
3.2.3 序列方法 46
3.2.4 序列切片 47
3.2.5 序列聚合运算 48
3.3 数据框 48
3.3.1 数据框创建 49
3.3.2 数据框属性 49
3.3.3 数据框方法 50
3.3.4 数据框切片 54
3.4 外部文件读取 56
3.4.1 Excel文件读取 56
3.4.2 TXT文件读取 57
3.4.3 CSV文件读取 58
3.5 常用函数 59
3.5.1 滚动计算函数 59
3.5.2 数据框合并函数 60
3.5.3 数据框关联函数 61
本章小结 62
本章练习 63
第4章 数据可视化包Matplotlib 65
4.1 Matplotlib绘图基础 65
4.1.1 Matplotlib图像构成 65
4.1.2 Matplotlib绘图基本流程 65
4.1.3 中文字符显示 67
4.1.4 坐标轴字符刻度标注 69
4.2 Matplotlib常用图形绘制 70
4.2.1 散点图 71
4.2.2 线性图 72
4.2.3 柱状图 73
4.2.4 直方图 74
4.2.5 饼图 75
4.2.6 箱线图 75
4.2.7 子图 76
本章小结 79
本章练习 79
第5章 机器学习与实现 80
5.1 Scikit-learn简介 80
5.2 数据预处理 80
5.2.1 缺失值处理 81
5.2.2 数据规范化 83
5.2.3 主成分分析 86
5.3 线性回归 93
5.3.1 一元线性回归 93
5.3.2 多元线性回归 96
5.3.3 Python线性回归应用举例 97
5.4 逻辑回归 99
5.4.1 逻辑回归模型 99
5.4.2 Python逻辑回归模型应用举例 100
5.5 神经网络 101
5.5.1 神经网络模拟思想 101
5.5.2 神经网络结构及数学模型 103
5.5.3 Python神经网络分类应用举例 104
5.5.4 Python神经网络回归应用举例 105
5.6 支持向量机 106
5.6.1 支持向量机原理 106
5.6.2 Python支持向量机应用举例 107
5.7 K-均值聚类 109
5.7.1 K-均值聚类的基本原理 110
5.7.2 Python K-均值聚类算法应用举例 113
5.8 关联规则 114
5.8.1 关联规则概念 114
5.8.2 布尔关联规则挖掘 116
5.8.3 一对一关联规则挖掘及Python实现 116
5.8.4 多对一关联规则挖掘及Python实现 118
本章小结 123
本章练习 123
第6章 深度学习与实现 128
6.1 深度学习简介 128
6.2 深度学习框架简介 128
6.2.1 Caffe框架 128
6.2.2 Theano框架 129
6.2.3 PaddlePaddle框架 129
6.2.4 TensorFlow框架 129
6.3 TensorFlow基础 129
6.3.1 TensorFlow安装 129
6.3.2 TensorFlow命令简介 133
6.3.3 TensorFlow案例 135
6.4 多层神经网络 139
6.4.1 多层神经网络结构及数学模型 139
6.4.2 多层神经网络分类问题应用举例 141
6.4.3 多层神经网络回归问题应用举例 144
6.5 卷积神经网络 151
6.5.1 卷积层计算 151
6.5.2 池化层计算 153
6.5.3 全连接层计算 155
6.5.4 CNN应用案例 155
6.6 循环神经网络 161
6.6.1 RNN结构及数学模型 161
6.6.2 长短期记忆网络(LSTM) 162
6.6.3 RNN应用案例 164
本章小结 167
本章练习 168
案例篇 169
第7章 基于财务与交易数据的量化投资分析 169
7.1 案例背景 169
7.2 案例目标及实现思路 169
7.3 基于总体规模与投资效率指标的综合评价 170
7.3.1 指标选择 171
7.3.2 数据获取 171
7.3.3 数据处理 173
7.3.4 主成分分析 174
7.3.5 综合排名 174
7.4 技术分析指标选择与计算 175
7.4.1 移动平均线 176
7.4.2 指数平滑异同平均线 176
7.4.3 随机指标 177
7.4.4 相对强弱指标 177
7.4.5 乖离率指标 178
7.4.6 能量潮指标 178
7.4.7 涨跌趋势指标 179
7.4.8 计算举例 179
7.5 量化投资模型与策略实现 182
7.5.1 投资组合构建 183
7.5.2 基于逻辑回归的量化投资策略实现 183
本章小结 186
本章练习 186
第8章 众包任务定价优化方案 187
8.1 案例背景 187
8.2 案例目标及实现思路 188
8.3 数据获取与探索 188
8.3.1 地理信息可视化包folium安装 188
8.3.2 数据读取与地图可视化 189
8.4 指标计算 190
8.4.1 指标设计 190
8.4.2 指标计算方法 191
8.4.3 程序实现 192
8.5 任务定价模型构建 198
8.5.1 指标数据预处理 198
8.5.2 多元线性回归模型 201
8.5.3 神经网络模型 202
8.6 方案评价 202
8.6.1 任务完成增加量 202
8.6.2 成本增加额 203
8.6.3 完整实现代码 203
本章小结 205
本章练习 205
第9章 地铁站点日客流量预测 205
9.1 案例背景 206
9.2 案例目标及实现思路 206
9.3 数据获取与探索 207
9.3.1 二分法查找思想 208
9.3.2 每日数据index范围提取 208
9.4 指标计算 209
9.4.1 指标设计 210
9.4.2 指标计算方法 210
9.4.3 程序实现 210
9.4.4 指标数据预处理 214
9.5 数据可视化 214
9.6. 因素分析 218
9.6.1 SPSS 进行指数平滑 218
9.6.2 因素分析结果 221
9.7神经网络预测模型的建立 222
9.7.1 示例站点客流量预测 222
9.7.2 全部站点客流量预测 224
9.7.3模型预测结果分析 226
本章小结 227
本章练习 227
第 10章 微博文本情感分析 228
10.1 案例背景 228
10.2 案例目标及实现思路 228
10.3 数据预处理过程 229
10.3.1 数据读取 229
10.3.2 分词 230
10.3.3 去停用词 232
10.3.4 词向量 233
10.3.5 划分数据集 236
10.4 支持向量机分类模型 237
10.5 基于LSTM网络的分类模型 238
本章小结 241
本章练习 241
第 11章 基于人民币图像的面额识别 242
11.1 案例背景 242
11.2 案例目标及实现思路 242
11.3 数据获取与探索 243
11.4 支持向量机识别模型 245
11.4.1 颜色特征计算方法 245
11.4.2 自变量与因变量计算 246
11.4.3 模型实现 247
11.5 卷积神经网络识别模型:灰图 248
11.5.1 数据处理 248
11.5.2 模型实现 249
11.6 卷积神经网络识别模型:彩图 252
11.6.1 数据处理 252
11.6.2 模型实现 254
本章小结 255
本章练习 255
提高篇 257
第 12章 GUI可视化应用开发 257
12.1 人民币面额识别系统 257
12.1.1 Pycharm安装 257
12.1.2 创建项目文件夹 260
12.1.3 配置QtDesigner工具 262
12.1.4 配置代码生成工具 264
12.1.5 系统界面设计 266
12.1.6 系统界面转化为PyQt5代码 268
12.1.7 配置项目解释器 271
12.1.8 系统功能实现 273
12.1.9 生成可独立运行的exe文件 276
12.2 上市公司综合评价系统 280
12.2.1 界面设计 281
12.2.2 系统功能实现 283
12.2.3 生成exe文件 286
本章小结 287
本章练习 287
附录 综合实训课题 288
参考文献 290