本书采用案例和理论相结合的形式,以Anaconda和PyCharm为开发工具,系统地重点阐述了利用Python进行数据预处理、分析与可视化等相关知识,讲解了Python各种数据处理展示的函数方法的使用方法。全书共有6章,分别是数据分析概述、Python基础、利用Pandas进行数据预处理、利用Pandas进行数据分析、利用Matplotlib进行数据可视化、Python数据分析与综合应用。在教学设计中安排了知识图谱、学习目标、知识指南、任务实训、结果分析、巩固训练、每章测试等模块。本书既可以作为本科和高职院校各专业数据分析相关课程的教材,也可以作为企业电子商务、市场营销、数据分析人员的参考资料。
李良,男,讲师,就职于苏州工业职业技术性学院,2018年,国家精品在线开放课程《计算机应用基础》,排名第四,主要针对大数据、人工智能等专业领域的教学。
第1章 数据分析概述 1
1.1 认识数据分析 1
一、数据分析背景 1
二、数据分析流程 2
三、数据分析应用 3
1.2 认识Python 3
一、Python的发展趋势 3
二、Python的特点 4
三、Python的常用库 4
1.3 安装环境 6
一、安装Anaconda 6
二、安装PyCharm 11
三、在PyCharm中导入Anaconda环境 14
四、查看PyCharm中的安装库 18
1.4 数据分析概述测试题 21
第2章 Python基础 23
2.1 Python基本操作 23
一、变量 24
二、转义符 24
三、输入与输出 25
四、算术运算符 27
2.2 Python选择结构 29
一、关系运算符 29
二、单分支选择结构 30
三、双分支选择结构 31
四、多分支选择结构 31
2.3 Python循环语句 33
一、while循环语句 34
二、for循环语句一般形式 34
2.4 Python列表操作 39
一、创建列表 39
二、访问列表元素与切片列表 40
三、添加列表元素 41
四、修改列表元素 42
五、删除列表元素 42
六、列表的常用方法 43
2.5 Python字符串操作 46
一、字符串的访问 46
二、字符串的操作 47
2.6 Python字典操作 52
一、创建字典 53
二、访问字典关键字 53
三、访问字典元素 54
四、更新字典元素 54
五、删除字典元素 55
六、利用字典创建二维字典 56
2.7 Python函数操作 58
一、定义函数 59
二、调用函数 59
三、匿名函数 60
2.8 Python的NumPy库 64
一、创建数组对象 64
二、查看数组属性 66
三、数组的索引与切片 67
四、NumPy随机数 68
五、NumPy的操作 70
2.9 Python基础测试题 72
第3章 利用Pandas进行数据预处理 74
3.1 数据的创建与操作 74
一、Series的创建与操作 75
二、DataFrame的创建与操作 80
3.2 数据的导入与保存 84
一、导入数据设置 84
二、导入外部文件 85
三、导入Sklearn自带数据 86
四、保存数据 86
3.3 数据的新增与删除 91
一、新增列数据 91
二、数据的删除 93
3.4 数据的筛选与切片 96
一、直接选取列数据 96
二、利用loc函数选取行数据 97
三、选取DataFrame切片数据 99
3.5 数据的去空与去重 104
一、数据去空 104
二、数据去重 107
3.6 数据的填充与替换 111
一、空值填充 111
二、批量替换 113
3.7 数据的拼接和合并 117
一、数据的纵向拼接 117
二、数据的横向合并 119
3.8 时间的转换与提取 123
一、生成时间类数据 124
二、转化DataFrame时间数据 126
三、提取时间信息 126
3.9 利用Pandas进行数据预处理测试题 129
第4章 利用Pandas进行数据分析 132
4.1 数据的排序与排名 132
一、数据排序 133
二、数据排名 134
4.2 数据的统计与描述 137
一、数值型字段的统计与描述 137
二、分类型字段的统计与描述 140
4.3 数据的分组与分段 144
一、数据分组统计分析 144
二、数据分段统计分析 147
4.4 数据的交叉与透视 149
一、频数交叉表 149
二、数据透视表 151
4.5 数据的正态性分析 156
一、数据的正态分布 156
二、正态分布的描述 157
三、正态分布的验证 158
4.6 数据的相关性分析 164
一、相关关系的概念 164
二、相关分析 164
4.7 利用Pandas进行数据分析测试题 169
第5章 利用Matplotlib进行数据可视化 171
5.1 绘图设置与简单绘图 171
一、绘图设置 172
二、简单绘图 177
5.2 绘制柱形图 180
一、柱形图 180
二、添加数据标签 184
5.3 绘制条形图 187
一、直接绘制条形图 187
二、利用数据分组绘制条形图 190
5.4 绘制折线图 194
一、折线图 194
二、添加折线图辅助线 195
5.5 绘制散点气泡图 200
一、散点图 200
二、绘制气泡图 202
5.6 绘制饼图与圆环图 208
一、绘制饼图及其文本设置 208
二、绘制圆环图 210
5.7 利用Matplotlib进行数据可视化测试题 214
第6章 Python数据分析与综合应用 216
6.1 成绩数据预处理与分析 216
一、数据源 216
二、要求 217
三、步骤 217
四、结论 221
6.2 房产数据预处理与分析 221
一、数据源 221
二、目标 222
三、步骤 222
四、结论 227
6.3 餐饮数据分析与可视化 227
一、数据源 227
二、目标 228
三、步骤 228
四、结论 235
6.4 超市数据分析与可视化 236
一、数据源 236
二、目标 237
三、步骤 238
四、结论 245
6.5 工业数据分析与可视化 246
一、数据源分析 246
二、目标 248
三、分析步骤 248
四、结论 255
附录A 函数方法表 257
附录B 颜色表 261
参考文献 262