《Python数据分析与可视化》介绍了数据分析的各主要流程,并引入了6个完整的数据分析案例。《Python数据分析与可视化》从理论和案例两个角度对数据分析与可视化以及Python的工具进行了介绍,采用理论分析和编程实践相结合的形式,按照数据分析的基本步骤介绍了数据分析的理论知识,并对相应的Python库进行了详细介绍,让读者在了解数据分析的基本理论知识的同时能够快速上手实现数据分析的程序。
《Python数据分析与可视化》适合Python语言初学者、数据分析从业人士以及高等院校计算机、软件工程、大数据、人工智能等相关专业的师生使用。
1)信息技术新工科产学研联盟数据科学与大数据工作委员会推荐教材。
2)按照数据预处理、分析与知识发现、可视化三个步骤,讲解数据分析涉及的理论。
3)引入了6个完整的数据分析案例,从理论和案例两个角度,介绍数据分析与可视化和Python的工具。
4)随书配备电子课件、习题答案、教学大纲、代码和数据集、案例视频讲解等教学资源。
本书是面向初学者的数据分析与可视化的入门教程。按照数据分析的数据预处理、分析与知识发现和可视化3个主要步骤,逐步对数据分析涉及的理论进行讲解,并对实现这些步骤所用到的Python库进行了详细的介绍。通过理论与实践相结合的讲解方式,读者能够在了解数据分析基础知识的同时快速上手实现一些简单的数据分析程序。
全书分14章,通过阅读第1~8章的内容,读者可以对数据分析的各主要流程具有一定的认识,但这些知识可能还未能形成一个完整的体系。因此在第9~14章引入了6个完整的数据分析案例,以帮助读者建立知识点之间的联系,形成对数据分析整个知识体系的清晰认知。建议读者在阅读实战章节时,可以跟随介绍自己动手尝试一下,一定会发现数据分析的魅力所在。
作为一本数据分析的入门书籍,本书着重对基础知识的介绍,因此对前沿的内容涉及不多,这些内容留待读者在更进一步的学习中深入探索。对于Python语言的知识,本书仅对与数据分析和可视化相关的库进行了介绍,如果读者对Python语言本身感兴趣,还可以参考Python语言工具书及官方文档等详细了解Python的语法和底层原理等。另外,本书所有数据分析的程序实现均是在单机的情况下进行的,并没有对如何使用Python进行分布式数据分析的介绍,感兴趣的读者可以去了解一下Python分布式数据分析的相关库,如Pyspark等。
本书的作者为吕云翔、姚泽良、李伊琳、王肇一、许丽华、韩延刚、谢谨蔓、洪振东、姜峤、孔子乔,曾洪立参与了部分内容的编写并进行了素材整理及配套资源制作等。
由于编者水平和能力有限,书中难免有疏漏之处,恳请广大读者给予批评指正,也希望各位能将实践过程中的经验和心得与我们交流。
前言
第1章数据分析是什么
1.1海量数据蕴藏的知识
1.2数据分析与数据挖掘的关系
1.3机器学习概述
1.4机器学习与数据分析的关系
1.5数据分析的基本步骤
1.6Python和数据分析
习题
第2章Python语言基础
2.1Python发展史
2.2Python及Pandas、scikit-
learn、Matplotlib的
安装
2.2.1Windows环境下Python的
安装
2.2.2Ubuntu和Mac环境下
Python的安装
2.2.3集成开发环境
2.2.4使用pip安装Pandas、
scikit-learn和Matplotlib
2.2.5使用第三方科学计算发行版
Python进行快速安装
2.3Pycharm
2.4Python基础知识
2.4.1Python编码规范
2.4.2模块化的系统
2.5Python基础语法
2.5.1数据类型
2.5.2基本计算
2.5.3控制语句
2.6重要的Python库
2.6.1Pandas
2.6.2scikit-learn
2.6.3Matplotlib
2.6.4其他
2.7Jupyter
习题
第3章数据预处理
3.1了解数据
3.2数据质量
3.2.1完整性
3.2.2一致性
3.2.3准确性
3.2.4及时性
3.3数据清洗
3.4特征工程
3.4.1特征选择
3.4.2特征构建
3.4.3特征提取
习题
第4章NumPy数据分析基础
工具
4.1多维数组对象:ndarray
4.1.1ndarray的创建
4.1.2ndarray的数据类型
4.2ndarray的索引、切片和
迭代
4.3ndarray的shape操作
4.4ndarray的基础操作
4.5习题
第5章Pandas处理结构化
数据
5.1基本数据结构
5.1.1Series
5.1.2DataFrame
5.2基于Pandas的Index对象的
访问操作
5.2.1Pandas的Index对象
5.2.2索引的不同访问方式
5.3数学统计和计算工具
5.3.1统计函数:协方差、相关
系数、排序
5.3.2窗口函数
5.4数学聚合和分组运算
5.4.1agg函数的聚合操作
5.4.2transform函数的转换
操作
5.4.3apply函数实现一般的
操作
习题
第6章数据分析与知识发现的一些
常用方法
6.1分类分析
6.1.1逻辑回归
6.1.2线性判别分析
6.1.3支持向量机
6.1.4决策树
6.1.5K邻近
6.1.6朴素贝叶斯
6.2关联分析
6.2.1基本概念
6.2.2典型算法
6.3聚类分析
6.3.1K均值算法
6.3.2DBSCAN算法
6.4回归分析
6.4.1线性回归分析
6.4.2支持向量回归
6.4.3K邻近回归
习题
第7章Pandas与scikit-learn实
现数据的分析
7.1分类方法
7.1.1Logistic回归
7.1.2支持向量机
7.1.3近邻算法
7.1.4决策树
7.1.5随机梯度下降
7.1.6高斯过程分类
7.1.7神经网络分类(多层感
知器)
7.1.8朴素贝叶斯
7.2回归方法
7.2.1小二乘法
7.2.2岭回归
7.2.3Lasso
7.2.4贝叶斯岭回归
7.2.5决策树回归
7.2.6高斯过程回归
7.2.7近邻回归
7.3聚类方法
7.3.1K-means算法
7.3.2AffinityPropagation算法
7.3.3Mean-shift算法
7.3.4SpectralClustering算法
7.3.5HierarchicalClustering
算法
7.3.6DBSCAN算法
7.3.7Birch算法
习题
第8章Matplotlib交互式图表
绘制
8.1基本布局对象
8.2图表样式的修改以及装饰项
接口
8.3基础图表绘制
8.3.1直方图
8.3.2散点图
8.3.3饼图
8.3.4柱状图
8.3.5折线图
8.3.6表格
8.3.7不同坐标系下的图像
8.4matplot3D
8.5Matplotlib与Jupyter结合
习题
第9章案例:新生信息分析与
可视化
9.1使用Pandas对数据预
处理
9.2使用Matplotlib库画图
9.3使用Pandas进行绘图
第10章案例:用户流失预警
10.1读入数据
10.2数据预处理
10.3五折交叉验证
10.4引入3种模型
10.5调整prob阈值输出精确
评估
第11章案例:美国加利福尼亚房价
预测的数据分析
11.1数据分析常用的Python
工具库
11.1.1Pandas
11.1.2NumPy
11.1.3Matplotlib
11.1.4Sklearn
11.2数据的读入和初步分析
11.2.1数据读入
11.2.2分割测试集与训练集
11.2.3数据的初步分析
11.3数据的预处理
11.3.1拆分数据
11.3.2空白值的填充
11.3.3数据的标准化
11.3.4数据的流程化处理
11.4模型的构建
11.4.1查看不同模型的表现
11.4.2选择效果好的模型进行
预测
第12章案例:基于上下文感知的
多模态交通推荐
12.1题目理解
12.1.1题目背景
12.1.2数据说明
12.1.3评测指标
12.1.4输出格式
12.2解决方案
12.2.1工具包导入
12.2.2特征工程
第13章案例:机器人路径走
迷宫
13.1关键技术
13.1.1马尔科夫决策过程
13.1.2Bellman方程
13.2程序设计步骤
13.2.1初始化迷宫地图
13.2.2计算不同位置
路径
第14章案例:基于Python Elasticsearch
实现搜索附近小区房价
14.1程序设计
14.2准备数据
14.3安装以及使用
Elasticsearch
14.4实现附近房价搜索
的搜索引擎
参考文献