数据分析是当今大数据时代最关键的技术,其广泛应用于包括医学在内的各个领域。Python 语言简单易用, 第三方库功能强大,提供了完整的数据分析框架,深受广大数据分析人员的青睐。
本书涵盖传统的统计分析方法和较为复杂的机器学习算法,结合大量精选的实例,使用 Python 进行数据分析,对常用分析方法进行深入浅出的介绍,以帮助读者解决数据分析中的实际问题。
本书强调实战和应用,尽量淡化分析方法的推导和计算过程,大量的 Python 程序示例是本书的亮点。阅读本书,读者不仅能掌握使用 Python 及相关库快速解决实际问题的方法,还能更深入地理解数据分析。
本书不仅适合临床医学、公共卫生及其他医学相关专业的本科生和研究生使用,亦可作为其他专业的学生和科研人员学习数据分析的参考书。
1.结合医学数据,系统地介绍如何利用 Python 进行数据分析,以帮助读者解决数据分析中的实际问题。
2.本着让非专业读者易于理解的原则,本书强调实战和应用,着重介绍数据分析的思路和方法,尽量淡化分析方法的推导和计算。
3.书中配有大量的案例解析和程序示例,以及使用 Python 绘制的图形,所有代码均在 Python 3.8.5 环境下运行通过。
4.书中每一章都配有习题,书末附有习题参考答案,方便读者自学和学校老师教学。
5.提供源码下载
赵军,流行病学博士,湖北医药学院副教授,预防医学系主任。主要研究方向为流行病学与健康大数据分析。有16年统计学与数据科学的教学和科研工作经验,精通Python语言、R语言,为国内多家三甲医院提供数据分析咨询与服务。编写教材两部,发表SCI论文十余篇,担任多个SCI杂志的审稿人。编写的《R语言医学数据分析实战》一书广获好评。
刘文婷,副教授,硕士生导师,现任湖北医药学院智能医学工程系主任、大数据中心主任。主持省自然科学基金1项。科研方向为人工智能和生物信息学。主讲课程有“智能医学工程导论”“医学生物信息学”等。发表SCI论文17篇、国际会议论文4篇。
第 1 章 Python 语言基础 1
1.1 关于 Python 1
1.2 为什么使用 Python 分析数据 1
1.3 重要的 Python 库 2
1.4 安装与设置 2
1.4.1 在 Windows 或 MacOS 系统上安装 Anaconda 3
1.4.2 在Linux 系统上安装 Anaconda 3
1.4.3 安装和更新包 3
1.4.4 Python 解释器 4
1.4.5 导入库 4
1.5 代码编写工具 5
1.6 开始使用 Python 7
1.6.1 获取帮助 7
1.6.2 把 Python 当作一个计算器 9
1.6.3 Python 对象 12
1.7 工作目录 14
1.8 习题 15
第 2 章 基本数据结构 16
2.1 列表 16
2.1.1 列表的创建 16
2.1.2 列表基本操作 17
2.1.3 列表方法与函数操作 19
2.2 元组 21
2.2.1 元组的创建 21
2.2.2 元组的操作 22
2.3 字典 23
2.3.1 字典的创建 24
2.3.2 字典的操作 25
2.4 集合 26
2.4.1 集合的创建 26
2.4.2 集合的操作 26
2.5 习题 27
第 3 章 控制流、函数与文件操作 28
3.1 条件语句 28
3.1.1 简单条件结构 28
3.1.2 嵌套条件结构 29
3.2 循环语句 30
3.2.1 for 循环 30
3.2.2 while 循环 30
3.3 函数 31
3.3.1 定义函数 31
3.3.2 默认参数 31
3.3.3 任意参数 32
3.3.4 匿名函数 33
3.4 文件操作 33
3.4.1 读取 txt 文件 33
3.4.2 写入 txt 文件 34
3.4.3 读写 CSV 文件 35
3.5 习题 36
第 4 章 NumPy 基础 37
4.1 创建数组对象 37
4.1.1 使用函数 array 创建数组对象 37
4.1.2 使用专门函数创建数组对象 38
4.1.3 生成伪随机数 39
4.2 数组操作 41
4.2.1 数组重塑 41
4.2.2 数组转置和轴变换 41
4.2.3 数组的索引和切片 42
4.3 数组运算 44
4.3.1 通用函数 44
4.3.2 基本统计运算 46
4.3.3 矩阵运算 47
4.4 数组文件的保存与导入 48
4.5 习题 49
第 5 章 Pandas 入门 50
5.1 Pandas 数据结构 50
5.1.1 Series 50
5.1.2 DataFrame 51
5.2 Pandas 对象基本操作 53
5.2.1 索引操作 53
5.2.2 DataFrame 的查询与子集选择 55
5.3 DataFrame 的导入和导出 62
5.3.1 读写文本文件 63
5.3.2 读写其他格式的文件 64
5.4 Pandas 数据预处理 66
5.4.1 数据的合并 66
5.4.2 数据长宽格式的转换 68
5.4.3 缺失值的识别与处理 70
5.4.4 数据值的转换 75
5.5 习题 85
第 6 章 数据可视化 86
6.1 Matplotlib 绘图基础 86
6.1.1 函数 plot 与图形元素 86
6.1.2 全局参数查看与设置 88
6.1.3 一页多图 89
6.1.4 保存图形 90
6.1.5 基本统计图形 91
6.2 Seaborn 数据可视化 96
6.2.1 Seaborn 简介 96
6.2.2 直方图和密度曲线图 97
6.2.3 条形图 98
6.2.4 箱线图和小提琴图 99
6.2.5 点图 102
6.2.6 带状点图与簇状点图 102
6.2.7 散点图 104
6.2.8 散点图矩阵 104
6.2.9 多面板图 105
6.2.10 回归图 107
6.2.11 分面网格图 107
6.2.12 Seaborn 图形保存 108
6.3 其他 Python 数据可视化工具 108
6.4 习题 109
第 7 章 基本统计分析 110
7.1 查看数据集信息 110
7.2 数值型变量的统计描述 113
7.3 数值型变量的假设检验 117
7.3.1 单个样本的 t 检验 117
7.3.2 独立样本的 t 检验 117
7.3.3 非独立样本的 t 检验 118
7.3.4 单因素方差分析 119
7.3.5 组间差异的非参数检验 121
7.3.6 连续型变量之间的相关性 121
7.4 分类变量的列联表和独立性检验 124
7.4.1 生成频数表 124
7.4.2 独立性检验 126
7.5 习题 128
第 8 章 线性模型与广义线性模型 129
8.1 线性模型 129
8.1.1 简单线性回归模型 129
8.1.2 多重线性回归模型 134
8.2 Logistic 回归 137
8.2.1 Logistic 回归模型 137
8.2.2 Logistic 回归实例 138
8.3 Poisson 回归 143
8.3.1 Poisson 回归模型 143
8.3.2 Poisson 回归实例 143
8.4 生存分析与 Cox 回归 145
8.4.1 生存分析简介 145
8.4.2 生存率的 Kaplan-Meier 估计 147
8.4.3 Cox 回归 150
8.5 习题 153
第 9 章 Scikit-learn 机器学习入门 154
9.1 机器学习简介 154
9.2 加载数据集 154
9.3 学习和预测 158
9.3.1 无监督学习 158
9.3.2 监督学习 159
9.4 模型的选择与评估 161
9.5 习题 163
第 10 章 TensorFlow 深度学习入门 164
10.1 深度学习简介 164
10.2 感知机与神经网络 165
10.3 激活函数 167
10.4 损失函数 168
10.5 优化器 168
10.6 构建并训练神经网络 169
10.7 习题 171
第 11 章 图像分类卷积神经网络模型 172
11.1 卷积神经网络 172
11.1.1 局部感受野 172
11.1.2 共享权重和偏置 173
11.1.3 池化 173
11.2 加载数据集 174
11.3 构建卷积神经网络模型 175
11.4 编译并训练模型 177
11.5 评估模型 178
11.6 习题 179
习题参考答案 180
参考资料 192