在数据科学的时代背景下,统计学作为一门学科基础课和方法论课程,更强调的是统计思想在数据科学中的应用。编写教材、组织教学都是围绕着这个核心内容来安排的。我们不再将传统的正态分布下的抽样分布、参数估计、假设检验的理论和方法作为重点讲述内容, 而是将其融入到具体例子中进行讲授,突出统计思维在其中的应用.
本书首先介绍统计量的概念及其性质,在此基础上介绍经典统计的两个重要内容,参数估计和假设检验,将其作为统计研究问题中的两个例子, 介绍统计研究方法的重要思想。之后介绍统计决策与贝叶斯方法。最后介绍基于再抽样和数据重利用的统计方法与理论。本书的每个小节后面都有批判性思考题目,目的是引起讨论、启发思考。每章的最后一节介绍了与本章知识点相关的R语言操作, 包括本书介绍的各种方法的计算机实现, 以及使用统计模拟来辅助各种方法的更深入理解等.
吕晓玲 中国人民大学统计学院教授,博士生导师;数据科学与大数据统计系系主任;中国人民大学数据挖掘中心主任。本科与硕士毕业于南开大学数学系概率统计专业,博士毕业于香港城市大学管理科学系。曾经是奥地利约翰开普勒大学应用统计系以及美国加州大学伯克利分校统计系访问学者。一直从事统计机器学习、数据科学领域的研究。主持教育部人文社会科学研究项目以及中国国家自然科学基金项目。学术论文在Journal of American Statistical Association, Journal of Electronic Commerce Research等SSCI/SCI检索的国际学术期刊发表。
第 1章 数据及其描述 :统计量
1.1数据和变量
1.1.1数据的例子
1.1.2变量的类型
批判性思考
习题1.1
1.2总体、样本和统计量
1.2.1总体和分布
1.2.2样本
1.2.3统计量
批判性思考
习题 1.2
1.3从样本认识总体的图表方法
1.3.1频数频率表与直方图
1.3.2饼图与条形图
1.3.3样本的经验分布函数
1.3.4高维数据的图表展示方法
1.3.5数据变换
批判性思考
习题 1.3
1.4次序统计量
1.4.1次序统计量的概念
1.4.2样本极差
1.4.3样本中位数与样本 p分位数
1.4.4箱线图和 Q–Q图
批判性思考
习题 1.4
1.5抽样分布
1.5.1样本均值的抽样分布
1.5.2正态总体各统计量的分布
1.5.3次序统计量的分布
1.5.4用随机模拟法寻找统计量的近似分布
批判性思考
习题 1.5
1.6充分统计量
1.6.1充分统计量的概念
1.6.2因子分解定理
批判性思考
习题 1.6
1.7常用的概率分布族
1.7.1常用概率分布族表
1.7.2伽玛分布族
1.7.3贝塔分布族
1.7.4指数型分布族
批判性思考
习题 1.7
1.8与本章相关的 R语言操作
1.8.1基本统计量的计算
1.8.2图表
1.8.3随机模拟统计量的抽样分布
附录:定理证明
第 2章 参数估计
2.1点估计与无偏性
批判性思考
习题2.1
2.2矩估计与相合性
2.2.1矩估计
2.2.2相合性
批判性思考
习题2.2
2.3最大似然估计与渐近正态性
2.3.1最大似然估计
2.3.2最大似然估计的不变原理
2.3.3最大似然估计的渐近正态性
2.3.4 EN算法
批判性思考
习题2.3
2.4最小方差无偏估计
2.4.1无偏估计的有效性
2.4.2有偏估计的均方误差准则
2.4.3一致最小方差无偏估计
2.4.4完备性及其应用
批判性思考
习题2.4
2.5 C-R不等式
2.5.1 C-R不等式
2.5.2有效估计
批判性思考
习题2.5
2.6置信区间
2.6.1置信区间概念
2.6.2枢轴量法
2.6.3大样本置信区间
批判性思考
习题2.6
2.7正态总体参数的置信区间
2.7.1正态总体参数的置信区间
2.7.2二维参数 (μ, σ2)的置信域
2.7.3样本量的确定
批判性思考
习题2.7
2.8与本章相关的R语言操作
2.8.1随机变量序列分布的演示
2.8.2最大似然估计
2.8.3 EM算法模拟实例
2.8.4区间估计的模拟结果
2.8.5均值、方差的区间估计
第3章假设检验
3.1假设检验的概念与步骤
3.1.1假设检验问题
3.1.2假设检验的步骤
批判性思考
习题3.1
3.2正态总体参数和比率的检验
3.2.1正态均值μ的检验
3.2.2其他正态总体参数的检验
3.2.3成对数据的t检验
3.2.4比率的推断
3.2.5几个说明
批判性思考
习题3.2
3.3分布的检验
3.3.1离散分布的X2拟合优度检验
3.3.2连续分布的检验
批判性思考
习题3.3
3.4大规模假设检验与FDR
3.4.1大规模假设检验
3.4.2 FDR方法介绍
批判性思考
习题3.4
3.5与本章相关的R语言操作
3.5.1正态总体的参数检验
3.5.2比率检验
3.5.3假设检验的一个人为例子
3.5.4 X2拟合优度检验
3.5.5夏皮洛—威尔克检验
3.5.6柯莫哥洛夫—斯米尔诺夫检验
3.5.7 FDR例子
第4章统计决策与贝叶斯方法
4.1统计决策的基本概念
4.1.1统计决策问题的三要素
4.1.2统计决策函数与风险函数
批判性思考
习题 4.1
4.2贝叶斯点估计
4.2.1先验分布与贝叶斯公式
4.2.2先验分布
4.2.3贝叶斯风险与贝叶斯点估计
4.2.4两个注释
批判性思考
习题 4.2
4.3贝叶斯区间估计
4.3.1可信区间
4.3.2最大后验密度 (HPD)可信区间
批判性思考
习题 4.3
4.4贝叶斯假设检验
批判性思考
习题 4.4
4.5与本章相关的 R语言操作
4.5.1不同先验的对比
4.5.2贝叶斯区间估计
第 5章再抽样方法
5.1自助法参数估计
5.1.1标准误差的自助法估计
5.1.2偏差的自助法估计
5.1.3自助法的区间估计
5.1.4讨论
批判性思考
习题 5.1
5.2 Jackknife
5.2.1 Jackknife方法介绍
5.2.2 Jackknife和自助法的联系
批判性思考
习题 5.2
5.3再抽样假设检验
5.3.1置换检验
5.3.2自助法假设检验
批判性思考
习题 5.3
5.4交叉验证
5.4.1交叉验证简介
5.4.2进一步讨论
批判性思考
习题 5.4
5.5数据科学中的 PCS准则
5.5.1 DSLC中的 PCS准则
5.5.2通过扰动分析进行 PCS推断
批判性思考
习题 5.5
5.6与本章相关的 R语言操作
5.6.1自助法
5.6.2 Jackknife
5.6.3假设检验
5.6.4交叉验证
5.6.5数据科学中的 PCS准则
附录 R语言简介
A.1 R软件简介
A.1.1 R软件的简单介绍
A.1.2 R软件的安装
A.2数据的类型结构
A.2.1数据的类型
A.2.2数据的结构
A.2.3缺失数据的处理
A.3 R的基本操作
A.3.1数据的输入和输出
A.3.2控制结构
A.3.3自定义函数
A.3.4画图
A.4概率分布
参考文献