从统计学科与计算机科学的性质认知,大数据是指那些超过传统数据系统处理能力、超出经典统计思想研究范围、不借用网络无法用主流软件工具及技术进行单机分析的复杂数据的集合,对于这一数据集合,在一定的条件下和合理的时间内,我们可以通过现代计算机技术和创新的统计方法,有目的地进行设计、获取、管理、分析,揭示隐藏在其中的有价值的模式和知识。
本书共分五章,其内容包括大数据下的统计理论体系、大数据下的数据集整合分析、大数据下的高维变量选择方法、大数据下的统计方法并行计算和大数据下的统计方法应用——网络舆情分析。
本书内容新颖,取材国内外资料,同时认真总结了作者近年来的科研成果,重点反映统计学对大数据发展的影响,突出五大特点:
(1)充分体现学科融合;
(2)拓展统计研究对象;
(3)丰富统计计算规范;
(4)改进统计研究方式;
(5)扩展统计应用范围。
本书对从事大数据挖掘、机器学习、人工智能和数据分析的科技人员具有重要的参考价值,可以用作统计学、计算机技术、人工智能和大数据管理等专业或研究方向博士生、硕士生的教材。
朱建平,南开大学理学博士。现为厦门大学管理学院教授、博士生导师,厦门大学健康医疗大数据国家研究院副院长,厦门大学数据挖掘研究中心主任。主要研究方向为数理统计、数据挖掘、健康医疗大数据、数据科学与商业智能等。
谢邦昌,台湾大学生物统计学博士。现为台北医学大学教授、博士生导师,台北医学大学管理学院院长、台北医学大学大资料研究中心主任。主要研究方向为数理统计、生物统计、统计调查研究、大数据挖掘、医学统计等。
马双鸽,美国威斯康星大学统计学博士、华盛顿大学生物统计博士后。现为美国耶鲁大学生物统计系教授。美国统计学会会士、国际统计学会当选会员。主要研究方向为高维数据分析、生存分析、卫生经济、癌症等。
张德富,华中科技大学工学博士、厦门东南融通博士后。现为厦门大学信息学院教授、博士生导师,厦门大学大数据与计算智能团队带头人。厦门“双百计划”领军型创业人才、闽江科学传播学者、厦门市科技经济促进会高级顾问、中国大数据学术创新百人、公益慈善中国行活动专家。主要研究方向为大数据、计算智能、数据挖掘、大规模优化算法、知识图谱等。
方匡南,厦门大学统计学博士、美国耶鲁大学博士后。现为厦门大学经济学院统计系教授、博士生导师,厦门大学数据挖掘研究中心副主任。主要研究方向为数据挖掘、机器学习、应用统计、金融大数据、医疗大数据等。
潘璠,华中科技大学经济学博士,高级统计师,国家统计局统计科学研究所原所长。
第一章 大数据下的统计理论体系
1.1 背景与意义
1.2 文献回顾与评述
1.3 大数据及其对统计学科的影响
1.4 从统计学到数据科学范式的兴起
1.5 大数据背景下的统计学科建设
1.6 总结与展望
参考文献
第二章 大数据下的数据集整合分析
2.1 背景和意义
2.2 综述
2.3 AFT在异构性模型的整合分析
2.4 对癌症结果中多维度组学数据的整合分析
2.5 多亚型癌症预后数据整合分析
2.6 基于对比惩罚的高通量癌症研究整合分析
2.7 总结与展望
参考文献
第三章 大数据下的高维变量选择方法
3.1 背景和意义
3.2 高维数据的群组变量选择方法
3.3 基于自适应稀疏组Lasso的双层变量选择
3.4 基于网络结构Logistic模型的企业信用风险预警
3.5 用惩罚方法来识别两部分模型的比例结构
3.6 总结与展望
参考文献
第四章 大数据下的统计方法并行计算
4.1 背景和意义
4.2 综述
4.3 基于Map-Reduce的马尔可夫毯贝叶斯网络学习
4.4 基于Hadoop的并行关联规则挖掘方法
4.5 基于分类问题的特征排序算法
4.6 模糊时间序列预测模型
4.7 精准营销决策框架
4.8 总结及展望
参考文献
第五章 大数据下的统计方法应用——网络舆情分析
5.1 背景和意义
5.2 网络舆情分析研究方法
5.3 网络舆情分析中的主题发现
5.4 网络舆情分析中的关联分析
5.5 网络舆情分析中的情感倾向性分析
5.6 应用研究
5.7 总结与展望
参考文献