本书是数据挖掘精髓的浓缩。第1章用通俗易懂的语言回答五个基本问题,包括什么是数据,什么是大数据,什么是数据挖掘,以及数据挖掘能挖掘出哪些东西和会产生什么价值。然后用6章的篇幅介绍k-均值、k-近邻、朴素贝叶斯、决策树、回归分析和关联规则挖掘等6种方法。第8章介绍一些实际的应用,演示简单的数据挖掘方法如何产生巨大的价值。本书可供高校的数据科学与大数据、智能科学与技术、人工智能、计算机科学与技术和统计类、应用数学等相关专业的学生作为教材使用,也可供高校的商科大数据、金融等专业的学生、优秀的中学生、科技企业的管理者和相关行业的投资人学习参考。
周涛,电子科技大学教授,主要从事统计物理与复杂性方面的研究。在Physics Reports、PNAS、Nature Communications等国际SCI期刊发表300余篇学术论文,引用18000余次,H指数为65。2009年获教育部自然科学一等奖,2011年获第十二届中国青年科技奖,2014年起历年入选Elesvier最具国际影响力中国科学家名单(物理天文类)。2015年当选第十二届中华全国青联常务委员,并担任科学技术界别工作委员会副主任。2015年当选全国十大科技创新人物。2017年获全国创新争先奖。
目 录
第1章 概述 1
1.1 什么是数据 1
1.2 什么是大数据 3
1.3 什么是数据挖掘 6
1.4 能挖掘出什么 8
1.5 会产生什么价值 10
第2章 k-均值 12
2.1 基本算法 13
2.2 k-均值示例 15
2.3 k-均值算法的局限性 21
练习赛 21
第3章 k-近邻 24
3.1 k-近邻基本算法 25
3.2 评价分类效果的常见指标 26
3.3 影响算法精确度的若干问题 28
3.4 k-近邻算法示例 31
练习赛 35
第4章 朴素贝叶斯 36
4.1 贝叶斯定理 36
4.2 贝叶斯基本算法 39
4.3 贝叶斯算法案例 41
4.4 处理连续特征 45
练习赛 46
第5章 回归 47
5.1 线性回归的最简示例 47
5.2 线性回归的一般形式 53
5.3 逻辑回归的最简示例 55
5.4 逻辑回归的一般形式 59
5.5 小结和讨论 60
练习赛 62
第6章 决策树 63
6.1 构建决策树 63
6.2 经典决策树:ID3、C4.5和CART 66
6.3 连续值、缺失值和剪枝 70
6.4 小结和讨论 75
练习赛 77
第7章 关联规则挖掘 78
7.1 基本算法思想 78
7.2 Apriori算法示例 80
7.3 小结和讨论 85
练习赛 86
第8章 数据挖掘应用创新案例 87
8.1 提升生产制造过程的良品率 87
8.2 刻画全球化对碳排放的影响 89
8.3 捕捉电商评论中的用户情感 91
8.4 实时发现微博中的热点事件 94
推荐阅读材料 96