本书由浅入深,内容丰富。全书共11章,主要内容包括第1章R语言数据分析概述、第2章R语言数据操作基础、第3章数据读写、第4章数据预处理、第5章数据的描述统计分析、第6章 数据相关性分析、第7章 R语言可视化基础、第8章 高级可视化工具、第9章聚类分析、第10章关联规则、第11章分类及预测。
本书可作为高等院校数据科学相关专业的教材,也可作为初级数据分析进行数据分析学习的指导书。
1.R语言实战派专家,又一力作
2.数据分析、数据管理及数据可视化,核心技能全掌握
3.配备视频,边学边做,数据分析轻松上手
4.本书可作为高等院校数据科学相关专业的教材,也可作为初级数据分析进行数据分析学习的指导书。
谢佳标,WOT 互联网 大数据技术峰会演讲嘉宾,历届中国R语言大会演讲嘉宾,某知名科技公司高级数据分析师,8年以上数据挖掘建模工作实战经验,部分研究成果曾获得国家专利。 攥写《R语言与数据挖掘》、《R语言游戏数据分析》书籍。主要利用R语言进行大数据的挖掘和可视化工作。有丰富的利用R语言进行数据挖掘实战经验,同时也是公司R语言和数据分析培训的内部讲师。
目录
第 1章 R语言数据分析概述1
1.1认识数据分析1
1.1.1为什么要对数据做分析1
1.1.2数据分析的流程1
1.2R语言的简介及安装2
1.2.1R语言简介2
1.2.2R语言的安装3
1.2.3其他辅助工具3
1.2.4R语言快速上手4
1.3小结9
1.4本章练习9
第 2章 R语言数据操作基础11
2.1R语言数据类型11
2.1.1数据类型判断及转换11
2.1.2日期类型数据处理12
2.2R语言数据对象16
2.2.1.向量16
2.2.2.矩阵和数组20
2.2.3因子22
2.2.4列表和数据框24
2.3文本处理25
2.3.1基础文本处理25
2.3.2stringr扩展包33
2.4小结37
2.5本章练习37
第3章 R语言数据读写39
3.1文本文件读写39
3.1.1base包39
3.1.2readr包43
3.1.3data.table包46
3.2Excel文件读写48
3.2.1xlsx包50
3.2.2XLConnect包54
3.2.3openxlsx包56
3.2.4readxl包59
3.3数据库文件读写60
3.3.1RODBC包61
3.3.2RMySQL包65
3.4本章小结67
3.5本章练习67
第4章 数据基本管理68
4.1数据去重68
4.2 数据排序69
4.3 数据筛选71
4,4 数据合并73
4.5数据关联75
4.6 数据转换78
4.7融合重铸79
4.8数据聚合81
4.9数据分组83
4.10本章小结84
4.11本章练习85
第5章 数据预处理86
5.1 数据抽样86
5.1.1数据抽样的必要性86
5.1.2类失衡处理方法:SMOTE86
5.1.3数据随机抽样:sample函数87
5.1.4数据等比抽样:createDataPartition函数88
5.1.5用于交叉验证的样本抽样89
5.2数据清洗90
5.2.1缺失值判断及处理90
5.2.2异常值判断处理95
5.3数据变换99
5.3.1数据分箱99
5.3.2数据标准化100
5.4数据哑变量处理102
5.5本章小结104
5.6本章练习104
第6章 R语言重要绘图技术105
6.1图形三要素105
6.1.1 颜色元素105
6.1.2 文字元素108
6.1.3 点线元素109
6.2低级绘图函数111
6.2.1标题111
6.2.2坐标轴112
6.2.3图例113
6.2.4网格线115
6.2.5点116
6.2.6文字116
6.2.7线117
6.3高级绘图函数119
6.3.1散点图120
6.3.2气泡图122
6.3.3线图123
6.3.4柱状图124
6.3.5饼图125
6.3.6直方图和密度图125
6.3.7箱线图127
6.4本章小结127
6.5本章练习127
第7章 高级绘图工具129
7.1 lattice绘图工具129
7.1.1 绘图特色129
7.1.2 基本图形135
7.2 ggplot2绘图工具139
7.1.1 从qplot开始139
7.1.2 ggplot作图146
7.1.3 ggplot2扩展包149
7.3 交互式绘图工具152
7.3.1 rCharts包152
7.3.2 recharts包154
7.3.3 rbokeh包162
7.3.4 plotly包164
7.4 本章小结166
7.5 本章练习166
第8章 聚类分析168
8.1概述168
8.2聚类距离度量169
8.3层次聚类172
8.3.1层次聚类原理172
8.3.2R语言实现173
8.3.3聚类树形图可视化177
8.3.4比较聚类树形图186
8.4K-均值聚类190
8.4.1K-均值聚类原理190
8.4.2R语言实现190
8.5K-中心点聚类192
8.6密度聚类195
8.6.1密度聚类原理195
8.6.2R语言实现196
8.7集群评估及验证201
8.7.1估计聚类趋势201
8.7.2确定数据集中的簇数202
8.7.3集群验证204
8.8本章小结205
8.9本章练习205
第9章 理解回归分析207
9.1简单线性回归207
9.1.1简单线性回归原理207
9.1.2简单线性回归R语言实现209
9.1.3模型诊断及预测211
9.1.4指数变换212
9.1.5多项式回归213
9.1.6稳健线性回归215
9.2多元线性回归216
9.3自变量有定性变量的回归217
9.4逐步回归219
9.5多重共线性分析221
9.6线性回归的正则化222
9.6.1为什么要使用正则化222
9.6.2岭回归的原理223
9.6.3Lasso回归的原理224
9.6.4glmnet包简介225
9.6.5综合案例228
9.7逻辑回归230
9.7.1逻辑回归基本原理230
9.7.2逻辑回归的R实现231
9.8本章小结234
9.9本章练习234
10.1决策树概述236
10.2决策树基本原理237
10.3ID3算法237
10.3.1C4.5算法240
10.3.2CART算法241
10.4R语言实现及案例243
10.4.1R语言实现243
10.4.2C5.0案例243
10.4.3CART案例247
10.4.4条件推理决策树案例254
10.4.5绘制决策边界256
10.5集成学习与随机森林258
10.6本章小结260
10.7本章练习260
第 11章 神经网络与支持向量机262
11.1理解神经网络262
11.1.1激活函数262
11.1.2网络结构265
11.1.3人工神经网络的主要类型265
11.2神经网络的R语言实现266
11.3基于神经网络进行类别预测269
11.4理解支持向量机275
11.5支持向量机的R语言实现276
11.6基于支持向量机进行类别预测278
11.7本章小结285
11.8本章练习285
12.1模型性能评估287
12.1.1数值预测评估方法287
12.1.2概率预测评估方法289
12.2模型参数优化298
12.2.1训练集、验证集、测试集的引入298
12.2.2K折交叉验证301
12.2.3网格搜索302
12.3本章小结304
12.4本章练习304