我分类故我在!大数据也要大思维!思维革新比数据技术更重要!
在商业分析和商业智慧的场景下,人们需要的是建构大数据,而不是从巨量资料当中大海捞针。
如果只是把资料变多,认知学习能力的维度却没有变高,接下来会如何?从少量数据都学习不到的价值,大数据只会让它更遥不可及。
大数据时代来临,获取数据和信息的技术越发精进,每天产生的数据量也越来越庞大,该如何发挥庞大信息的影响力呢?未来,容易上手的程序语言与免费的教材只会越来越普及,唯有绝佳的资料素养和决策分析能力才能真正让你出类拔萃!
本书内容丰富,从多个角度切入,探讨大数据所必备的工具,例如R Commander、决策树、随机森林与R语言强大的视觉化功能。除了概念解析之外,作者更逐行解析专业程序语言,再加码实际操作与应用功能说明。本书非常适合作为R语言的基础自学书。
在未来,容易上手的程序语言与免费的教材只会越来越普及,唯有绝佳的资料素养和决策分析能力,才能真正让你出类拔萃!
◎内行引入门本书作者实力雄厚,拥有多年教学经验,更是R语言中文版的编译者。
◎功力就大增解析型企业、时间序列、决策树、随机森林等十个大数据核心讲题帮你全方位大提升!
◎思维超展开程序语言专业讲解与发人省思的分析探讨同步帮你掌握关键。
◎展望大未来每讲皆以国际化的大数据时事开头,引发学习兴趣,增进视野高度!
何宗武
现任中国台湾师范大学全球经营与策略研究所教授,曾任中国台湾世新大学特聘教授、财务金融学系教授、数量方法研究暨发展中心主任。擅长财务经济学、金融大数据、计量经济资料科学及程序语言等,曾出版《R语言:深入浅出财经计量》《R资料采矿与数据分析:以GUI套件Rattle结合程序语言实作》《资料分析轻松学:R Commander高手捷径》《Eviews高手:财经计量应用手册》等多部著作。
第 1 讲 分析型企业的概念 001
大数据有大用 ▲007
数据分析过程涉及的两个大数据环境 ▲009
算法的概念 ▲013
数据分析之信息概论 ▲017
测量的哲学自我学习之路 ▲030
本书内容安排 ▲032
第 2 讲 统计分布的数字特征 037
统计图 ▲040
平均值 ▲041
四分位距 ▲043
标准差 ▲045
偏度 ▲047
峰度 ▲049
分析大数据时需要注意的问题 ▲051
商业模式的数字挑战 ▲052
第 3 讲 时间序列 053
时间序列的概念 ▲057
时间序列的特点 ▲057
时间序列分析之低频分析 ▲059
时间序列的分类分析 ▲061
时间序列分析之日高频分析 ▲069
分类分析 ▲072
时间序列分析之日内高频分析 ▲077
分析大数据时需要注意的问题 ▲080
预测失灵 ▲081
第 4 讲 期望值与信赖区间 083
期望的概念 ▲087
简单的统计原理 ▲087
R Commander 项目实战 ▲096
残差诊断 ▲103
R 语言程序实战 ▲113
分析大数据时需要注意的问题 ▲117
基于区块链的决策思考 ▲120
第 5 讲 二元选择模型与 Logistic 模型 123
二元选择模型 ▲126
R Commander 项目实战 ▲131
R 语言程序实战 ▲137
分析大数据时需要注意的问题 ▲142
大数据的经济预测 ▲144
第 6 讲 主成分分析 147
主成分分析的概念 ▲150
R Commander 项目实战 ▲153
R 语言程序实战 ▲168
分析大数据时需要注意的问题 ▲173
都是预测惹的祸 ▲174
第 7 讲 聚类分析 177
聚类分析的基本概念 ▲180
R Commander 项目实战 ▲184
R 语言程序实战 ▲196
分析大数据时需要注意的问题 ▲203
平台经济的数据决策 ▲204
第 8 讲 决策树 207
决策树的概念 ▲210
决策树的分类原理 ▲210
R Commander 项目实战 ▲213
R 语言程序实战 ▲222
分析大数据时需要注意的问题 ▲230
当数据变成噪声 ▲232
第 9 讲 随机森林 235
随机森林的概念 ▲238
随机森林的特点 ▲239
R Commander 项目实战 ▲239
R 语言程序实战 ▲248
分析大数据时需要注意的问题 ▲250
都是随机惹的祸 ▲251
第 10 讲 购物车分析 253
购物车分析的概念 ▲256
关联分析的原理 ▲256
R Commander 项目实战 ▲258
R 语言程序实战 ▲263
分析大数据时需要注意的问题 ▲278
数据产品化大数据决策的最后一段路 ▲280
附录 A 关于 R 语言的安装 283
R 语言简介及安装 ▲284
R Commander 简介 ▲291
安装 R Commander ▲292
附录 B rattle 包的安装 295
加载外部数据 ▲298
加载 R 语言内置数据 ▲301
附录 C 数据文件的读取和 MySQL 数据库的使用 303
数据的读取 ▲304
使用数据库读取数据 ▲317
常用的数据处理函数 ▲321
数据计算函数 apply() 家族 ▲322