《从统计世界走向人工智能——实战案例与算法》叙述了从数学到统计、从统计到人工智能的发展,结合大量的实际商业应用案例介绍了诸多经典的机器学习算法,比如LASSO回归、MCMC、决策树、随机森林和神经网络等。《从统计世界走向人工智能——实战案例与算法》将案例与算法结合,基于人工智能的场景,从理论到实际操作层层递进,读者从中可以学习从需求到分析,再到结论的实际编程方法。当读者阅读完《从统计世界走向人工智能——实战案例与算法》后,不仅可以了解实际问题的需求,而且可以学习到解决问题的算法。
更多科学出版社服务,请扫码获取。
目录
序
前言
第1章 数学→统计→人工智能 1
1.1 数学与统计 1
1.2 数据与统计 1
1.2.1 动态的数据 1
1.2.2 非结构化的数据 2
1.2.3 商业场景的数据初始化 3
1.2.4 统计中的数据与商业中的数据 3
1.3 统计与人工智能 3
1.3.1 人工智能的开端 5
1.3.2 人工智能的解决方法 5
1.3.3 从统计建模到人工智能 6
1.4 人工智能与企业商业赋能的进阶发展 6
1.4.1 阶段性发展 6
1.4.2 更高一层发展模式 7
1.5 人工智能+人:未来职业畅想 7
1.5.1 人与机器的充分融合 7
1.5.2 历史上企业转型的特征 8
1.5.3 人机协作与融合 8
1.5.4 未来职业场景 9
第2章 点评数据对上市公司的影响——基于统计回归模型 11
2.1 通过点评网站数据研究上市公司 11
2.1.1 有效市场假说 11
2.1.2 Yelp数据库介绍 11
2.2 点评网站数据处理 12
2.2.1 数据获取 12
2.2.2 变量提取 14
2.2.3 面板数据准备 16
2.3 回归模型设计 18
2.3.1 模型一:普通 OLS 18
2.3.2 模型二:引入时间趋势项 18
2.3.3 模型三:固定效应模型 19
2.4 点评网站对公司的价值分析 19
2.5 延伸场景及应用 22
第3章 LASSO回归及重要能源价格预测 24
3.1 通过多变量研究重要能源价格 24
3.2 回归模型的递进 25
3.2.1 从线性回归到Ridge回归 25
3.2.2 Ridge回归与LASSO回归 26
3.3 用LASSO回归预测重要能源价格 28
3.3.1 预测框架——理解行业逻辑 28
3.3.2 数据清洗 29
3.3.3 模型初试——让模型跑起来 29
3.3.4 如何改进——提高预测精度 31
3.4 LASSO回归总结以及延伸应用 35
第4章 朴素贝叶斯方法在财务报表分析中的应用 36
4.1 通过三大报表推演企业未来财务 36
4.2 朴素贝叶斯理论介绍 37
4.2.1 贝叶斯理论的思想 37
4.2.2 朴素贝叶斯方法 38
4.2.3 朴素贝叶斯方法的参数估计 38
4.3 用朴素贝叶斯方法对企业未来财务的预测 39
4.3.1 分析框架 39
4.3.2 数据准备 40
4.3.3 模型测试 42
4.3.4 模型改进 45
4.4 朴素贝叶斯方法的总结以及延伸应用 48
第5章 MCMC方法及生物案例分析 49
5.1 MCMC理论介绍 49
5.1.1 马氏链 49
5.1.2 蒙特卡罗方法 50
5.1.3 MCMC方法 51
5.1.4 Metropolis-Hastings算法 51
5.1.5 独立链 52
5.1.6 随机游动链 52
5.1.7 Gibbs抽样 53
5.1.8 链的诊断 53
5.2 癌细胞分裂实例介绍 53
5.2.1 结肠癌细胞背景介绍 53
5.2.2 案例分析 54
5.2.3 MCMC方法总结以及延伸应用 56
第6章 聚类分析及银行信用画像 58
6.1 通过客户数据分类建立银行信贷标准 58
6.2 无监督学习之聚类分析 59
6.2.1 距离:聚类的基础 60
6.2.2 K-均值聚类 61
6.2.3 均值迁移聚类 63
6.2.4 基于密度的聚类方法 65
6.2.5 聚类方法的对比与评价 67
6.3 用聚类方法对银行信贷质量分类 68
6.3.1 分析框架 68
6.3.2 数据准备 69
6.3.3 模型初试 72
6.3.4 模型改进 76
6.4 聚类分析总结以及延伸应用 81
第7章 基于随机森林模型的高频交易订单结构分析与价格变动预测 82
7.1 采用随机森林模型做高频交易 82
7.2 随机森林模型介绍 83
7.2.1 决策树 83
7.2.2 信息熵 84
7.2.3 随机森林算法 85
7.2.4 OOB方法 86
7.2.5 参数选择概述 86
7.3 高频交易订单结构信息挖掘 87
7.3.1 分析框架 87
7.3.2 数据清洗 87
7.3.3 模型初试 91
7.3.4 模型改进 94
7.4 随机森林方法总结以及延伸应用 96
第8章 基于Xgboost的汽车行业供需预测 97
8.1 梯度提升与Xgboost 97
8.1.1 GB 97
8.1.2 GBDT 98
8.1.3 Xgboost 98
8.1.4 分布式Xgboost的设计理念 99
8.2 汽车行业案例 100
8.2.1 汽车案例的行业分析 100
8.2.2 数据预处理 101
8.2.3 Xgboost模型训练 103
8.2.4 结果展示 104
8.3 Xgboost在汽车行业应用的案例评价以及延伸应用 105
第9章 支持向量机原理及在投资择时中的运用 106
9.1 通过时机选择研究金融市场的买卖 106
9.2 SVM介绍 106
9.2.1 SVM是什么 106
9.2.2 线性分类器 108
9.2.3 核函数 109
9.3 在 Python中使用SVM 111
9.4 量化投资中的应用——使用SVM进行期货择时 113
9.4.1 技术指标择时背景 113
9.4.2 SVM股指期货择时策略 114
9.4.3 SVM择时策略结果分析 115
9.4.4 SVM择时策略优化改进 118
9.5 SVM择时总结以及延伸应用 118
第10章 基于LDA模型的电商产品评论主题分析 119
10.1 通过文本信息调研获得用户评价分析 119
10.1.1 文本挖掘 119
10.1.2 LDA模型 119
10.2 调研文本的数据处理 120
10.2.1 数据来源 120
10.2.2 文本评论分词 120
10.2.3 情感分析 121
10.3 LDA主题模型介绍 121
10.3.1 模型介绍 121
10.3.2 模型参数估计 122
10.3.3 模型的评价 123
10.4 LDA模型的算法 124
10.5 电商产品评价分析 125
10.5.1 结果展示 125
10.5.2 模型的不足和改进 126
10.6 LDA模型总结以及延伸应用 127
第11章 LSTM神经网络及糖尿病知识图谱构建 128
11.1 基于神经网络的糖尿病知识图谱构建 128
11.1.1 自然语言处理 128
11.1.2 实体识别 128
11.1.3 糖尿病文本数据集介绍 129
11.2 BiLSTM+CRF算法理论介绍 129
11.2.1 RNN 129
11.2.2 LSTM 131
11.2.3 BiLSTM 133
11.2.4 CRF 134
11.3 BiLSTM+CRF模型评价 134
11.3.1 获得上下文信息 134
11.3.2 考虑到输出规则 134
11.4 糖尿病知识图谱构建过程 135
11.4.1 BiLSTM+CRF模型框架分析 135
11.4.2 数据处理 136
11.4.3 模型初试 141
11.4.4 BiLSTM+CRF模型改进 144
第12章 卷积神经网络在人脸识别中的应用 145
12.1 人脸识别技术的最新发展 145
12.2 基于卷积神经网络的MINST手写数字识别 145
12.2.1 卷积神经网络 145
12.2.2 MINST手写数字识别 146
12.2.3 卷积层 146
12.2.4 池化层 147
12.2.5 全连接层 147
12.2.6 代码:MINST手写数字识别的Keras实现 147
12.2.7 数据预处理 148
12.2.8 模型定义 149
12.2.9 模型训练 150
12.2.10 效果评估 150
12.2.11 模型预测 150
12.2.12 总结 150
12.3 通过FaceNet网络结构实现人脸识别 151
12.3.1 FaceNet网络结构 151
12.3.2 人脸识别的案例介绍 152
12.3.3 案例准备 152
12.3.4 人脸检测 152
12.3.5 人脸识别 154
12.4 卷积神经网络总结和延伸应用 155
参考文献 156
彩图