本书介绍了能源大数据分析的理论知识与实践方法,主要内容包括大数据处理与分析理论、能源系统与能源大数据应用、能源大数据处理与分析实践三个部分。大数据处理与分析理论包括大数据的基本概念、应用流程、平台技术、采集与处理,还包括回归分析、分类分析、聚类分析和深度学习等机器学习的基本理论。能源系统与能源大数据应用介绍了能源系统的基本概念和能源大数据的典型应用,能源系统的基本概念包括能源分类、能源互联网、智慧能源等,能源大数据的典型应用选取能源经济与管理大数据应用、煤炭大数据应用、油气大数据应用和电力大数据应用进行了介绍。能源大数据处理与分析实践选取了8个具体案例对能源大数据的具体应用方法进行了编程实现和介绍。
目录
第一部分 大数据处理与分析理论
第1章 大数据概述 2
1.1 大数据概念 2
1.1.1 大数据定义与内涵 2
1.1.2 大数据的特征 2
1.1.3 数据类型 4
1.2 大数据的应用 4
1.3 大数据的处理流程 7
1.3.1 大数据处理的基本流程 7
1.3.2 数据采集 7
1.3.3 数据预处理 8
1.3.4 数据统计分析和数据挖掘 8
1.3.5 数据可视化 10
1.4 大数据平台技术 11
1.4.1 大数据系统生态 11
1.4.2 大数据存储与管理 12
1.4.3 大数据计算与处理 15
思考题 19
本章参考文献 19
第2章 数据获取与预处理 21
2.1 数据获取与预处理概述 21
2.1.1 数据获取 21
2.1.2 数据清洗与数据转换 22
2.1.3 数据加载 22
2.2 数据获取技术 23
2.2.1 数据获取技术概述 23
2.2.2 网络爬虫 24
2.3 数据预处理 28
2.3.1 数据质量 28
2.3.2 数据清洗 29
2.3.3 数据集成 31
2.3.4 数据转换 33
2.3.5 数据归约 34
2.4 数据集的构建 36
2.4.1 数据集的划分 36
2.4.2 重抽样方法 36
思考题 38
本章参考文献 38
第3章 回归分析 40
3.1 回归分析概述 40
3.2 线性回归 41
3.3 非线性回归 42
3.4 分位数回归 44
思考题 46
本章参考文献 46
第4章 分类分析 48
4.1 分类分析概述 48
4.2 贝叶斯分类 50
4.2.1 贝叶斯分类的原理 50
4.2.2 贝叶斯分类的应用与实例 53
4.3 Logistic回归 54
4.3.1 Logistic回归的原理 54
4.3.2 Logistic回归模型的训练 55
4.3.3 带正则项的Logistic回归 56
4.3.4 Logistic回归的应用 56
4.4 KNN 57
4.5 支持向量机 59
4.5.1 线性可分离数据的支持向量机 59
4.5.2 不可分离数据的支持向量机 62
4.5.3 非线性支持向量机 64
4.6 决策树 65
4.6.1 决策树简介 65
4.6.2 ID3算法 66
4.6.3 C4.5算法 67
4.6.4 CART算法 69
4.7 集成学习 72
4.7.1 集成学习概述 72
4.7.2 随机森林 73
4.7.3 AdaBoost 75
4.7.4 GBDT 76
4.7.5 XGBoost 77
4.8 分类器评估 80
思考题 84
本章参考文献 84
第5章 聚类分析 86
5.1 聚类的特征提取 86
5.1.1 过滤器模型 87
5.1.2 包装器模型 89
5.2 基于代表的聚类 90
5.2.1 K-Means算法 90
5.2.2 核K-Means算法 91
5.2.3 K-Medians算法 91
5.2.4 K-Medoids算法 92
5.3 层次聚类 93
5.3.1 自下而上的聚类 93
5.3.2 自上而下的聚类 96
5.4 基于网格和密度的聚类 97
5.4.1 基于网格的聚类算法 97
5.4.2 DBSCAN算法 99
5.4.3 DENCLUE算法 101
5.5 聚类的有效性 102
5.5.1 内部验证方法 102
5.5.2 外部验证方法 103
思考题 104
本章参考文献 105
第6章 深度学习 106
6.1 深度学习概述 106
6.2 BP神经网络 107
6.2.1 激活函数 107
6.2.2 BP算法的基本原理 110
6.3 卷积神经网络 113
6.3.1 从全连接到卷积 113
6.3.2 卷积层 113
6.3.3 汇聚层 117
6.3.4 典型的卷积神经网络 118
6.4 循环神经网络 122
6.4.1 RNN的展开 123
6.4.2 RNN的结构 123
6.4.3 双向RNN 125
6.4.4 基于门控的RNN 126
6.5 Word2Vec 128
6.6 图神经网络 131
6.6.1 图的概念 131
6.6.2 节点的中心性 131
6.6.3 图嵌入 133
6.6.4 图卷积神经网络 135
思考题 136
本章参考文献 137
第二部分 能源系统与能源大数据应用
第7章 能源系统 140
7.1 能源的定义和分类 140
7.2 能源系统及其演化 144
7.2.1 能源系统概述 144
7.2.2 典型的能源系统 145
7.2.3 能源系统的演化 149
7.3 能源互联网与智慧能源 151
7.3.1 能源互联网的内涵 151
7.3.2 能源互联网的功能 155
7.3.3 能源互联网的技术框架 157
7.3.4 智慧能源的内涵 159
7.3.5 智慧能源的体系架构 159
7.3.6 智慧能源的发展趋势 161
思考题 163
本章参考文献 163
第8章 能源大数据应用 164
8.1 能源大数据的内涵 164
8.2 能源经济与管理大数据应用 166
8.2.1 能源经济与管理大数据应用概况 166
8.2.2 国内外能源经济与管理大数据平台介绍 167
8.3 煤炭大数据应用 170
8.3.1 煤炭大数据应用概况 170
8.3.2 智能矿山平台 171
8.3.3 国内外应用情况 176
8.4 油气大数据应用 182
8.4.1 油气大数据应用概况 182
8.4.2 油气大数据体系架构 184
8.4.3 油田应用情况 186
8.5 电力大数据应用 191
8.5.1 电力大数据应用概况 191
8.5.2 电力大数据体系架构 193
8.5.3 国内外应用情况 195
思考题 199
本章参考文献 199
第三部分 能源大数据处理与分析实践
第9章 能源经济与管理大数据处理与分析案例 202
9.1 能源政策文本分析 202
9.1.1 案例描述 202
9.1.2 能源政策文本数据采集 202
9.1.3 能源政策词云图 205
9.2 国际LNG贸易网络分析 206
9.2.1 案例描述 206
9.2.2 数据预处理与图的生成 206
9.2.3 LNG贸易网络节点中心性 208
9.2.4 LNG贸易网络的图嵌入 209
第10章 煤炭大数据分析案例 211
10.1 煤炭类型识别 211
10.1.1 案例描述 211
10.1.2 实现步骤 211
10.1.3 程序实现与结果分析 212
10.2 煤矿地震预测 215
10.2.1 案例描述 215
10.2.2 模型方法与数据集 215
10.2.3 程序实现与结果分析 216
第11章 油气大数据分析案例 219
11.1 油气消费量的影响因素分析 219
11.1.1 案例描述 219
11.1.2 回归分析 219
11.1.3 结果分析 221
11.2 石油管线事故损失预测 222
11.2.1 案例描述 222
11.2.2 随机森林回归的步骤 222
11.2.3 程序实现与结果分析 223
第12章 电力大数据分析案例 226
12.1 基于LSTM方法的家庭用电量预测 226
12.1.1 案例描述 226
12.1.2 家庭用电量数据集 226
12.1.3 LSTM模型的应用与实现 227
12.2 基于Stacking融合方法的电网负荷预测 234
12.2.1 案例描述 234
12.2.2 Stacking融合方法 234
12.2.3 电网负荷数据集 235
12.2.4 Stacking模型的应用与实现 235