知识图谱作为认知智能的核心技术正蓬勃发展。本书系统全面地介绍了知识图谱的核心技术,既有宏观整体的技术体系,也有关键技术和算法细节,内容包括:知识图谱模式设计的方法论——六韬法;知识图谱构建中的实体抽取和关系抽取;知识存储中的属性图模型及图数据库,重点介绍了JanusGraph分布式图数据库;知识计算中的图论基础,以及中心性、社区检测等经典图计算算法;知识推理中的逻辑推理、几何变换推理和深度学习推理,及其编程实例。最后,本书以金融、医疗和智能制造三大行业的应用场景为例,梳理了知识图谱的应用价值和应用程序形态。
王文广,浙江大学计算机科学与技术硕士,高级工程师,知识图谱与认知智能领域知名专家。现任达观数据副总裁,专注于自然语言处理、知识图谱、图像与语音分析、认知智能、大数据和图分析等方向的技术研究、产品开发和产业应用,为金融、智能制造、医疗与生物医药、半导体等行业提供认知智能产品和技术服务。现为上海市人工智能技术标准化委员会委员,上海市科学技术委员会评审专家、人工智能领域标准编制专家,CCF 高级会员,CIPS语言与知识计算专委会委员,CAAI深度学习专委会委员。主导或参与过百余个人工智能科学研究和产业应用项目,曾获得国际、国内多个顶尖算法竞赛奖项,申请人工智能领域国家发明专利数十项,并参与编制人工智能领域的多个国家标准、行业标准和团体标准。
第1章 知识图谱概述 0
1.1 从李白的《静夜思》开始 2
1.2 什么是知识图谱 3
1.3 DIKW模型 6
1.4 从DIKW模型到知识图谱 8
1.5 知识图谱技术体系 9
1.5.1 知识图谱模式设计与管理 11
1.5.2 知识图谱构建技术 11
1.5.3 知识图谱存储技术 13
1.5.4 知识图谱应用技术 14
1.5.5 用户接口与界面 17
1.6 知识图谱辨析 17
1.6.1 知识图谱与自然语言处理 18
1.6.2 知识图谱与图数据库 20
1.6.3 知识图谱与语义网络 20
1.6.4 知识图谱与搜索引擎 21
1.6.5 知识图谱与深度学习 21
1.7 知识图谱是人工智能进步的阶梯 22
1.7.1 明鉴历史 23
1.7.2 预见未来 26
1.8 本章小结 27
第2章 知识图谱模式设计 30
2.1 知识图谱模式 32
2.2 模式与本体 35
2.2.1 本体 35
2.2.2 模式与本体辨析 37
2.3 本体概论 38
2.3.1 本体的构成要素 39
2.3.2 本体分类 40
2.3.3 资源描述框架RDF 41
2.3.4 网络本体语言OWL 42
2.3.5 知名本体介绍 44
2.4 模式设计的三大基本原则 52
2.4.1 赋予一类事物合适的名字 53
2.4.2 建立事物间清晰的联系 54
2.4.3 明确、正式的语义表达 55
2.5 六韬法 56
2.5.1 场景 58
2.5.2 复用 59
2.5.3 事物 63
2.5.4 联系 65
2.5.5 约束 67
2.5.6 评价 71
2.6 模式设计的工程模型 72
2.6.1 瀑布模型 72
2.6.2 螺旋模型 74
2.7 本章小结 76
第3章 实体抽取 78
3.1 实体、命名实体和实体抽取 80
3.2 基于规则的实体抽取 82
3.2.1 基于词典匹配的实体抽取方法 83
3.2.2 编写正则表达式抽取实体 84
3.2.3 基于模板的实体抽取方法 85
3.3 如何评价实体抽取的效果 88
3.4 传统机器学习方法 91
3.4.1 概率图模型 92
3.4.2 朴素贝叶斯模型 93
3.4.3 最大熵模型 95
3.4.4 隐马尔可夫模型 100
3.4.5 条件随机场 102
3.4.6 标记方法 106
3.4.7 用CRF++进行实体抽取 108
3.5 深度学习方法 114
3.5.1 基于深度学习的通用实体抽取框架 114
3.5.2 BiLSTM-CRF模型 117
3.5.3 预训练模型用于实体抽取 122
3.6 弱监督学习方法 134
3.7 本章小结 136
第4章 关系抽取 138
4.1 关系和关系抽取 140
4.2 基于规则的关系抽取方法 145
4.2.1 词法分析与依存句法分析 146
4.2.2 基于语法结构的关系抽取 149
4.3 基于深度学习的关系抽取方法 154
4.3.1 关系分类 154
4.3.2 基于BERT的关系分类 158
4.4 实体-关系联合抽取的方法 161
4.4.1 实体-关系联合抽取方法 162
4.4.2 基于片段预测的实体-关系联合抽取 165
4.5 弱监督学习与关系抽取 171
4.5.1 引导法 171
4.5.2 远程监督 174
4.5.3 弱监督学习与Snorkel 176
4.5.4 Snorkel用于关系抽取 179
4.6 本章小结 184
第5章 知识存储 186
5.1 数据与知识存储 188
5.1.1 数据存储模型 188
5.1.2 知识存储极简史 189
5.2 图数据库模型 193
5.2.1 属性图模型 193
5.2.2 完整性约束 196
5.2.3 事务、ACID与BASE 200
5.2.4 查询语言 202
5.3 JanusGraph分布式图数据库 202
5.3.1 JanusGraph的存储模型 205
5.3.2 JanusGraph的属性图模式 209
5.3.3 事务和故障恢复 220
5.3.4 图查询语言Gremlin 221
5.3.5 JanusGraph和Gremlin入门指南 222
5.4 其他图数据库介绍 235
5.4.1 Neo4j 236
5.4.2 Dgraph 239
5.4.3 NebulaGraph 243
5.4.4 图数据对比一览表 246
5.5 本章小结 248
第6章 知识计算 250
6.1 知识计算及其数学基础 252
6.1.1 知识图谱与图 252
6.1.2 图论 253
6.1.3 邻接矩阵 256
6.1.4 谱图理论 257
6.2 遍历与最短路径算法 258
6.2.1 广度优先搜索 258
6.2.2 深度优先搜索 260
6.2.3 Dijkstra单源最短路径 262
6.2.4 最短路径快速算法 265
6.2.5 Floyd算法 268
6.3 中心性 270
6.3.1 度中心性 270
6.3.2 亲密中心性 272
6.3.3 中介中心性 274
6.3.4 特征向量中心性 279
6.3.5 PageRank 281
6.4 社区检测 284
6.4.1 模块度 286
6.4.2 GN社区检测算法 290
6.4.3 Louvain社区检测算法 291
6.5 知识计算工具与系统 297
6.5.1 图数据库计算框架 297
6.5.2 分布式图计算引擎 298
6.5.3 图分析工具包 298
6.6 本章小结 299
第7章 知识推理 300
7.1 知识的表示与推理 302
7.1.1 因果推理 303
7.1.2 演绎推理 303
7.1.3 归纳推理 304
7.1.4 概率推理 305
7.1.5 知识图谱的推理技术 306
7.2 基于规则和逻辑的知识推理方法 308
7.2.1 基于规则的方法 308
7.2.2 基于逻辑的方法 311
7.2.3 定性时空推理 313
7.3 几何空间嵌入的知识推理方法 316
7.3.1 欧几里得空间的平移变换方法 317
7.3.2 复数向量空间的RotatE模型 330
7.3.3 双曲空间嵌入的知识推理方法 334
7.4 知识推理的深度学习方法 353
7.4.1 卷积神经网络的知识推理方法 353
7.4.2 图神经网络模型 358
7.5 本章小结 368
第8章 知识图谱行业应用 370
8.1 行业知识图谱 372
8.1.1 行业知识图谱的特点 372
8.1.2 行业知识图谱的应用价值 376
8.2 知识图谱行业应用范式 382
8.3 共通的应用程序 385
8.3.1 数据与知识中台 385
8.3.2 可视化与交互式分析 388
8.3.3 智能问答 391
8.3.4 认知推荐 396
8.3.5 辅助决策模型 400
8.4 金融 400
8.4.1 反洗钱和反恐怖融资 400
8.4.2 个人信用评估与风险控制 402
8.4.3 企业风险识别、控制与管理 404
8.4.4 系统性金融风险 406
8.4.5 审计 407
8.4.6 证券分析与投资研究 408
8.4.7 保险 410
8.5 医疗、生物医药和卫生健康 411
8.5.1 基因知识图谱 411
8.5.2 生物医药 412
8.5.3 智慧医疗 414
8.5.4 公共卫生 416
8.5.5 中医药知识图谱 418
8.6 智能制造 418
8.6.1 设计研发 419
8.6.2 质量与可靠性工程 420
8.6.3 设备的管理、维护与维修 422
8.6.4 BOM物料清单管理 425
8.6.5 供应链管理 427
8.6.6 售后服务 428
8.7 本章小结 429