本书基于Python编程语言,以实战为导向,主要介绍中文自然语言处理的各种理论、方法及应用案例,帮助读者快速熟悉理论知识,理解相关技术原理,为读者选择自然语言处理相关的研究方向或从业领域提供参考。全书共分为三个部分:第一部分(第1~3章)是“基础篇”,侧重介绍自然语言处理的基础知识,并在相应的知识板块中设置实验案例;第二部分(第4~12章)是“技术篇”,主要讲解自然语言处理核心技术的原理及实现方法,以及文本分类、特征提取、RNN等技术在自然语言处理中的应用;第三部分(第13章)是“应用篇”,主要介绍自然语言处理比较典型的应用场景。
本书适合作为人工智能相关课程的教材,也可作为人工智能的普及读物供广大读者自学或参考。
1.本书旨在实现人与计算机之间用自然语言进行有效通信,弥补人类交流与计算机理解之间的差距。
2.本书基于Python编程语言,以实战为导向,介绍了中文自然语言处理的各种理论、方法及应用案例。
3.本书采用任务驱动的编写方式,读者可以直接进行实验效果体验,并进行自由调整。
4.本书提供丰富的教学资源,包括电子课件、习题解答、实验设计、指导书等。
5.本书提供实践所需的虚拟机以及其他配套工具软件。
6.逐步建设在线教学网站,教学资源上传网上,提供线上与线下同步学习。
许桂秋 《大数据导论》《Python编程基础与应用》《NoSQL数据库原理与应用》《数据挖掘与机器学习》等9本系列教材,浙江科技出版社,2019年。
第 1章 自然语言处理初探 1
1.1 什么是自然语言处理 2
1.1.1 自然语言处理的概念 2
1.1.2 自然语言处理的研究任务 3
1.2 自然语言处理的发展历程 5
1.3 自然语言处理相关知识的构成 7
1.3.1 基础术语 7
1.3.2 知识结构 8
1.4 探讨自然语言处理的层面 9
1.5 自然语言处理与人工智能 10
1.5.1 智慧医疗 11
1.5.2 智慧司法. 11
1.5.3 智慧金融 11
1.6 本章小结 12
第 2章 使用Python进行自然语言基础处理 13
2.1 正则表达式在自然语言处理中的基本应用 14
2.1.1 匹配字符串 14
2.1.2 使用转义符 17
2.1.3 抽取文本中的数字 18
2.2 NumPy使用详解 13.2 19
2.2.1 创建数组 19
2.2.2 获取NumPy中数组的维度 20
2.2.3 获取本地数据 21
2.2.4 正确读取数据 22
2.2.5 数组索引 22
2.2.6 数组切片 23
2.2.7 数组比较 23
2.2.8 替代值 24
2.2.9 数据类型转换 25
2.2.10 NumPy的统计计算方法 25
2.3 本章小结 26
第3章 使用NLTK获取和构建语料库 27
3.1 语料库基础 28
3.2 NLTK 29
3.2.1 NLTK简介 29
3.2.2 安装NLTK 30
3.2.3 使用NLTK 31
3.2.4 在Python NLTK下使用Stanford NLP 36
3.3 获取语料库 40
3.3.1 通过语料库网站获取语料库 40
3.3.2 通过编写程序获取语料库 41
3.3.3 通过NLTK获取语料库 42
3.4 综合案例:走进《红楼梦》 44
3.4.1 数据采集和预处理 44
3.4.2 构建本地语料库 45
3.4.3 语料操作 45
3.5 本章小结 48
第4章 jieba中文分词 49
4.1 中文分词简介 50
4.2 规则分词 50
4.2.1 正向最大匹配法 51
4.2.2 逆向最大匹配法 52
4.2.3 双向最大匹配法 54
4.3 统计分词 57
4.3.1 统计语言模型 57
4.3.2 HMM 58
4.3.3 其他统计分词算法 65
4.4 混合分词 65
4.5 Jieba高频词提取 66
4.5.1 jieba的3种分词模式 66
4.5.2 实战之高频词提取 66
4.6 本章小结 69
第5章 jieba词性标注 71
5.1 词性标注简介 72
5.2 词性标注规范 72
5.3 jieba分词中的词性标注 74
5.4 本章小结 75
第6章 命名实体识别之日期识别和地名识别 77
6.1 命名实体识别简介 78
6.2 基于CRF的命名实体识别 79
6.3 命名实体识别之日期识别 82
6.4 命名实体识别之地名识别 86
6.4.1 安装CRF++ 86
6.4.2 确定标签体系 87
6.4.3 语料数据处理 88
6.4.4 特征模板设计 90
6.4.5 模型训练和测试 91
6.4.6 模型使用 93
6.5 本章小结 94
第7章 提取文本关键词 95
7.1 关键词提取算法 96
7.2 TF-IDF算法 96
7.3 TextRank算法 97
7.4 LSA/LSI/LDA算法 99
7.4.1 LSA/LSI算法 99
7.4.2 LDA算法 100
7.5 提取文本关键词 101
7.6 本章小结 108
第8章 词向量算法 109
8.1 word2vec词向量算法 110
8.1.1 神经网络语言模型 110
8.1.2 C&W模型 112
8.1.3 CBOW模型和Skip-gram模型 113
8.2 doc2vec/str2vec文本向量化算法 114
8.3 将网页文本向量化 116
8.3.1 词向量的训练 116
8.3.2 段落向量的训练 119
8.3.3 利用word2vec词向量算法和doc2vec文本向量化算法计算网页相似度 120
8.4 本章小结 124
第9章 句法分析 125
9.1 句法分析概述 126
9.1.1 句法分析的基本概念 126
9.1.2 句法分析的基本方法 126
9.2 句法分析的数据集与评测方法 127
9.2.1 句法分析的数据集 127
9.2.2 句法分析的评测方法 129
9.3 句法分析的常用方法 130
9.3.1 基于PCFG的句法分析 130
9.3.2 基于最大间隔马尔可夫网络的句法分析 131
9.3.3 基于CRF的句法分析 132
9.3.4 基于移进-归约的句法分析 132
9.4 使用Standford Parser的PCFG进行句法分析 134
9.4.1 Stanford Parser 134
9.4.2 基于PCFG的中文句法分析实战 135
9.5 本章小结 136
第 10章 情感分析 137
10.1 情感分析的应用 138
10.2 情感分析的基本方法 139
10.2.1 词法分析 139
10.2.2 机器学习 140
10.2.3 混合分析 140
10.3 电影评论情感分析 141
10.3.1 模型选择 141
10.3.2 载入数据 144
10.3.3 辅助函数 146
10.3.4 模型设置 147
10.3.5 调参配置 148
10.3.6 训练过程 149
10.4 本章小结 149
第 11章 机器学习在自然语言处理的应用 151
11.1 几种常用的机器学习方法 152
11.1.1 文本分类 152
11.1.2 特征提取 152
11.1.3 标注 153
11.1.4 搜索与排序 154
11.1.5 推荐系统 155
11.1.6 序列学习 156
11.2 无监督学习的文本聚类 156
11.3 文本分类实战-中文垃圾邮件分类 158
11.4 文本聚类实战——用K均值聚类对豆瓣读书数据聚类 164
11.5 本章小结 168
第 12章 深度学习在自然语言中的应用 169
12.1 RNN简介 170
12.1.1 简单RNN 170
12.1.2 LSTM 172
12.1.3 Attention机制 174
12.2 Seq2Seq问答机器人 175
12.2.1 Seq2Seq模型 175
12.2.2 实战Seq2Seq聊天机器人 176
12.3 本章小结 184
第 13章 自然语言处理典型的应用场景 185
13.1 机器翻译与写作 186
13.1.1 机器翻译 186
13.1.2 机器写作 195
13.2 智能问答与对话 204
13.2.1 智能问答 204
13.2.2 智能对话系统 204
13.2.3 问答系统的主要组成 206
13.2.4 不同类型的问答系统 207
13.2.5 前景与挑战 218
13.3 个性化推荐 218
13.3.1 推荐系统的概念 218
13.3.2 个性化推荐的基本问题 219
13.3.3 推荐的可解释性 222
13.3.4 前景与挑战 223
13.4 本章小结 226