《藏文文本自动处理方法研究(第二版)》总共分四个部分,第一部分以藏文字处理为研究对象,讨论了藏文排序方法、藏文音节规则、自动拼写算法和藏文音节构件识别算法的内容;第二部分以藏文词处理为研究对象,讨论了藏文停用词自动处理方法、藏文人名识别方法,研究了条件随机场(CRF)和深度学习的藏文人名识别技术;第三部分以藏文自动校对为研究对象,讨论了基于音节规则的藏文拼写检查算法、藏文自动校对系统框架和接续关系检查算法;第四部分以藏文句子和语义处理方法为研究对象,讨论了论元角色的藏语语义角色标注研究、认识自然语言处理和文本自动处理技术比较。
《藏文文本自动处理方法研究(第二版)》可以作为高等院校藏文信息处理技术、计算机科学与技术、藏语言文学等相关专业研究生的参考书,也可以作为从事藏文信息处理技术、藏语计算语言学、藏语言文学研究相关人员的参考书。
藏文作为人类语言的一个典型例子,具有人类共同的思维方式和语言组织形式,具有自身悠久的历史和完备的理论体系,同样受到现代科学技术进步的影响,也不断适应现代社会日新月异的变化;藏文虽然是一个小语种,同样受到自然语言处理领域研究者的关注。自计算机诞生之日起,人们就开始了藏文在计算机上的表示、显示、输入和输出的研究。目前,人们开始探索藏文自然语言处理问题,以不断提升藏文自身适应现代社会的能力。
随着藏文信息技术的不断发展,经过科研院所、高等学校和企业众多研究者的努力,藏文信息技术研究已经取得了丰硕成果,使得藏文字处理技术趋于成熟。随着互联网的普及和大数据时代的到来,藏文电子资源数据得到了迅速增长,这些数据成为藏文信息处理进一步发展的基石。由此,研究人员广泛开展藏文字处理、词处理、短语处理和语句处理等相关研究工作。目前,在藏文字处理、词处理、短语处理和语句处理等领域上取得了不少成绩,但也存在很多尚未解决的问题。本书从目前亟待解决的几个关键问题出发,研究其解决方案和相应的实现算法,这也是本人从事藏文信息处理技术研究的相关成果,大部分成果已经发表在国内中文核心期刊上。在本书编写过程中,作者得到了多方的大力支持。在此,感谢我的导师李天瑞教授,西藏大学欧珠教授、格桑多吉教授、仁青诺布副教授等;感谢我的学生郑亚楠、侯恩帅、尹良成、李震松、刘赛虎、罗之翔、尼玛等的辛勤努力。另外,本书还得到了“藏语文传承与发展之藏汉双向机器翻译平台建设(藏财预指[2020]1号)项目”“西藏大学珠峰学者计划.高原学者.珠杰(藏财教指[2018]54号)项目”的资助。
本书总共分四个部分,第一部分以藏文字处理为研究对象,讨论了藏文排序方法、藏文音节规则、自动拼写算法和藏文音节构件识别算法的内容;第二部分以藏文词处理为研究对象,讨论了藏文停用词自动处理方法、藏文人名识别方法,研究了条件随机场(CRF)和深度学习的藏文人名识别技术;第三部分以藏文自动校对为研究对象,讨论了基于音节规则的藏文拼写检查算法、藏文自动校对系统框架和接续关系检查算法;第四部分以藏文句子和语义处理方法为研究对象,讨论了论元角色的藏语语义角色标注研究、认识自然语言处理和文本自动处理技术比较。
本书可以作为高等院校藏文信息处理技术、计算机科学与技术、藏语言文学等相关专业研究生的参考书,也可以作为从事藏文信息处理技术、藏语计算语言学、藏语言文学研究相关人员的参考书。
由于本人水平有限,加之时间仓促,书中难免存在疏漏和不妥之处,恳请广大读者批评指正。
第一篇 藏文字处理技术
第一章 藏文基础理论
第一节 藏文字符
第二节 藏文音节
第三节 藏文词语
第四节 藏语句子
第二章 基于藏文编码GB的藏文排序方法研究
第一节 概述
第二节 藏文字排序规则
第三节 藏文字排序算法
第四节 结论
第三章 藏文音节规则库的建立与应用分析
第一节 概述
第二节 藏文的结构
第三节 藏文规则库的建立
第四节 规则库的应用
第五节 结论与展望
第四章 藏文音节规则模型及应用
第一节 概述
第二节 藏文音节结构
第三节 藏文音节规则模型
第四节 规则方法的应用研究
第五节 结论与展望
第五章 藏文音节构件分解及类型识别算法
第一节 概述
第二节 相关研究工作
第三节 音节构件识别算法
第四节 实验
第五节 结论与展望
第二篇 藏文词处理方法
第六章 藏文停用词选取与自动处理方法研究
第一节 概述
第二节 相关研究工作
第三节 藏文停用词选取方法
第四节 停用词处理实验
第五节 结论与展望
第七章 基于词向量的藏文词性标注方法研究
第一节 概述
第二节 相关研究工作
第三节 词性标注算法
第四节 实验及数据分析
第五节 结论与展望
第八章 基于条件随机场的藏文人名识别技术研究
第一节 概述
第二节 相关研究工作
第三节 藏文人名特征
第四节 模型及人名识别
第五节 实验
第六节 结论与展望
第九章 基于深度学习模型的藏文人名识别方法研究
第一节 概述
第二节 相关研究工作
第三节 深度学习模型
第四节 训练模型
第五节 词向量训练
第六节 实验及数据分析
第三篇 藏文自动校对方法
第十章 TSRM藏文拼写检查算法
第一节 概述
第二节 藏文音节规则模型
第三节 拼写检查算法
第四节 实验
……
第四篇 藏文句子和语义处理方法
附录