本书为专著,以藏文文本处理为核心任务,从理论到实践阐述了大数据环境下藏文文本类型数据的分析方法,探讨了当前主流的文本挖掘技术以及这些技术在藏文文本分析处理中的具体应用。书中阐述了藏文字符处理、词汇分析、句法分析、藏文文本表示、藏文文本分类、藏文文本聚类、藏文信息抽取等藏文文本分析与文本挖掘方面的理论与方法;书中提出的相关技术方法可以直接用于解决藏文文本分析与文本挖掘的问题。本书可作为高校藏文信息处理相关方向研究生的教材或参考书,也可以作为从事藏语自然语言处理应用研究领域专业研究人员的参考资料。
艾金勇,西藏民族大学副教授;研究方向为藏文信息处理、数字图书馆技术;近年来参与多项和西藏自治区级项目,主持西藏自治区级项目2项;发表论文30余篇,其中核心期刊论文7篇;
陈小莹,西藏民族大学讲师;
第1章 绪 论
1.1 藏文概述
1.1.1 藏文文字的性质
1.1.2 藏文文法的主要内容
1.2 藏文文本特征
1.2.1 藏文文字特征
1.2.2 藏文词语特征
1.2.3 藏文句子特征
1.3 藏文编码标准情况
1.3.1 ASCII码
1.3.2 中文字符的编码
1.3.3 藏文字符编码国家标准
1.3.4 国际字符编码UNICODE及藏文字符编码国际标准
1.4 藏文文本挖掘
1.4.1 文本挖掘基本概念
1.4.2 文本挖掘主要技术
1.4.3 文本挖掘的一般过程
1.4.4 文本挖掘面临的困难
第2章 藏文字符处理
2.1 藏字的结构
2.1.1 藏字的结构分析
2.1.2 藏字的构件
2.2 藏文字符输入技术
2.2.1 藏文字符键盘编码理论
2.2.2 藏文字符键盘设计分析
2.2.3 藏文字符键盘布局国家标准
2.2.4 Windows藏文字符键盘输入技术
2.3 藏文文字的规范化处理
2.3.1 特殊符号的归一化
2.3.2 外借词的藏文化处理
2.3.3 黏着语的规范化处理
2.4 藏文文字的结构识别
2.4.1 小字符集编码的藏文音节结构
2.4.2 现代藏文音节正字法知识
2.4.3 藏文文字结构的辨识
2.4.4 藏文音节构件的确定算法
第3章 藏文词法分析
3.1 藏文词法分析概述
3.1.1 藏文词法分析研究的问题
3.1.2 词法分析研究面临的困难
3.1.3 一体化藏文词法分析框架
3.1.4 藏文词法分析的意义与作用
3.1.5 藏文词法分析的目标
3.2 藏文自动分词
3.2.1 藏文自动分词概述
3.2.2 藏文分词的方法
3.2.3 基于条件随机场的藏文分词方法值
3.2.4 藏文未登录词的处理方法
3.3 藏文词性标注
3.3.1 藏文词类标记集
3.3.2 基于熵模型的藏文词性标注
3.4 藏族人名识别
3.4.1 藏族人名的结构
3.4.2 藏族人名的特点
3.4.3 藏族人名的识别策略
3.4.4 基于词位的藏族人名识别方法
3.4.5 基于条件随机场的藏族人名识别
3.5 藏文词处理方法测评
3.5.1 黄金标准
3.5.2 评价指标
第4章 藏文句法分析
4.1 句法分析概述
4.1.1 句法分析概念
4.1.2 句法分析基本策略
4.2 藏文句子概述
4.2.1 藏文句子概念
4.2.2 藏文句子特点
4.2.3 藏文句尾词性特征分析
4.3 藏文句子类别
4.3.1 藏文句子分类
4.3.2 藏文句子基本结构
4.3.3 藏文句型分类
4.3.4 藏文句型功能特征分析
4.4 藏文句法分析
4.4.1 句法分析概述
4.4.2 基于概率上下文无关文法的藏语句法分析
4.4.3 藏文依存句法分析
第5章 藏文文本表示模型研究
5.1 文本表示概述
5.2 文本特征项
5.3 文本特征表示方法
5.3.1 基于字的特征表示法
5.3.2 基于词的特征表示法
5.3.3 基于短语的特征表示法
5.3.4 基于概念的特征表示法
5.4 藏文文本表示方法研究
第6章 藏文文本分类算法研究
6.1 文本分类概述
6.1.1 文本分类定义
6.1.2 自动文本分类
6.1.3 文本分类的基本流程
6.1.4 文本分类的应用领域
6.2 文本特征提取方法
6.2.1 率统计法
6.2.2 互信息法
6.2.3 信息增益法
6.2.4 卡方检验法
6.2.5 其他方法
6.3 文本分类算法
6.3.1 朴素贝叶斯模型
6.3.2 支持向量机算法
6.3.3 KNN算法
6.4 算法性能评价
6.4.1 二元分类评价
6.4.2 多类问题评价
6.5 藏文文本分类算法研究
6.5.1 基于朴素贝叶斯的藏文文本分类研究
6.5.2 基于KNN模型的藏文文本分类研究
6.5.3 基于SVM:的藏文文本分类研究
第7章 藏文文本聚类算法研究
7.1 文本聚类概述
7.1.1 文本聚类的概念
7.1.2 文本聚类的任务
7.1.3 文本分类的应用领域
7.2 文本聚类分析的常用特征表示
7.3 文本相似性度量
7.3.1 样本间的相似性
7.3.2 簇间的相似性
7.3.3 样本与簇间的相似性
7.4 文本聚类方法
7.4.1 划分聚类方法
7.4.2 层次聚类方法
7.4.3 密度聚类方法
7.4.4 基于模型的聚类
7.4.5 竞争聚类类型
7.5 聚类算法性能评估
7.6 藏文文本聚类方法
第8章 藏文web文本挖掘方法研究
8.1 web文本挖掘概述
8.1.1 web文本数据应用及特点
8.1.2 web文本挖掘及挖掘类型
8.1.3 web文本挖掘过程
8.2 网页结构特点
8.2.1 网页特征
8.2.2 N页结构
8.2.3 网页架构
8.3 web文本信息获取方式
8.3.1 网络爬虫
8.3.2 其他web信息程序获取方式
8.3.3 web文本信息抽取
8.3.4 自然语言文本结构化信息抽取
8.4 web信息文本抽取相关知识
8.4.1 XPath技术
8.4.2 解析模板以及解析模板的生成技术
8.5 藏文网页文本主题信息抽取算法实现
8.5.1 藏文网页规范化处理
8.5.2 藏文网页标签的线性重构
8.5.3 藏文网页正文抽取算法实现
8.5.4 藏文网页主题抽取算法实现
参考文献