本书全面探讨了科技文本分析的智能方法,以情报学理论为支撑,以人工智能技术为核心,结合现代情报工程的前沿实践经验,对科技文本分析的任务图景、智能方法实现以及技术发展趋势进行了系统研究。首先分析了科技文本分析的概念、任务、实现流程和发展历史,系统性地提出了科技文本分析的任务图景。其次,深入论述科技文献的智能化版式分析方法、科技文本结构分析的智能方法、科技文本词汇功能分析的智能方法、科技文本中科技知识要素分析的智能方法,以及科技文本中引用片段的功能分析。再次,论述了科技文本中的科学机理识别、科技文本大模型等前沿课题,并简要分析科技文本中的偏见识别与环节、多模态科技文本分析等高阶任务。最后,分析了科技文本分析智能方法的发展趋势。
程齐凯,武汉大学副教授,博导,智能与创新治理研究所所长,长期从事情报分析、文本挖掘研究,主持自科面上项目等项目8项;发表SSCI、SCI、CSSCI及以上论文70余篇;获教育部高等学校科学研究优秀成果奖二等奖在内省部级奖励8次。
马永强,博士,讲师,毕业于武汉大学信息管理学院,师从陆伟教授。研究方向为智能情报技术、科技文本挖掘,在IP&M、ESWA、情报学报及ACL等期刊、会议发表论文十余篇,被引两百余次,相关研究成果在业内多次成功落地应用。
导言/001 第一章 科技文本与科技文本分析/005 一 基础概念/005 二 科技文本的模态类型与结构层级/009 三 科技文本分析的任务体系/015 四 科技文本分析面临的难题/025 五 走向智能化的科技文本分析技术/029 六 本章小结/033 第二章 科技文本中蕴含的知识体系/034 一 通用知识类型划分/035 二 本体视角下的科技文本知识类型/037 三 科技文本知识的本体类型域/045 四 文本结构视角下的科技文本知识体系/047 五 本章小结/057 第三章 第一性原理视角下的科技文本智能分析/059 一 科技文本分析的认识论观点/060 二 从认识论观点到方法论观点/064 三 本章小结/068 第四章 科技文献的版式识别/069 一 科技文献版式分析的任务和方法/069 二 科技文献图表分析的任务和方法/079 三 基于动态版式数据集生成的版式分析方法/083 四 交互式科技文献图表细粒度理解/090 五 本章小结/110 第五章 科技文本的结构功能分析/112 一 科技文本结构功能的定义与任务/112 二 科技文本结构功能的自动识别方法/117 三 科技文本的结构功能识别/121 四 本章小结/136 第六章 科技文本的词汇功能分析/137 一 科技文本词汇功能分析的任务定义/137 二 科技文本词汇功能识别的低成本实现方法/142 三 科技文本词汇功能识别的预训练语言模型方法/156 四 本章小结/163 第七章 科技文本的科技知识要素分析/165 一 科技知识要素的类型/165 二 科技知识要素识别的一般方法与实现/168 三 面向设备计量的设备概念识别与分析/174 四 本章小结/180 第八章 科技文本的引用片段识别及引用功能分析/181 一 科技文本引用功能分析的任务定义/182 二 科技文本引用片段定位/184 三 科技文本引用片段引用动机识别/190 四 超越文档粒度的知识要素引用网络构建与分析/194 五 本章小结/201 第九章 科技文本的科学机理识别与表示/203 一 科学机理抽取的任务定义/204 二 科学机理的表示方法/208 三 科技机理抽取数据集的构建/213 四 基于预训练语言模型的科学机理抽取方法/216 五 科学机理文本的检索与应用/222 六 本章小结/227 第十章 科技文本大模型的构建与应用/228 一 科技文本大模型的通用能力体系/229 二 科技文本大模型的痛点、问题与方向/232 三 可信可靠科技文本大模型的构建思路/237 四 超越下一词预测的科技文本大模型/249 五 本章小结/267 参考文献/268