本词表是在理解我国档案管理行业现状及需求的基础上建设的。本词表建立了档案馆藏资源知识化加工及标引并基于人工智能开发档案利用服务系统,推动形成机器可理解档案数据资源满足人民群众的档案服务需求,达到以为民、便民、惠民为档案数据利用服务的目标。
基于以上需求,编写组兼顾计算机和人工标引需求,在利用已有词表的基础之上,采用计算机与人工协同的方法,编制了《政务文书档案专业词表》,就本词表编制及使用,说明如下。
一、收词规则和范围
本词表的构建参考和吸收了《中国档案主题词表》《综合电子政务主题词表》《公文主题词表》,这些经典词表是档案标引、管理和应用服务的基础,凝聚了大量档案专家和词
政务文书档案专业词表
表专家的智慧,也是本词表构建的基础。这些词表包含了大量的基础主题词,如《中国档案主题词表》第二版共收录25 891条主题词,其中21 785条正式主题词,4106条非正式主题词;《综合电子政务主题词表》共收录主题词20 252条,其中正式主题词17 421条,非正式主题词2831条;中共中央办公厅秘书局编制的《公文主题词表》共收录主题词5116条,其中主表收词4622条,附表收词494条;《国务院公文主题词表》共有15类1049个主题词,分为主表和附表两大部分,主表有13类751个主题词,附表有2类298个主题词。
但是受限于编表当时的技术条件及党政机关政务文书档案的数字化程度,这些词表在文献保证原则的落实上存在一定的不足,即部分词条在实际标引工作中用不到,又有一些在标引工作中有用的词条在词表中没有收录。在本词表编制中,文献保证主要依据山东省档案馆收藏的党政机关政务文书档案馆藏资源进行分析统计筛选。
此外,中国共产党全国代表大会报告和历次全国人民代表大会上的政府工作报告能够相对□□体现中央精神,对于各级党政机关的政务文书具有一定的引导性。因此,对这部分语料单独加工处理。中国共产党自 1921年建党以来已经举行过 19次全国代表大会,但是前 7次全国代表大会都在中华人民共和国成立前,中华人民共和国成立后前期周期不固定,后期才逐步稳定下来,从 1956年至今共举行了 12次全国代表大会,因此集中选取中华人民共和国成立后的中国共产党第八次到第十九次全国代表大会报告正文,由于大会间隔时间相对较长,因此将改革开放以来部分全会上的体现党和政府工作方针的重要决定、决议也收录进来。中央政府工作报告既有对过去工作的总结,也有对未来工作的规划,能够较大程度上覆盖公文档案内容,采集中央政府网站上公开的 1954—2019年历年中央政府工作报告共 51份。将这些共同作为语料库,利用新词发现工具对语料进行分析筛选和人工审定,尤其注重近年来常用的党政机关政务文书档案词语。
本词表收录主题词及其相关词兼顾自动标引的处理便利性,不选用注释性内容,便于计算机在原文中发现相关词条,如将“输出(贸易)”修改为“输出”,尽管从单个词条方面可能产生歧义,但是可以通过多个标引词相互参照来排除歧义。此外,存在一些词语的规范表达不断发展变化的情况,如“毛难族”目前用“毛南族”,但是考虑到档案的时间跨度较大,目前不用的词条也尽可能收录在本词表中。
二、用词关系设置及调整
本词表的关系主要有两个来源:一是从已有词表借鉴,二是通过关系推荐工具。从已有词表借鉴的关系做了简化调整,只记录词条之间的相关性,不具体区分其用、代、属、分、参等具体关系类型。关系推荐是自动发现潜在的词间关系,并根据一定的规则加以推荐的技术。具体而言,针对山东省档案馆语料库和词表,计算给定的词条(主要是通过新词发现给出的无关系的词条)与已有词表中的词条可能存在的关系。关系推荐有两条技术路径:□□条路径是基于半结构化信息的处理,在语料资源中存在一些半结构化数据,如标引了字段名称结构,可以将后续内容归结为这一字段的分项关系词,在关键词或者主题
说 明
词字段共现的词条作为相关关系推荐;第二条路径是根据语料共现信息,将某一分词后的语料,先选定一个目标词,然后根据分词结果按照一定的窗口前后定位,根据相距位置的远近分别赋予不同的相关性权值,然后将不同文档中的相关词的权值累加起来。两条路径□后都需要根据统计结果分别排序,并将两种方法的结果进行加权计算,形成□终的关系推荐结果。
关系处理时,对于一些可以通过词形包含直接发现的关系词(实际上主要是属分关系和部分用代关系)不加收录,如“爱国运动”的相关词包括“运动”一词,但是无论计算机自动标引还是人工标引,都可以通过词形直接发现其相关词“运动”,因而不必单独收录。因此,本词表中的词间关系也并不全是对称结构,如“运动”一词的相关词中就包含“爱国运动”,因为这样的语义细分的词条是无法从词形上推断出来的,相关词的收录对于细化标引工作具有一定的参考价值。
三、取词举例
本词表共收录主题词 10 482条,共有相关关系 28 094条,本词表是非对称的结构,每个词条仅列举其无法通过词形推断出来的相关词。样例如下所示。
2.“八个明确”:执政理念
其中,“2”是序号,通过“.”与正式的内容分隔开,正式内容中主题词与相关词通过冒号分隔,冒号前的“八个明确”为主题词,冒号后的“执政理念”为相关词,针对特定主题词可以查找其相关词。
如果有 2条以上的相关词以“;”分隔,样例如下所示。
83.奥运会:奥林匹克运动会;冬季奥运会;特奥会;运动会
冒号前的“奥运会”为主题词,冒号后的“奥林匹克运动会”“冬季奥运会”“特奥会”“运动会”为相关词。如果拟采用“奥运会”标引,可以参考这些相关词进行标引,如考虑采用全称或者具体细化、更通用的名称。
本词表按音序排列,将一些特殊的以标点符号、字母等开头的主题词置于词表前部,这样排序可以方便在人工标引时查询使用。
四、使用方法
本词表可以单独使用,在确定某一候选主题词后,在本词表查询其相关词,确定其相关词是否更适合标引使用。人工标引人员可以利用本词表调整选用合适的主题词;自动标引工具也可以根据相关词作主题词的扩展和筛选。
本词表可以配合已经长期使用的其他主题词表联合应用,一方面可以补充和丰富这些词表;另一方面可以提供近年来党政机关的政务公文中常见主题的主题词及其相关词。
本词表的编制是一种探索与尝试,由于水平所限,经验不足,其中还存在一些错误和不足,敬请读者和应用者批评指正,以使词表通过不断修订更加臻于完善。