本书首先阐述自然语言理解的发展脉络和分析逻辑,主要围绕语言符号、处理体系、语义理解等进行探讨,引出自然语言理解的自动分析原理和方法,包括对自然语言特征、统计语言学习、常规机器学习、深度学习、知识图谱方面的介绍。在上述基本自然语言处理方法讲解基础上,继续阐述行业知识图谱搭建和行业应用的方法。通过作者团队几年来在自然语言处理和行业知识图谱的实践经验,探讨垂直行业认知的逻辑和解决方案。
21世纪以来人类创造了海量的自然语言文本数据,但苦于没有“语言媒介大师”,即使拥有共同母语的双方也可能出现“语言隔离”,更不要说人机自然交互了。人类日常接触的语言可以分为通用语言和专业语言:通用语言往往口语化严重,语法杂乱,信息量不足;专业语言需要结合行业知识,有特定的文法,个性化突出。语言特征复杂多□,语种语义理解差异化明显,如何自动化、智能化地理解语言成为各行各业的痛点。自然语言理解应运而生!通过对人类语言信息的抽取、归纳、总结,自然语言理解成为□重要的人工智能成果的检验标准之一,被业内人士称为人工智能皇冠上的明珠。当然路要一步步走,语言的理解首先要解决语言处理问题。伴随海量用户数据(互联网数据、行业业务数据、百科和领域知识)、人工智能算法、集成AI芯片的规模算力平台不断涌入,自然语言处理领域已经树立了一座座里程碑。从早期的符号学派专家系统,到统计语言学□□兴起,再到Word□vec预训练语言模型将语义工具应用落地,各种深度学习框架(TensorFlow、Torch、Paddle Paddle)不断更新……我们似乎摸到了认知的大门。□018年,随着谷歌BERT预训练语言模型横空出世,语言理解领域也开启了“ImageNet”时代篇章。紧接着,XLNet、ERNIE、GPT-3等新模型,以及注意力机制、Transformer、图神经网络等新结构层出不穷,不断刷新各大任务榜单的记录(state-of-the-art,SOTA),推动了整个语言理解水平的持续发展。
当然,上述自然语言处理还需要语义知识的配合,基于语义知识搭建的知识图谱就成为行业应用的关键一环。知识图谱是在知识工程和语义网的基础上发展起来的,□01□年谷歌正式提出了“知识图谱”一词,随后知识图谱逐渐成为互联网公司的底层基础设施之一。通用知识图谱主要有DBpedia、Freebase、YAGO、Wikidata等百科知识库。在吸收了WordNet、FrameNet、Hownet等语言知识精华后,ConceptNet、Concept Graph等常识知识图谱也不断涌现,为语言理解奠定了背景知识基础。随着知识图谱、多模态数据的引入,知识蒸馏和模型压缩进一步推动了语言处理和语义理解的应用步伐。目前,市面上已经常见面向C端用户的智能音箱、智能导航、智能客服、聊天机器人、机器翻译工具等产品,一些SaaS平台也处于初级体验阶段,这印证了自然语言理解行业的广阔发展空间。
自然语言理解当然不止于日常应用,它已逐渐向各行各业赋能,推动语言理解成果向行业转移、转化。面向B端的各垂直行业(例如金融、医疗、公安、电商等)及细分领域逐渐有相应的图谱产品落地。但是到目前为止,语言理解服务多体现为项目合作、平台调用、服务赋能,其工业落地效果面临更多的需求挑战。一方面供求双方在业务理解方面差距巨大,另一方面沟通合作也由于存在信息交互隔阂,这些都严重制约自然语言理解项目或产品落地。如何围绕行业需求,仍然需要结合行业知识构建知识图谱,将自然语言处理与知识图谱更好地融合,才能直击垂直行业落地应用的痛点。
站在自然语言理解需求爆发和落地困境的十字路口,我们该如何看待自然语言理解的优势与不足,如何更好地推动自然语言理解在垂直行业的应用落地呢?这正是本书想要重点探讨的目标。随着国家对人工智能、知识产权等行业的日益重视,我们将进入产业互联网和创新驱动的全新时代!创新需要保护和激励,创新知识需要挖掘和利用,而这些知识正沉积在以专利为代表的知识产权文本中,目前全球已经有超过1.□亿篇专利文本,等待知识图谱赋能。从这个行业视角进入,我们似乎可以揭开行业落地之谜。
本书通过对自然语言理解的思考和各类算法模型的阐述,结合对知识图谱的认知,讲解作者团队几年来在自然语言处理和行业知识图谱方向的实践经验,旨在抛砖引玉。本书即将付梓之时,一个新的生命也将诞生,谨以此书献给我们即将出生的宝贝。
这本书将始终是草稿的状态,如果有人问何时成稿,我们想说下一版!因为这个主题“Never-End Learning”。现在,我们仅期待本书可以帮助大家打开那扇大门,初步体验自然语言理解的行业落地之道。
王楠,北京大学博士,“创青春-中关村U30”□0□0年度优胜者,先后任教于中国科学院、北京信息科技大学计算机学院。研究方向包括人工智能算法、知识图谱、自然语言处理与地球电磁学等。主持或参与国家科技重大专项、高分专项、军口预研、□□系统、企业大数据系统等科研项目,累计获得研发经费超过千万元人民币。负责企业级“专利大数据智能分析系统”的研发,领导技术团队完成软件平台搭建、商用和优化。以作者身份发表行业内高水平论文十余篇,获得多项发明和实用新型专利,提交专利申请十余项。
赵宏宇,现就职于腾讯看点搜索团队,担任算法研究员。有多年NLP、搜索系统、推荐系统的工作经验,涉及专利、招聘和网页搜索等场景。精通PyTorch、TensorFlow等主流深度学习框架,擅长运用NLP前沿技术解决工业项目难题。在意图识别、内容推荐、相关性排序等领域有多年实战经验。曾参与千万级用户求职领域的推荐工作,作为算法主要负责人,主导全新算法落地迭代、线上算法优化以及上亿DAU网页搜索优化迭代。曾与人合著《智能搜索与推荐系统:原理、算法与应用》一书。
蔡月,清华-深圳湾实验室联合培养博士后,于□017年获得北京大学生物医学工程博士学位。曾担任东软医疗上海磁共振研发中心高级算法研究员。研究方向为数据科学、磁共振图像算法、深度学习等,擅长脑科学领域数据分析、磁共振图像加速、去噪等算法研究。曾在脑科学领域SCI期刊Neuroscience、Neurotoxicity Research上发表多篇文章,获得多项发明专利。