基本信息

编辑推荐
本书是第一本全面阐述如何构建健壮和准确的多语自然语言处理系统的图书,由两位资深专家编辑,集合了该领域众多尖端进展以及从广泛的研究和产业实践中总结出的实用解决方案。
第一部分介绍现代自然语言处理的核心概念和理论基础,展示了如何理解单词和文档结构、分析语法、建模语言、识别蕴涵和检测冗余。第二部分彻底阐述与构建真实应用有关的实际考量,包括信息抽取、机器翻译、信息检索、文摘、问答、提炼、处理流水线等。
作者简介
Daniel M. Bikel现为Google公司高级研究科学家,正在开发用于自然语言处理和语音识别的新方法。在IBM工作期间,他为IBM的GALE多语种信息抽取和自动应答系统构架了拦截系统。在宾夕法尼亚大学攻读博士后期间,他建造了第一个可扩展的多语种语法分析引擎。
Imed Zitouni现为微软公司高级研究员。2004~2012年,他是IBM公司高级研究科学家,领导IBM公司的阿拉伯语信息抽取和数据资源工作组。在此之前,他还曾领导DIALOCA的语音/自然语言处理组和Bell实验室/阿尔卡特朗讯的语言建模和呼叫路由工作。他的研究涉及机器翻译、自然语言处理和口语对话系统。
内容简介
作译者
nielM.Bikel现为Google公司高级研究科学家,正在开发用于自然语言处理和语音识别的新方法。在IBM工作期间,他为IBM的GALE多语种信息抽取和自动应答系统构架了拦截系统。在宾夕法尼亚大学攻读博士后期间,他建造了第一个可扩展的多语种语法分析引擎。
ImedZitouni现为微软公司高级研究员。2004~2012年,他是IBM公司高级研究科学家,领导IBM公司的阿拉伯语信息抽取和数据资源工作组。在此之前,他还曾领导DIALOCA的语音/自然语言处理组和Bell实验室/阿尔卡特朗讯的语言建模和呼叫路由工作。他的研究涉及机器翻译、自然语言处理和口语对话系统。"
目录
出版者的话
译者序
前言
关于作者
第一部分理论
第1章找出词的结构
1-1词及其部件
1-1-1词元
1-1-2词形
1-1-3词素
1-1-4类型学
1-2问题和挑战
1-2-1不规则性
1-2-2歧义性
1-2-3能产性
1-3形态模型
1-3-1查词典
1-3-2有限状态形态
1-3-3基于合一的形态
前言
看起来几乎每个人都在一定程度上受到了信息技术的发展和互联网繁荣的影响。近来,多媒体信息源变得日益普及。不过,未加工的自然语言文本的总量在不断增长,并且地球上各种主要语言都在不断产生大量未处理文本。例如,英语维基百科报导已有 101 种语言的维基百科,而每种语言至少有10 000 篇文章。因此,不管是国家、公司,还是个人,都迫切需要来分析、翻译、综合或者提炼这些海量文本。
以前,要开发鲁棒、精确的多语自然语言处理(Natural Language Processing, NLP)应用,研究者或者开发人员需要查阅若干本参考书、几十个期刊或者会议论文。本书旨在为开发此类应用提供所需的所有背景知识和实际建议。虽然这个要求很高,但我们希望本书至少是本有用的参考书。
过去20年来,自然语言研究者开发了可处理多种语言的大量文本的若干优秀算法。迄今为止,主流的方法是建立可从实例中学习的统计模型。这样的模型能鲁棒地应对其处理文本的类型甚至语言的变化。如果设计适当,同样的模型可用于新的领域或新的语言,只需要提供相应领域或语言的新的训练实例。这种方法也使得研究者没有必要辛苦地写出处理问题的所有规则以及这些规则联合使用的方式。统计系统一般只要研究者提供可能的输入特征的抽象表示,其相对重要性可在训练(training)阶段学习而得,并在解码(decoding)或者推理(inference)阶段应用于新的文本。
统计自然语言处理领域在快速变化,部分变化源于其快速发展。例如,该领域的主要会议之一是计算语言学年会,其参会人数在过去五年已经翻番。另外,IEEE语音和语言处理会议和期刊上自然语言处理的文章数目也在过去十年中翻了一番以上。IEEE是世界上推进技术发展的最大的专业学会之一。自然语言处理研究者不但在解决本领域的问题上取得了内在的进步,也从机器学习和语言学领域的进展中借鉴良多。本书虽注意先进的算法和技术,但主要目的是对该领域的最佳实践进行详尽的阐明。另外,每章会描述所述方法在多语(multilingual)环境下的适用性。
本书分成两部分。第一部分是理论,包括前七章,展示了自然语言处理的各种基础问题以及解决这些问题的算法。头三章关注的是找出各种不同粒度层次的语言结构。第1章引入了一个重要概念——形态学(morphology),研究词的结构,以及世界上各种语言的不同形态现象的处理方法。第2章讨论了多种方法,文档可由此分解为更易处理的部分,如句子,以及通过主题联系的更大的单位。第3章研究了发现句子内部结构的方法,也即句法(syntax)。句法一直都是语言学最重要的研究领域,这种重要性也反映在自然语言处理领域。说其重要,部分原因是句子的结构和句子的意义相关,所以找出句法结构是理解句子的第一步。
找出句子或者其他文本单位的结构化的意义表示,经常称作语义分析(semantic parsing),这是第4章的内容。第4章还特别讨论了近年来引起诸多关注的语义角色标注(semantic role labeling)问题,其目的是找出可作为动词或谓词的论元的句法短语。对动词的论元进行了识别和分类,我们离生成句子的逻辑形式(logical form)又靠近了一步,而逻辑形式是句子意义的一种表示,这种表示方式容易被机器处理,而用于处理逻辑的多种工具人类自古代就开始研究了。
然而,如果我们不需要语义分析生成的深层句法语义结构呢?如果我们的问题只是确定多个句子中哪个句子是人最可能写或者说的呢?解决此问题的一种方法是开发一个可根据语法合法性而为句子打分的模型并以此选取分值最高的句子。给出一个词串的分值或概率估计的问题称为语言模型(language modeling),这是第5章的主题。
表示意义和判断句子的语法合法性只是处理语言前期步骤中的两种。为了进一步理解意义,我们需要一个算法,该算法可对一段文本中表示的事实进行推理。例如,我们想要知道一个句子中提到的事实是否被文档中前面的某个句子所蕴涵,这种推理被称为识别文本蕴涵(recognizing textual entailment),这是第6章的主题。
找出陈述或事实的相互蕴涵显然对文本自动理解很重要,但是这些陈述的性质也有待考究。理解一个陈述是否是主观的,并找出其表述的意见的倾向性是第7章的主题。由于人们经常表达意见,这显然是一个重要的问题,尤其在社交网络已经成为互联网上人际交流的最重要形式的时代,这一点更显重要。本书第一部分以本章作结。
本书第二部分是实践,讲述如何将第一部分描述的自然语言处理基础技术应用于现实世界中的问题。应用开发经常要做权衡,如时间和空间的权衡,因此本书应用部分的章节探讨了在构建一个鲁棒的多语自然语言处理应用时,如何进行各种算法和设计决策的权衡。
第8章描述识别和区分命名实体(named entity)以及这些实体在文本中提及的办法,也描述了识别两个以上的实体提及共指(corefer)的方法。这两个问题一般称为提及检测(mention detection)和共指消解(coreference resolution),它们是一个更大的应用领域——信息抽取(information extraction)的两个核心部分。
第9章继续信息抽取的讨论,探索找出两个实体如何发生关系的技术,也称为关系抽取(relation extraction)。要识别事件,并对此进行分类,称为事件抽取(event extraction)。此外,事件涉及多个实体,我们希望机器能找出事件的参与者及其所起的作用。因此,事件抽取与自然语言处理中的一个关键问题“语义角色标注”紧密相关。
第10章描述自然语言处理领域中最古老的问题之一,这本质上也是一个多语自然语言处理问题:机器翻译(Machine Translation,MT)。从一种语言翻译为另外一种语言,一直是NLP研究追求的目标。在学术界几十年的努力之后,近年来已经研究出多种方法,在现有的硬件条件下可以进行实用的机器翻译了。
翻译文本是一回事,但是我们如何理解现存的海量文本呢?第8、9章对帮助我们自动产生文本中信息的结构化记录进行了一些探索。解决海量问题的另一个办法是通过查找与某个搜索查询相关的少量文档或者文档的一部分来缩小范围。该问题称为信息检索(information retrieval),这是第11章的主题。像Google一样的商用搜索引擎在很多方面可看作大规模的信息检索系统。由于搜索引擎非常流行,因此这是个很重要的NLP问题——考虑到有大量语料是非公开的,从而不能被商业引擎搜索到,所以信息检索越发重要。
处理大量文本的另一个办法是自动文摘,这是第12章的主题。摘要很困难,一般有两种做法:找到若干个句子或句子片段来表示文本的大意;理解文本,将其意义进行某种内部表示,然后生成摘要,与人为的操作一样。
人们经常倾向于使用机器自动处理文本,因为他们有很多问题要找到答案。这些问题可以是简单的事实性问题,如“约翰·肯尼迪何时出生”,也可以是复杂的问题,如“德国巴伐利亚的最大城市是哪个”。第13章讨论如何建造自动回答这类问题的系统。
如我们想回答的问题还更复杂那该怎么办?我们的查询可能有多个答案,如“找出奥巴马总统在2010年会见的外国政府首脑”。这类查询可由在NLP中被称为提炼(distillation)的一门较新的子学科处理。提炼需要真正地把信息检索和信息抽取技术结合起来,同时还要增加自己的技术。
在许多情形下,我们希望机器能利用语音识别和合成技术交互式地处理语言。这样的系统称为对话系统(dialog system),这在第15章讨论。由于在语音识别、对话管理和语音合成方面的技术进展,对话系统越来越实用,并且已经在实际场合中广泛安装使用。
最后,我们作为NLP研究者和工程师,希望用世界上开发的大量不同的部件来构造系统。这种处理引擎的聚合在第16章介绍。虽然这是本书的最后一章,但从某种意义上来讲这代表处理文本的开始而非结尾,因为该章描述了一个通用的架构,可用来生成不同组合的一系列处理流水单元。
媒体评论
第一部分介绍现代自然语言处理的核心概念和理论基础,展示了如何理解单词和文件结构、分析语法、建模语言、识别蕴含和检测冗余。第二部分彻底阐述与构建真实应用有关的实际考量,包括信息抽取、机器翻译、信息检索、文摘、问答、提炼、处理流水线等。
书摘
Multilingual Natural Language Processing Applications:From Theory to Practice
理论
第1章“找出词的结构”,描述如何识别人类语言中不同类型的词,如何建立词的内部结构、语法性质、词法概念的模型。
第2章“找出文档的结构”,讨论如何找出文档结构,并将其分解为更容易处理的单位,例如句子或表示同一话题的文本段。
第3章“句法”,描述如何找出句子的结构。
1~2
第4章“语义分析”,探索找出句子意义表示的自动方法。
第5章“语言模型”,讨论如何建立一个模型,该模型可对每个可能的有限长度的词串赋以一个概率估算或分数。
第6章“文本蕴涵识别”,讨论确定一段文本中的指定事实是否为另一段文本中的事实所蕴涵的方法。
第7章“多语情感与主观性分析”,探索确定句子是否是主观的并确定所表达的意见的倾向性和其他性质的方法。
第1章
Multilingual Natural Language Processing Applications:From Theory to Practice
找出词的结构
Otakar Smr, HyunJo You
人类语言很复杂。我们用语言来表示思想,获取信息,推断出意义。语言表达并非没有组织。其结构多样,复杂程度千差万别,复杂结构由基本部件组成,在一定的上下文中通过共现来表示比其孤立使用时更精细的意义及其意义间的关系。
整体上理解语言不可行。语言学家从不同的角度、不同的细节层次来考察语言,比如形态学研究词的可变形式和功能,而句法则研究词如何排列构成短语、子句和句子。由于发音而导致的词结构限制由语音学描述,而书写的规则则构成了语言的正字法。语言表达式的意义属于语义学的内容,词源学和词汇学则研究词的演变并解释词之间的语义、形态和其他联系。
词可能是语言最直观的单位,但实际上定义什么是词颇为棘手。词的研究是句法、语义抽象及其他与语言相关的高级话题的前提。形态学是语言处理的必要部分,尤其在多语的环境下变得越来越重要。
本章将探索如何识别人类语言中不同类型的词,如何建立词的内部结构、语法性质、词法概念的模型。词结构的发现称为形态分析(morphological parsing)。
这个任务有多困难?决定因素有很多。