基本信息

内容简介
作译者
伯纳黛特•夏普(Bernadette Sharp) 英国斯塔福德郡大学应用人工智能系教授。她的研究兴趣包括人工智能、自然语言处理和文本挖掘。自从2004年以来,她一直担任NLPCS的主席和审稿人。
弗洛伦斯•赛德斯(Florence Sèdes) 法国图卢兹第三大学计算机科学系教授。她的研究领域包括信息系统、数据管理以及多媒体、元数据等方面的应用。
维斯拉夫•卢巴泽斯基(Wiesław Lubaszewski) 波兰雅盖沃大学计算语言学系教授,克拉科夫AGH科技大学计算机科学系教授。他的研究兴趣包括自然语言词典、文本理解、知识表示和信息抽取等。
译者简介---
徐金安 北京交通大学计算机学院教授、博士生导师,研究方向为机器翻译、自然语言处理、人机交互和文本情感分析等。博士毕业于北海道大学,曾任日本电气株式会社中央研究院研究员。
目录
前言
作者名单
第1章 延迟解释、浅层处理和构式:“尽可能解释”原则的基础 1
1.1 引言 1
1.2 延迟处理 2
1.3 工作记忆 5
1.4 如何识别语块:分词操作 7
1.5 延迟架构 10
1.5.1 分段和存储 11
1.5.2 内聚聚集 12
1.6 结论 15
1.7 参考文献 16
第2章 人类关联规范能否评估机器制造的关联列表 19
2.1 引言 19
2.2 人类语义关联 20
2.2.1 单词关联测试 20
2.2.2 作者的实验 21
2.2.3 人类关联拓扑 22
2.2.4 人类关联具有可比性 24
前言
本书包含10章,都是由自然语言处理和认知科学国际研讨会的研究者完成的。
在第1章,Philippe Blache阐述了理解语言的过程在理论上是非常复杂的,该过程必须实时进行,且需要许多不同来源的信息。他认为对于一个语言输入的整体解释应该建立在基于块的基本单元的分组之上,而这些单元构成了“尽可能解释”原则的支柱,该原则负责推迟理解过程,直到有足够的信息可用。
接下来的两章讨论人类关联问题。在第2章,Korzycki、Gatkowska和Lubaszewski讨论了一个有900个学生参与的自由词关联测试。他们利用三个算法从文本中提取出关联列表,然后将提取的关联列表与人类关联列表做对比。这三个算法分别是Church-Hanks算法、潜在语义分析(LSA)和潜在狄利克雷分配(LDA)。
在第3章,Lubaszewski、Gatkowska和Godny描述了一个过程,用于在实验中建立的人类关联网络中的单词关联。他们认为每个关联都是基于两个释义之间的语义关系,而这种释义之间的关联有自己的方向,并且独立于其他关联的方向。此过程使用图结构来生成语义一致的子图。
在第4章,Rapp探索了人类语言生成是否是由关联控制的,以及话语的下一个实词是否可被视为该实词表示的一种关联,而这种关联已经在说话人的记忆中被激活。他还介绍了反向关联任务的概念,讨论了激励词是否可以通过响应词来预测。他根据反向关联任务搜集了人类数据,并将其与机器生成的结果进行了比较。
在第5章中,Vincent-Lamarre和他的同事研究了在字典中定义所有其余单词所需的单词及其数量。为此,他们在词典组件Wordsmyth上使用了图论分析。其研究结果对于理解符号基础,以及词义的学习和心理表征具有重要意义。他们得出的结论是,语言使用者只有掌握用于理解词的定义的词汇表中的单词,才能够从语言(口头)定义中学习和理解单词的含义。
第6章侧重于词义消歧。Tripodi和Pelillo根据进化博弈论方法来研究词义消歧。要消除歧义的每个单词都表示为玩家,每个意义都表示为策略。该算法已经在具有不同数量标记词的四个数据集上进行了测试。它利用关系和上下文信息来推断目标词的含义。实验结果表明,该方法的性能优于传统方法,并且只需要少量标记点就能胜过有监督系统。
在第7章中,Zock和Tesfaye专注于以四个任务表达的文本生成的挑战性任务:构思、文本结构、表达和修订。他们专注于文本结构,涉及消息的分组(分块)、排序和链接。其目的是研究文本生成的哪些部分可以自动化,以及计算机是否可以基于用户提供的一组输入构建一个或多个主题树。
著述属性是第8章研究的重点。Boukhaled和Ganascia分析了使用虚词的序贯规则和词性(POS)标签作为文本标记的有效性。该有效性不依赖于词袋假设或原始频率。他们的研究表明,虚词和词性n元组(n-gram)的频率优于序贯规则。
第9章讨论了基频检测(F0),它在人类语音感知中起着重要作用。Glavitsch探索了使用人类认知原理进行的F0估计是否能够表现得与最新的F0检测算法一样好或更好。他所提出的运行在时域的算法错误率较小,并且在使用有限的存储和计算资源的情况下,其表现超过了传统的最高水平的基于关联的RAPT方法。在神经认知心理学中,手动收集的完形填充概率(CCP)用于量化眼球运动控制模型中句内上下文单词的可预测性。由于CCP数据都是基于上百个参与者的采样,在所有新的激励上泛化该模型是很难的。
在第10章中,Hofmann、Biemann和Remus提出应用语言模型,这些模型可以通过在线数据库中公开可用数据集的item级别的性能进行基准测试。先前在脑电图(EEG)和眼球运动(EM)数据中从句内上下文中预测单词的神经认知方法依赖于CCP数据。他们的研究表明,当直接计算CCP、EEG和EM数据时,n元语言模型和递归神经网络(RNN)的句法和短程语义过程差不多同样好。这可以帮助将神经认知模型推广到所有可能的新颖单词组合。
参考文献
媒体评论
本书共10章,内容涵盖自然语言理解、自然语言生成、单词关联、词义消歧、单词预测、文本生成和著述属性等领域,从多个视角阐述了自然语言的产生、识别、加工和理解过程,不仅包含大量算法和研究成果,而且分享了前沿学者的宝贵经验。
作者简介
伯纳黛特·夏普(Bernadette Sharp)英国斯塔福德郡大学应用人工智能系教授。她的研究兴趣包括人工智能、自然语言处理和文本挖掘。自从2004年以来,她一直担任NLPCS的主席和审稿人。
弗洛伦斯·赛德斯(Florence Sèdes)法国图卢兹第三大学计算机科学系教授。她的研究领域包括信息系统、数据管理以及多媒体、元数据等方面的应用。
维斯拉夫·卢巴泽斯基(Wies?aw Lubaszewski)波兰雅盖沃大学计算语言学系教授,克拉科夫AGH科技大学计算机科学系教授。他的研究兴趣包括自然语言词典、文本理解、知识表示和信息抽取等。
译者简介
徐金安北京交通大学计算机学院教授、博士生导师,研究方向为机器翻译、自然语言处理、人机交互和文本情感分析等。博士毕业于北海道大学,曾任日本电气株式会社中央研究院研究员。