基本信息

内容简介
计算机书籍
---------------------------自然语言处理的认知方法---------------------------
自然语言处理跨越了许多不同的学科,有时很难理解它们各自带来的贡献和挑战。本书探讨了自然语言处理与认知科学之间的关系,每章都由相关领域的专家撰写,内容涵盖语言理解、语言生成、词联想、词义消除歧义、词可预测性、文本生成和作者身份识别。本书适合对自然语言处理及其跨学科特性感兴趣的学生和研究人员。
---------------------------TensorFlow自然语言处理---------------------------
本书首先介绍NLP和TensorFlow基础知识,然后介绍如何使用Word2vec(包括高级扩展)创建单词嵌入,将单词序列转换为可由深度学习算法访问的向量。关于经典深度学习算法的章节,如卷积神经网络(CNN)和递归神经网络(RNN),展示了句子分类和语言生成等重要的NLP任务。此外还介绍如何将高性能的RNN模型,如长短期记忆(long short memory, LSTM)单元应用于NLP任务,你还将探索神经机器翻译并实现一个神经机器翻译器。
作译者
---------------------------自然语言处理的认知方法---------------------------
作者简介---
伯纳黛特•夏普(Bernadette Sharp) 英国斯塔福德郡大学应用人工智能系教授。她的研究兴趣包括人工智能、自然语言处理和文本挖掘。自从2004年以来,她一直担任NLPCS的主席和审稿人。
弗洛伦斯•赛德斯(Florence Sèdes) 法国图卢兹第三大学计算机科学系教授。她的研究领域包括信息系统、数据管理以及多媒体、元数据等方面的应用。
维斯拉夫•卢巴泽斯基(Wiesław Lubaszewski) 波兰雅盖沃大学计算语言学系教授,克拉科夫AGH科技大学计算机科学系教授。他的研究兴趣包括自然语言词典、文本理解、知识表示和信息抽取等。
译者简介---
徐金安 北京交通大学计算机学院教授、博士生导师,研究方向为机器翻译、自然语言处理、人机交互和文本情感分析等。博士毕业于北海道大学,曾任日本电气株式会社中央研究院研究员。
---------------------------TensorFlow自然语言处理---------------------------
[澳] 图珊·加内格达拉(Thushan Ganegedara)著:图珊·加内格达拉(Thushan Ganegedara)目前是澳大利亚悉尼大学第三年的博士生。他专注于机器学习,喜欢深度学习。他喜欢危险,在未经测试的数据上运行算法。他还是澳大利亚初创公司AssessThreat的首席数据科学家。他在斯里兰卡莫拉图瓦大学获得了理学士学位。他经常撰写有关机器学习的技术文章和教程。此外,他还在日常生活中游泳来努力营造健康的生活方式。
目录
---------------------------自然语言处理的认知方法---------------------------
译者序
前言
作者名单
第1章 延迟解释、浅层处理和构式:“尽可能解释”原则的基础 1
1.1 引言 1
1.2 延迟处理 2
1.3 工作记忆 5
1.4 如何识别语块:分词操作 7
1.5 延迟架构 10
1.5.1 分段和存储 11
1.5.2 内聚聚集 12
1.6 结论 15
1.7 参考文献 16
第2章 人类关联规范能否评估机器制造的关联列表 19
前言
---------------------------自然语言处理的认知方法---------------------------
本书是一本论文专辑,致力于探索自然语言处理和认知科学之间的关系,以及计算机科学对于这两个领域的贡献。根据Poibeau和Vasishth[POI 16]所述,对认知问题的研究兴趣可能较少受到关注。因为在认知科学领域,研究者往往无力应对自然语言处理技术的复杂性;同样,自然语言处理的研究者也没有认识到认知科学对于他们工作的贡献。我们相信,2004年启动的自然语言处理和认知科学国际研讨会(NLPCS)提供了一个强大的平台,支持新的研究课题的多样性,并且能帮助研究者建立共识。与此同时,这个平台还认可跨学科方法的重要性,并将计算机科学家、认知学和语言学的研究者聚集到一起来推动自然语言处理研究。
本书包含10章,都是由自然语言处理和认知科学国际研讨会的研究者完成的。
在第1章,Philippe Blache阐述了理解语言的过程在理论上是非常复杂的,该过程必须实时进行,且需要许多不同来源的信息。他认为对于一个语言输入的整体解释应该建立在基于块的基本单元的分组之上,而这些单元构成了“尽可能解释”原则的支柱,该原则负责推迟理解过程,直到有足够的信息可用。
接下来的两章讨论人类关联问题。在第2章,Korzycki、Gatkowska和Lubaszewski讨论了一个有900个学生参与的自由词关联测试。他们利用三个算法从文本中提取出关联列表,然后将提取的关联列表与人类关联列表做对比。这三个算法分别是Church-Hanks算法、潜在语义分析(LSA)和潜在狄利克雷分配(LDA)。
在第3章,Lubaszewski、Gatkowska和Godny描述了一个过程,用于在实验中建立的人类关联网络中的单词关联。他们认为每个关联都是基于两个释义之间的语义关系,而这种释义之间的关联有自己的方向,并且独立于其他关联的方向。此过程使用图结构来生成语义一致的子图。
在第4章,Rapp探索了人类语言生成是否是由关联控制的,以及话语的下一个实词是否可被视为该实词表示的一种关联,而这种关联已经在说话人的记忆中被激活。他还介绍了反向关联任务的概念,讨论了激励词是否可以通过响应词来预测。他根据反向关联任务搜集了人类数据,并将其与机器生成的结果进行了比较。
在第5章中,Vincent-Lamarre和他的同事研究了在字典中定义所有其余单词所需的单词及其数量。为此,他们在词典组件Wordsmyth上使用了图论分析。其研究结果对于理解符号基础,以及词义的学习和心理表征具有重要意义。他们得出的结论是,语言使用者只有掌握用于理解词的定义的词汇表中的单词,才能够从语言(口头)定义中学习和理解单词的含义。
第6章侧重于词义消歧。Tripodi和Pelillo根据进化博弈论方法来研究词义消歧。要消除歧义的每个单词都表示为玩家,每个意义都表示为策略。该算法已经在具有不同数量标记词的四个数据集上进行了测试。它利用关系和上下文信息来推断目标词的含义。实验结果表明,该方法的性能优于传统方法,并且只需要少量标记点就能胜过有监督系统。
在第7章中,Zock和Tesfaye专注于以四个任务表达的文本生成的挑战性任务:构思、文本结构、表达和修订。他们专注于文本结构,涉及消息的分组(分块)、排序和链接。其目的是研究文本生成的哪些部分可以自动化,以及计算机是否可以基于用户提供的一组输入构建一个或多个主题树。
著述属性是第8章研究的重点。Boukhaled和Ganascia分析了使用虚词的序贯规则和词性(POS)标签作为文本标记的有效性。该有效性不依赖于词袋假设或原始频率。他们的研究表明,虚词和词性n元组(n-gram)的频率优于序贯规则。
第9章讨论了基频检测(F0),它在人类语音感知中起着重要作用。Glavitsch探索了使用人类认知原理进行的F0估计是否能够表现得与最新的F0检测算法一样好或更好。他所提出的运行在时域的算法错误率较小,并且在使用有限的存储和计算资源的情况下,其表现超过了传统的最高水平的基于关联的RAPT方法。在神经认知心理学中,手动收集的完形填充概率(CCP)用于量化眼球运动控制模型中句内上下文单词的可预测性。由于CCP数据都是基于上百个参与者的采样,在所有新的激励上泛化该模型是很难的。
在第10章中,Hofmann、Biemann和Remus提出应用语言模型,这些模型可以通过在线数据库中公开可用数据集的item级别的性能进行基准测试。先前在脑电图(EEG)和眼球运动(EM)数据中从句内上下文中预测单词的神经认知方法依赖于CCP数据。他们的研究表明,当直接计算CCP、EEG和EM数据时,n元语言模型和递归神经网络(RNN)的句法和短程语义过程差不多同样好。这可以帮助将神经认知模型推广到所有可能的新颖单词组合。
参考文献
媒体评论
---------------------------自然语言处理的认知方法---------------------------
本书致力于探索自然语言处理和认知科学之间的关系,以及计算机科学对这两个领域的贡献。书中内容来源于自然语言处理和认知科学国际研讨会(NLPCS)的新论文,该研讨会发起于2004年,支持研究课题的多样性和跨学科性,为自然语言研究者、计算机科学家、认知科学家和语言学家构建了交流与合作的平台。
本书共10章,内容涵盖自然语言理解、自然语言生成、单词关联、词义消歧、单词预测、文本生成和著述属性等领域,从多个视角阐述了自然语言的产生、识别、加工和理解过程,不仅包含大量算法和研究成果,而且分享了前沿学者的宝贵经验。
作者简介
伯纳黛特·夏普(Bernadette Sharp)英国斯塔福德郡大学应用人工智能系教授。她的研究兴趣包括人工智能、自然语言处理和文本挖掘。自从2004年以来,她一直担任NLPCS的主席和审稿人。
弗洛伦斯·赛德斯(Florence Sèdes)法国图卢兹第三大学计算机科学系教授。她的研究领域包括信息系统、数据管理以及多媒体、元数据等方面的应用。
维斯拉夫·卢巴泽斯基(Wies?aw Lubaszewski)波兰雅盖沃大学计算语言学系教授,克拉科夫AGH科技大学计算机科学系教授。他的研究兴趣包括自然语言词典、文本理解、知识表示和信息抽取等。
译者简介
徐金安北京交通大学计算机学院教授、博士生导师,研究方向为机器翻译、自然语言处理、人机交互和文本情感分析等。博士毕业于北海道大学,曾任日本电气株式会社中央研究院研究员。
---------------------------TensorFlow自然语言处理---------------------------
深度学习应用所使用的大部分数据是由自然语言处理(NLP)提供的,而TensorFlow是目前比较重要的深度学习框架。面对当今巨量数据流中众多的非结构化数据,本书详细讲解如何将TensorFlow与NLP二者结合以提供有效的工具,以及如何将这些工具应用于具体的NLP任务。