基本信息

编辑推荐
两位作者是资深的NLP技术专家和聊天机器人技术专家,在阿里、腾讯等企业有多年实战经验
详细讲解NLP和人机交互的核心技术,从技术、算法、实战3个维度讲解聊天机器人的原理、实现与工程实践
内容简介
计算机书籍
内容简介
这是一部讲解如何基于NLP技术和人机交互技术实现聊天机器人的著作。
两位作者聊天机器人领域均有多年大型项目的实战经验,这本书不仅讲解了NLP和人机交互的核心技术,而且从技术、算法、实战3个维度讲解聊天机器人的原理、实现与工程实践。
本书有3个特点:
前瞻性强,专注于NLP和人机交互的前沿技术,以及会话式AI技术在热门场景中的工程实践。
实战性强,每章都提供实战代码,大部分代码简单修改后便可在实际场景中使用;数据集并非简单构造,而是具有真实性。
对比性强,结合应用场景,对比不同技术的优劣,既能指导读者进行技术选型,又能加深读者对不同技术的理解。
本书一共12章,分为三大部分:
第一部分 基础篇(第1-2章)
首先系统介绍了人机交互技术和聊天机器人技术的必备基础,然后讲解了深度学习工具的使用以及NLP开发环境的搭建
第二部分 算法篇(第3-8章)
这部分是核心内容,主要讲解中文自然语言处理的各种算法,包括分词技术、数据预处理、词向量技术、序列标注与中文 NER、文本深度学习、循环神经网络等。
第三部分 实战篇(第9-12章)
主要讲解了语言模型与对话生成、知识图谱问答、自然语言推理、实体语义理解这4种人机交互方面的高阶技术,涵盖信息抽取、槽位填充、语义理解、聊天机器人、问答系统、多轮对话技术等知识点。
作译者
杜振东
国家标准委人工智能技术专家和AIIA(中国人工智能产业发展联盟)技术专家。拥有8年机器学习与文本挖掘相关技术经验,6年中文自然语言处理相关项目实战经验,擅长PyTorch、TensorFlow等主流深度学习框架,擅长运用NLP前沿技术解决真实项目的难题。
在意图识别、新闻推荐、多轮人机交互领域有数年实战经验。参与百万级用户金融资讯新闻推荐项目,作为算法主要负责人及整体框架设计者,主导全新智能新闻推荐系统的落地,并优化线上推荐算法,相较原有系统精度提高10%。
曾在AIIA和国家人工智能标准化总体组参与了多个人工智能标准的制定和人工智能报告的撰写。
涂铭
资深数据架构师和人工智能技术专家,曾就职于阿里,现就职于腾讯。对大数据、自然语言处理、图像识别、Python、Java等相关技术有深入的研究,积累了丰富的实践经验。
在工业领域曾参与了燃煤优化、设备故障诊断以及正泰光伏电池片和组件EL图像检测项目;在自然语言处理方面,曾担任导购机器人项目的架构师,主导开发机器人的语义理解、短文本相似度匹配、上下文理解,以及通过自然语言检索产品库,在项目中构建了NoSQL+文本检索等大数据架构,也同时负责问答对的整理和商品属性的提取,带领NLP团队构建了语义解析层。
合著有畅销书《Python自然语言处理实战:核心技术与算法》和《深度学习与图像识别:原理与实践》。
目录
第1章 人机交互导论 1
1.1 图灵测试 1
1.1.1 图灵测试相关背景 1
1.1.2 图灵测试的定义 2
1.1.3 图灵测试引发的思考 3
1.2 专家系统 3
1.2.1 专家系统的定义 3
1.2.2 专家系统的框架 4
1.2.3 专家系统的发展 6
1.3 人机交互 6
1.3.1 人机交互简介 6
1.3.2 人机交互模块的发展 7
1.3.3 自然语言理解 9
1.3.4 对话管理 10
1.3.5 自然语言生成 10
1.4 机器人形态 11
1.4.1 聊天机器人 12
1.4.2 任务型机器人 13
1.4.3 面向FAQ的问答机器人 13
前言
比尔·盖茨曾经说过,语言理解是人工智能皇冠上的明珠。这一方面体现了语言理解在人工智能众多领域中的重要程度,另一方面也反映了语言理解本身的难度。近年来,伴随着机器学习,特别是深度学习相关技术的重大突破,以及硬件设备尤其是图形处理器(GPU)的计算加速,人工智能的各方面都有迅猛发展,在包括图像视觉与语音识别在内的感知层面也有众多突破。然而正如盖茨所言,如今语言理解相关技术的发展有限,很多技术距离真正的“人工智能”还存在较大差距。
我们正处在语言理解技术突破的跃阶时代,各种算法百家争鸣、百花齐放,皆在语言理解领域发挥着作用。总的来说,写书的第一个缘由便是出于对语言理解相关技术的热爱。本书介绍的各种技术,无论是中文分词技术、文本分类技术还是语言模型技术,都是语言理解划时代的产物,在很长一段时间内影响着相关领域的整体技术发展,在自然语言处理领域留下浓墨重彩的一笔。
伴随着博客、网络开放课程和短视频教育的发展,我们学习各种技术的途径也更加多样化。那么,时至今日,为什么还要通过读书来学习知识呢?这就是我们写下此书的第二个缘由。
我充分肯定MOOC及新媒体带来的便利,但是,尺有所短,寸有所长,许多人在网上热情饱满地学习,可两天后学到的知识大多烟消云散。书本强调知识的系统性和完整性,是网络学习无法替代的。
技术书可以弥补新媒体教育的短板,翻阅书籍更便于相关知识的查漏补缺。正规技术书在内容严谨方面做得相对较好,对内容的正确性与严谨性要求极高,更适合相关从业人员学习和日常检索。学习的路径并不是非此即彼,只有利用一切方式,多渠道学习,才能真正实现全方面高效学习,紧密抓住相关技术的关键。
面对琳琅满目的技术书,本书存在的价值是什么呢?作为一名自然语言处理从业人员,我也读过许多技术书,从中学习到许多知识,产生了很多心得,所以在写本书时重点考虑融入自身见解心得。阅读别人的技术理解也是一种学习方式,写作此书的第三个原因便是希望与各位分享我们对相关技术的见解及一些落地经验,可能存在一定局限性,也希望与读者多多交流,共同进步。
技术的变化是飞速的,在撰写本书初期,还没有出现Bert这样强大的技术,随后我们修改了相关章节,便是希望本书介绍NLP相关技术时更具前沿性。技术会持续更新换代,书中提到的很多技术也许在不远的未来便被更为强大的技术所取代,但这并不影响我们学习这一系列的技术,因为学习这些技术本身会引发更深层次的思考,可以让我们理解机器是如何一步步实现自然语言处理的。最终什么样的技术能摘得语言理解这颗明珠其实并不重要,这一路上的风景也许比明珠本身更加绚丽多彩。那么也请各位同我们一起领略这一路上的风景吧!
读者对象
这里根据阅读需求划分了不同类型的读者,各位读者可以针对自身特点,选择相关重点来阅读本书:
NLP相关领域的师生;
工作中应用NLP领域技术的人;
打算转型NLP的人。
本书特色
本书首先强调实战性,从第3章开始,每章都有相关技术的实战代码,数据集也来源于真实项目,大部分代码都可以在简单修改后用于实际落地项目。其次,本书强调对比性,许多刚接触NLP的朋友很容易迷恋某一项技术,特别是在Bert全面突破的现在。然而基于我多年的从业经验,技术都是为场景服务的,针对不同场景,对比不同技术的优劣,选择合适的技术,更能体现从业人员水平。因此,为了突破自身技术的舒适区,研究不同算法间的差异,具备针对场景选择算法的能力,更为重要。我们把自己对于相关技术的见解都写了下来,希望给读者提供另一种视角来看待技术本身。同时工作中总结的很多经验也被提炼成若干提示,希望能给读者阅读和实践提供一些帮助。
如何阅读本书
本书从逻辑上看分为三大部分。
第一部分(第1~2章)介绍语言理解的基础概念与环境搭建。其中,第1章介绍人机交互的演变历史及技术变革。第2章介绍前置技术,重点涵盖PyTorch、TorchText、Jieba等自然语言处理学习库的使用方法。
第二部分(第3~8章)介绍自然语言处理和人机交互相关的核心技术。本书强调理论与实战并行,在介绍相关核心技术的同时,每章针对相应核心算法展开实战,在真实中文数据集下验证算法性能,让读者从更深层面了解相关算法。第3章主要介绍中文分词技术,包含分词概念、分类体系、常见分词算法,并针对HMM算法进行实战。第4章主要介绍数据预处理相关内容,重点关注TorchText针对数据预处理与构建数据集的使用。词向量(第5章)、序列标注(第6章)、文本分类(第7章)、文本生成(第8章)作为4种核心技术将分别单独介绍。
第三部分(第9~12章)通过讲解人机交互中4个不同类型的高阶技术,帮助读者了解人机交互中的深层技术。其中包括对话生成(第9章)、知识图谱问答(第10章)、自然语言推理(第11章)和实体语义理解(第12章)。
媒体评论
—— 胡雪蕾 昆士兰大学研究员/机器学习和数据科学资深学者
本书是作者多年NLP经验(尤其是问答对话领域)总结,对会话式AI的理论、算法和工程落地等进行了系统化的讲解,是一本恰逢其时、不可多得的好书。不仅涵盖前沿算法,也有大量生动的实战案例,相信从事该领域工作的工程师和刚入门的新人都能从中受益。
—— 王昊奋 同济大学特聘研究员
本书系统、详细地讲解了聊天机器人中应用的自然语言技术,特别是中文场景中的自然语言技术。从基础到理论,从算法到实践,覆盖面广、内容详实、层层递进,通过本书,读者可以了解NLP和聊天机器人领域常用的技术以及常见的问题和处理技巧。
—— 潘鹏举 平安银行AI团队负责人
本书由人机交互和NLP领域的一线技术专家撰写,以基础解读和代码剖析相结合为特色,是一本不可多得的实战型工具书。
—— 夏睿 南京理工大学计算机科学与工程学院教授
如何让机器理解人类的语言并与人交互一直是个难点,本书对基于NLP的人机交互系统的作用、架构和原理进行了深入剖析,并有大量实践,有很好的借鉴意义,值得推荐。
—— 郑博 中国电信高级专家
在51CTO学院的培训项目中,NLP和人机交互一直是企业级用户和个人学员学习的热点。本书的特色是书中的技术和经验都是作者在实践中的总结,它将更好地去指导读者进行实践。
—— 杨文飞 51CTO副总裁/企业培训事业部总经理