文本挖掘:基于R语言的整洁工具[图书]
基本信息
- 原书名:Text Mining with R: A Tidy Approach
- 作者: (美)茱莉亚·斯拉格(Julia Silge) (美)戴维·罗宾逊(David Robinson)
- 译者: 刘波 罗棻 唐亮贵
- 丛书名: O'Reilly精品图书系列
- 出版社:机械工业出版社
- ISBN:9787111588559
- 上架时间:2018-3-23
- 出版日期:2018 年3月
- 开本:16开
- 版次:1-1
- 所属分类:计算机 > 软件与程序设计 > 综合 > 高级程序语言设计

内容简介
计算机书籍
O'Reilly Media通过图书、杂志、在线服务、调查研究和会议等方式传播创新知识。自1978年开始,O'Reilly一直都是前沿发展的见证者和推动者。超级极客们正在开创着未来,而我们关注真正重要的技术趋势—通过放大那些“细微的信号”来刺激社会对新科技的应用。作为技术社区中活跃的参与者,O'Reilly的发展充满了对创新的倡导、创造和发扬光大。
O'Reilly为软件开发人员带来革命性的“动物书”;创建第一个商业网站(GNN);组织了影响深远的开放源代码峰会,以至于开源软件运动以此命名;创立了Make杂志,从而成为DIY革命的主要先锋;公司一如既往地通过多种形式缔结信息与人的纽带。O'Reilly的会议和峰会集聚了众多超级极客和高瞻远瞩的商业领袖,共同描绘出开创新产业的革命性思想。作为技术人士获取信息的选择,O'Reilly现在还将先锋专家的知识传递给普通的计算机用户。无论是通过书籍出版,在线服务或者面授课程,每一项O'Reilly的产品都反映了公司不可动摇的理念—信息是激发创新的力量。
作译者
目录
第1章 整洁文本格式 7
比较整洁文本结构与其他数据结构 8
unnest_tokens函数 8
整理Jane Austen的作品 10
gutenbergr包 13
词频 13
总结 17
第2章 基于整洁数据的情感分析 18
情感数据集 18
内连接的情感分析 21
比较三个情感词典 24
最常见的正面单词和负面单词 26
Wordclouds模块 28
除单词外的其他文本单元 30
总结 32
第3章 分析词和文件频率:tf-idf 33
Jane Austen小说中的词项频率 34
Zipf定律 35
bind_tf_idf函数 38
译者序
全书共9章,主要介绍如何使用基于R的整洁工具来进行文本分析。首先介绍了整洁文本的格式,以及如何获取整洁文本数据集;并通过tidytext中的情感数据集来进行情绪分析;接着介绍了如何根据tf-idf统计量来识别特定文档中的重要单词,以及如何利用n-gram来分析文本中的文字网络;之后介绍了如何将整洁文本转换为文档词项矩阵和Corpus对象格式,并给出了主题建模的概念;最后通过整合多种已知的整洁文本挖掘方法,给出了一些研究案例,这些案例涉及Twitter归档文件、NASA数据集以及来自新闻组的即时通信信息。总的来说,本书侧重于分析文学、新闻和社交媒体方面的文本,非常适合从事相关文本挖掘的工作人员和自然语言的初学者阅读。与此同时,使用书中提供的大量针对性编程例子,不但可以提高工程实战能力,而且可以在本书提到的整洁框架上建立自己的分析任务。
翻译本书的过程也是译者不断学习的过程。为了保证专业词汇翻译的准确性,我们在翻译过程中查阅了大量相关资料。但由于时间和能力有限,书中内容难免出现差错。如果你在阅读中发现了问题,欢迎通过电子邮件liubo7971@163.com或luofcn@163.com与我们联系,期待与你一起探讨,共同进步。
译者
2017年11月
前言
尽管我们熟悉许多数据处理和可视化方法,但是将这些方法应用于文本处理并非易事,所以开发了tidytext R包(Silge和Robinson,2016)。我们发现采用数据整洁原则可以使许多文本挖掘任务变得更简单、更有效,并且该原则和广泛使用的工具也是相一致的。把文本当作由单个单词构成的数据框的优势在于:(1)有助于轻松地操作、汇总以及展示文本特征;(2)有助于将自然语言处理整合到有效的工作流程中。
本书介绍了如何使用tidytext包以及其他基于R语言的tidy工具来进行文本挖掘。tidytext包提供的函数相对简单,但如何使用这个包则很重要。因此,本书还提供了真实的、极具吸引力的文本挖掘案例。
大纲
本书首先介绍整洁文本格式,一些有关dplyr、tidyr和tidytext包的使用方法则按如下过程来介绍:
第1章概述了整洁文本格式和unnest_tokens()函数,同时介绍了gutenbergr和janeaustenr包,这些包提供了与文学相关的文本数据集,本书会使用这些数据集来进行介绍。
第2章介绍了如何使用tidytext中的sentiments数据集以及dplyr包中的inner_join()函数来对整洁文本数据集进行情感分析。
第3章介绍了tf-idf统计量(词项频率乘以逆文档频率),它可用来识别特定文档中特别重要的词项。
第4章介绍了n-gram以及如何使用widyr包和ggraph包来分析文本中的文字网络。
文本在分析的所有阶段并不是整洁的,能够在整洁和不整洁格式之间进行转换就显得非常重要。
第5章介绍了通过tm包和quanteda包来使文档–词项矩阵和Corpus对象变整洁的方法,以及如何将整洁文本数据集转换为文档–词项矩阵和Corpus对象格式。
第6章介绍了主题建模的概念,并使用tidy()方法对topicmodels包的输出进行解释和可视化。
通过整合多种已知的整洁文本挖掘方法,还给出了几个研究案例:
第7章通过作者自己的Twitter档案展示了整洁文本分析的应用。例如,Dave和Julia的Twitter习惯有什么不同?
第8章通过查看超过32 000个NASA数据集(可用于JSON格式)中的关键字与标题、描述字段的关系来探索元数据。
第9章分析不同新闻组(与政治、曲棍球、技术、无神论等有关的主题)的即时通信消息数据集来了解新闻组中共同的模式。
本书不包括的主题
本书对整洁文本挖掘框架进行了介绍,并给出了一系列的示例,但对于全面研究自然语言处理领域而言,这些依然不够。CRAN Task View on Natural Language Processing(https://cran.rproject.org/view=NaturalLanguageProcessing)提供了其他使用R进行计算语言学研究的详细信息。根据个人需求,你可能还想在以下方面进一步研究:
聚类、分类和预测
文本机器学习是一个广泛的话题,可以轻松地找到很多与之相关的内容。第6章将介绍一种无监督聚类(主题建模)方法,但是还有更多其他的机器学习方法可以用来处理文本。
媒体评论
O'Reilly为软件开发人员带来革命性的“动物书”;创建第一个商业网站(GNN);组织了影响深远的开放源代码峰会,以至于开源软件运动以此命名;创立了Make杂志,从而成为DIY革命的主要先锋;公司一如既往地通过多种形式缔结信息与人的纽带。O'Reilly的会议和峰会集聚了众多超级极客和高瞻远瞩的商业领袖,共同描绘出开创新产业的革命性思想。作为技术人士获取信息的选择,O'Reilly现在还将先锋专家的知识传递给普通的计算机用户。无论是通过书籍出版,在线服务或者面授课程,每一项O'Reilly的产品都反映了公司不可动摇的理念—信息是激发创新的力量。
业界评论
“O'Reilly Radar博客有口皆碑。”
—Wired
“O'Reilly凭借一系列(真希望当初我也想到了)非凡想法建立了数百万美元的业务。”
—Business 2.0
“O'Reilly Conference是聚集关键思想领袖的绝对典范。”
—CRN
“一本O'Reilly的书就代表一个有用、有前途、需要学习的主题。”
—Irish Times
“Tim是位特立独行的商人,他不光放眼于最长远、最广阔的视野并且切实地按照Yogi Berra的建议去做了:‘如果你在路上遇到岔路口,走小路(岔路)。’回顾过去Tim似乎每一次都选择了小路,而且有几次都是一闪即逝的机会,尽管大路也不错。”
—Linux Journal