基本信息
- 原书名:Text Analytics with Python: A Practical Real-World Approach to Gaining Actionable Insights from Your Data
- 作者: (印)迪潘简·撒卡尔(Dipanjan Sarkar)
- 译者: 闫龙川 高德荃 李君婷
- 丛书名: 数据科学与工程技术丛书
- 出版社:机械工业出版社
- ISBN:9787111593249
- 上架时间:2018-4-23
- 出版日期:2018 年4月
- 开本:16开
- 版次:1-1
- 所属分类:计算机 > 软件与程序设计 > Python

编辑推荐
包含丰富的真实案例实现技术,例如,构建分类新闻文章的文本分类系统,使用主题建模和文本摘要分析app或游戏评论,进行热门电影概要的聚类分析和电影评论的情感分析。
介绍基于Python及一些流行NLP和文本分析开源库(如自然语言工具包(nltk)、gensim、scikit-learn、spaCy和Pattern)的实现。
内容简介
作译者
目录
前言
第1章自然语言基础
11自然语言
111什么是自然语言
112语言哲学
113语言习得和用法
12语言学
13语言句法和结构
131词
132短语
133从句
134语法
135语序类型学
14语言语义
141词汇语义关系
142语义网络和模型
143语义表示
15文本语料库
151文本语料库标注及使用
译者序
本书作者Sarkar是Intel公司的数据科学家,研究领域涉及数据科学与软件工程,有着丰富的文本分析研究和工程方面的经验,出版过多本R语言和机器学习方面的书籍。作者在GitHub上(https://github.com/dipanjanS/textanalyticswithpython)开源了本书相关的程序代码和数据集,感兴趣的读者可以下载研究。
本书首先介绍了与文本分析相关的自然语言基本概念以及Python语言的特点、特性和常用功能。然后,结合示例代码详细阐述了文本理解与处理、文本分类、文本摘要、文本相似性与聚类、语义与情感分析等内容,具有很强的实用性,内容覆盖了文本分析的重要方面,为相关应用的开发和研究提供了很好的参考借鉴。
本书是关于自然语言处理的实践教程,通过学习本书,读者可以全面地掌握文本分析的基础技术和机器学习的一些经典方法,包括SVM、贝叶斯分类器、kmeans聚类、层次聚类等,为进一步的学习和研究奠定基础。感兴趣的读者可以继续研究和探索深度学习技术在文本分析中的应用,这是人工智能应用中发展非常迅速的领域,相信阅读本书打下的基础会对你大有帮助。
最后,感谢本书的作者和机械工业出版社华章公司的编辑,是他们的鼓励和支持使得本书能与读者见面。感谢我们家人的理解。尽管我们努力准确地表达作者的思想和方法,但仍难免有不当之处。译文中的错误,敬请指出,我们将非常感激,请将相关意见发往yanlongchuan@iieaccn。
闫龙川 高德荃 李君婷
2017年12月
前言
自然语言处理(Natural Language Processing,NLP)一直深深吸引着我,因为人脑科学和人类认知能力确实令人着迷。如果尝试在机器中重塑这种传递信息、复杂思维和情绪的能力,那一定是令人惊喜的。当然,尽管我们在认知计算(cognitive computing)和人工智能(Artificial Intelligence,AI)方面的发展突飞猛进,但现在尚且无法实现这一点。仅通过图灵测试可能是不够的,机器真正能复制人的方方面面吗?
当今,对于NLP和文本分析应用,迫切需求从非结构化、原始文本数据中提取有用信息和可行见解的能力。到目前为止,我一直在努力解决各种问题,面临诸多挑战,并随着时间的推移吸取了各种各样的经验教训。本书涵盖了我在文本分析领域学到的大部分知识,仅仅从一堆文本文档中建立一个花哨的词云是不够的。
在学习文本分析方面,最大的问题或许不是信息缺乏,而是信息过多,通常这称为信息过载(information overload)。海量的资源、文档、论文、书籍和期刊包含了大量的理论资料、概念、技术和算法,它们常常使该领域的新手不知所措。解决问题的正确技术是什么?文本摘要如何真正有效?哪些才是解决多类文本分类的最佳框架?通过将数学和理论概念与现实用例的Python实现相结合,本书尝试解决这个问题,并帮助读者避免迄今为止我所遇到的一些急迫问题。
本书采用了全面的和结构化的介绍方法。首先,它在前几章中介绍了自然语言理解和Python结构的基础知识。熟悉了基础知识之后,其余章节将解决文本分析中的一些有趣问题,包括文本分类、聚类、相似性分析、文本摘要和主题模型。本书还将分析文本的结构、语义、情感和观点。对于每个主题,将介绍基本概念,并使用一些现实世界中的场景和数据来实现涵盖每个概念的技术。本书的构想是呈现一幅文本分析和NLP的蓝海,并提供必要的工具、技术和知识以处理和解决工作中遇到的问题。我希望你能觉得本书很有帮助,并祝你在文本分析的世界中旅途愉快!
媒体评论
本书全方位讲解文本、语言语法、结构和语义等基本概念和高级概念,并详细阐释文本分类、聚类、主题建模和文本摘要等算法和技术。
本书遵循结构化和综合性的讲解方式,即使缺少相关经验,你也不会感到茫然无措。从自然语言和Python的基础知识开始,进而介绍先进的分析理念和机器学习概念。你将了解每种技术和算法的概况,理解它们如何使用,同时从微观视角理解相关数学概念并应用它们来解决现实问题。
本书特色:
全面介绍自然语言处理(NLP)和文本分析的主要概念与技术。
包含丰富的真实案例实现技术,例如,构建分类新闻文章的文本分类系统,使用主题建模和文本摘要分析app或游戏评论,进行热门电影概要的聚类分析和电影评论的情感分析。
介绍基于Python及一些流行NLP和文本分析开源库(如自然语言工具包(nltk)、gensim、scikit-learn、spaCy和Pattern)的实现。