Python网络爬虫技术与实战
基本信息

编辑推荐
作者多年从事网络爬虫领域的教学及研究工作,有着丰富的实践经验。
面向初学者全面介绍Python网络爬虫的实战宝典,涵盖网络爬虫的核心概念、算法和技术实现,内容系统,案例丰富。
内容简介
计算机书籍
本书是一本系统、全面地介绍Python网络爬虫的实战宝典。作者融合自己丰富的工程实践经验,紧密结合演示应用案例,内容覆盖了几乎所有网络爬虫涉及的核心技术。在内容编排上,一步步地剖析算法背后的概念与原理,提供大量简洁的代码实现,助你从零基础开始编程实现深度学习算法。
全书按照学习爬虫所涉及的核心技术从易到难,再到应用的顺序分为14章。第1章介绍Python的安装配置和基础语法。 第2章介绍爬虫类型、抓取策略以及网络基础知识。第3章介绍Python常用库。第4章介绍正则表达式的语法、匹配规则。第5章讲解PIL库、Tesseract库和TensorFlow库的语法、类型和识别方法。第6章介绍抓包利器Fiddler。第7章介绍数据存储。第8章介绍Scrapy爬虫框架。第9章介绍多线程爬虫。第10章介绍动态网页爬虫。第11章介绍分布式爬虫。第12章介绍电商网站商品信息爬虫项目。第13章介绍生活娱乐点评类信息爬虫。第14章介绍图片信息类爬虫项目。
目录
第1章 Python环境搭建及基础学习1
1.1 Python 3.6的安装与配置1
1.1.1 Windows下的安装1
1.1.2 Linux下的安装5
1.1.3 macOS下的安装6
1.2 IDE工具:PyCharm的安装7
1.3 基础语法11
1.3.1 第一个Python程序11
1.3.2 Python命名规范13
1.3.3 行和缩进15
1.3.4 注释和续行15
1.3.5 Python输出16
1.4 字符串18
1.4.1 字符串运算符18
1.4.2 字符串内置函数19
1.5 数据结构22
1.5.1 列表22
1.5.2 元组25
1.5.3 集合27
前言
大数据时代已经到来,网络爬虫技术已成为这个时代不可或缺的一项技术,企业需要数据来分析用户行为、产品的不足之处以及竞争对手的信息等,而这一切的首要条件就是数据的采集。在互联网社会中,数据是无价之宝,一切皆为数据,谁拥有了大量有用的数据,谁就拥有了决策的主动权。如何有效地采集并利用这些信息成了一个巨大的挑战,而网络爬虫是自动采集数据的有效手段。网络爬虫是一种按照一定的规则,自动抓取互联网海量信息的程序或脚本。网络爬虫的应用领域很广泛,如搜索引擎、数据采集、广告过滤、大数据分析等。
笔者多年来一直从事网络爬虫相关课程的讲授及科学研究工作,有着丰富的教学和实践经验。在内容编排上,本书采用梯度层次化结构,由浅入深地介绍爬虫的知识点、原理及应用,并结合大量实例讲解操作步骤,使读者能够快速地理解网络爬虫的核心技术。
内容介绍
全书共14章,具体内容如下:
第1章主要介绍Python的安装、配置和基础语法,以及Python的字符串、数据结构、控制语句和函数等;
第2章主要介绍爬虫的类型、爬虫的抓取策略以及深入学习爬虫所需的网络基础等相关知识;
第3章主要对爬虫技术中经常使用到的urllib、request、lxml和Beautiful Soup库等进行详细介绍,最后展示了4个利用Python爬取数据的实例;
第4章主要对Python中正则表达式的语法、匹配规则和re模块常用函数进行详细阐述,并给出了实例;
第5章主要对3种主流库(PIL库、Tesseract库和TensorFlow库)的语法、类型、识别方法和案例进行介绍;
第6章详细介绍Fiddler的安装与配置、捕获会话、QuickExec命令行的使用和Fiddler的断点功能等;
第7章主要介绍数据存储在文件中和存储在数据库中这两种存储方式;
第8章重点介绍Scrapy框架的Selector用法,以及Beautiful Soup库和CrawlSpider的使用,然后介绍了Scrapy Shell和Scrapyrt的使用;
第9章主要介绍多线程和Threading模块的基本概念;
第10章主要介绍如何对动态网页进行信息爬取,首先介绍了浏览器开发工具的使用,然后介绍了异步加载技术、AJAX技术和Selenium模拟浏览器;
第11章主要介绍分布式爬虫的原理及实现过程,然后介绍了Scrapy-redis分布式组件的工作机制和安装配置;
第12章主要介绍如何利用Selenium抓取并用pyquery解析电商网站的商品信息,然后将其保存到MongoDB;
第13章主要介绍静态网页和动态网页的爬取方法,并对请求-响应关系进行了介绍,然后介绍了请求头和请求体;
第14章主要讲解如何通过urllib模块和Scrapy框架实现图片爬虫项目,以及利用TensorFlow、KNN和CNN等机器学习框架进行训练的方法与过程。
主要特点
媒体评论
通过阅读本书,你将:
学会一款合适的爬虫编程语言
掌握Python的核心爬虫模块
深入掌握正则表达式
理解掌握一种抓包分析技术
精通一款爬虫框架
掌握常见的反爬与处理策略