基本信息

【插图】

编辑推荐
从技术、工具、实战3个维度讲透Python网络爬虫各项核心技术和主流框架,深度讲解网络爬虫的抓取技术与反爬攻关技巧
内容简介
计算机书籍
本书从技术、工具与实战3个维度讲解了Python网络爬虫:
技术维度:详细讲解了Python网络爬虫实现的核心技术,包括网络爬虫的工作原理、如何用urllib库编写网络爬虫、爬虫的异常处理、正则表达式、爬虫中Cookie的使用、爬虫的浏览器伪装技术、定向爬取技术、反爬虫技术,以及如何自己动手编写网络爬虫;
工具维度:以流行的Python网络爬虫框架Scrapy为对象,详细讲解了Scrapy的功能使用、高级技巧、架构设计、实现原理,以及如何通过Scrapy来更便捷、高效地编写网络爬虫;
实战维度:以实战为导向,是本书的主旨,除了完全通过手动编程实现网络爬虫和通过Scrapy框架实现网络爬虫的实战案例以外,本书还有博客爬取、图片爬取、模拟登录等多个综合性的网络爬虫实践案例。
作者在Python领域有非常深厚的积累,不仅精通Python网络爬虫,在Python机器学习、Python数据分析与挖掘、Python Web开发等多个领域都有丰富的实战经验
作译者
资深网络爬虫技术专家、大数据专家和软件开发工程师,从事大型软件开发与技术服务多年,现任重庆韬翔网络科技有限公司创始人兼CEO,国家专利发明人。
精通Python技术,在Python网络爬虫、Python机器学习、Python数据分析与挖掘、Python Web开发等多个领域都有丰富的实战经验。
CSDN、51CTO、天善智能等科技类社区和媒体的特邀专家和讲师,输出了大量的高质量课程和文章,深受用户喜爱。
微博:http://weibo.com/qiansyy
目录
第一篇 理论基础篇
第1章 什么是网络爬虫 3
1.1 初识网络爬虫 3
1.2 为什么要学网络爬虫 4
1.3 网络爬虫的组成 5
1.4 网络爬虫的类型 6
1.5 爬虫扩展——聚焦爬虫 7
1.6 小结 8
第2章 网络爬虫技能总览 9
2.1 网络爬虫技能总览图 9
2.2 搜索引擎核心 10
2.3 用户爬虫的那些事儿 11
2.4 小结 12
第二篇 核心技术篇
第3章 网络爬虫实现原理与实现技术 15
3.1 网络爬虫实现原理详解 15
3.2 爬行策略 17
3.3 网页更新策略 18
3.4 网页分析算法 20
前言
网络爬虫其实很早就出现了,最开始网络爬虫主要应用在各种搜索引擎中。在搜索引擎中,主要使用通用网络爬虫对网页进行爬取及存储。
随着大数据时代的到来,我们经常需要在海量数据的互联网环境中搜集一些特定的数据并对其进行分析,我们可以使用网络爬虫对这些特定的数据进行爬取,并对一些无关的数据进行过滤,将目标数据筛选出来。对特定的数据进行爬取的爬虫,我们将其称为聚焦网络爬虫。在大数据时代,聚焦网络爬虫的应用需求越来越大。
目前在国内Python网络爬虫的书籍基本上都是从国外引进翻译的,国内的本版书籍屈指可数,故而我跟华章的副总编杨福川策划了这本书。本书的撰写过程中各方面的参考资料非常少,因此完成本书所花费的精力相对来说是非常大的。
本书从系统化的视角,为那些想学习Python网络爬虫或者正在研究Python网络爬虫的朋友们提供了一个全面的参考,让读者可以系统地学习Python网络爬虫的方方面面,在理解并掌握了本书的实例之后,能够独立编写出自己的Python网络爬虫项目,并且能够胜任Python网络爬虫工程师相关岗位的工作。
同时,本书的另一个目的是,希望可以给大数据或者数据挖掘方向的从业者一定的参考,以帮助这些读者从海量的互联网信息中爬取需要的数据。所谓巧妇难为无米之炊,有了这些数据之后,从事大数据或者数据挖掘方向工作的读者就可以进行后续的分析处理了。
本书的主要内容和特色
本书是一本系统介绍Python网络爬虫的书籍,全书注重实战,涵盖网络爬虫原理、如何手写Python网络爬虫、如何使用Scrapy框架编写网络爬虫项目等关于Python网络爬虫的方方面面。
本书的主要特色如下:
系统讲解Python网络爬虫的编写方法,体系清晰。
结合实战,让读者能够从零开始掌握网络爬虫的基本原理,学会编写Python网络爬虫以及Scrapy爬虫项目,从而编写出通用爬虫及聚焦爬虫,并掌握常见网站的爬虫反屏蔽手段。
有配套免费视频,对于书中的难点,读者可以直接观看作者录制的对应视频,加深理解。
拥有多个爬虫项目编写案例,比如博客类爬虫项目案例、图片类爬虫项目案例、模拟登录爬虫项目等。除此之外,还有很多不同种类的爬虫案例,可以让大家在理解这些案例之后学会各种类型爬虫的编写方法。
总之,在理解本书内容并掌握书中实例之后,读者将能胜任Python网络爬虫工程师方向的工作并学会各种类型网络爬虫项目的编写。此外,本书对于大数据或数据挖掘方向的从业者也非常有帮助,比如可以利用Python网络爬虫轻松获取所需的数据信息等。
本书面向的读者
Python网络爬虫初学者
网络爬虫工程师
大数据及数据挖掘工程师
高校计算机专业的学生
其他对Python或网络爬虫感兴趣的人员
媒体评论
——诸葛建伟 清华大学副研究员/《Metasploit渗透测试魔鬼训练营》作者
本书详细讲解了如何基于Python从零开始构建一个成熟的网络爬虫解决方案的完整过程,以及业界主流爬虫技术的原理与实战案例,同时也引入了作者个人的经验与思考,非常有价值。本书循序渐进的内容组织结构,相信无论是新手还是老手,均能很好地阅读和吸收。
——刘天斯 腾讯高级工程师,《Python自动化运维》作者
网络爬虫是许多大数据分析场景的基本需求,实现爬虫程序的基本功能很简单,但是要做到自动化不间断抓取,涉及很多技术和技巧。难能可贵的是,本书将网络爬虫编程的技术和实践技巧无私地总结并分享了出来。另外,Python也是运维人的最爱,Python入门容易精通难,通过阅读本书,可以深度学习如何在一个具体场景中使用Python。
——肖力 云技术社区创始人
Python广泛应用于网络爬虫,本书循序渐进地阐述了爬虫的理论知识和核心技术,以丰富的实例讲解了网络爬虫的实战应用,精心组织的代码完美地诠释了爬虫的核心要义。这本书非常值得每一个对爬虫感兴趣的读者细细研读。
——谢佳标 乐逗游戏高级数据分析师/《R语言游戏数据分析》作者