基本信息
编辑推荐
1.内容丰富多样,对比学习
考虑当前大数据发展处于起步并逐步赶超先进,其应用领域丰富广泛,本书除了介绍典型开源大数据处理框架Apache Hadoop框架之外,还介绍了批处理计算Spark、流式计算及典型工具(Storm、Apex、Flink)和事件流及典型工具(Druid)等,让读者了解不同类型工具系统的特点,并配以丰富简单易上手的实例,让读者能够切实体会和掌握各种类型工具的特点和应用。
2.轻量级理论,重在培养动手实践能力
为了让读者能够快速掌握技能并保证理论能够适应实践要求,本书本着轻量级理论原则,给出丰富的实例、详实的实验操作步骤和使用普通读者也易于配置的实验环境,让读者能够快速上手,在做中学。
3.有效结合实际应用
除了各章节给出的配套实例外,本书在最后还给出电商领域的大数据分析综合实例,以实际行业应用案例说明大数据处理和计算工具的使用以及进一步阐述大数据行业应用的重大意义。
内容简介
作译者
目录
1.1 大数据的发展 1
1.2 大数据的概念及特征 2
1.2.1 大数据的概念 2
1.2.2 大数据的特征 2
1.3 大数据的产生及数据类型 3
1.3.1 大数据的产生 3
1.3.2 数据类型 3
1.4 大数据计算模式和系统 4
1.5 大数据的主要技术层面和技术内容 4
1.6 大数据的典型应用 6
1.7 本章小结 7
第2章 数据获取 8
2.1 Scrapy环境搭建 8
2.2 爬虫项目创建 8
2.3 采集目标数据项定义 10
2.4 爬虫核心实现 11
2.5 数据存储 15
2.6 爬虫运行 17
2.7 本章小结 18