(特价书)大数据集成
基本信息
- 原书名:Big Data Integration

内容简介
目录
译者序
前言
第1章 大数据集成的挑战和机遇 1
1.1 传统数据集成 2
1.1.1 航班示例:数据源 2
1.1.2 航班示例:数据集成 7
1.1.3 数据集成:体系结构和三个主要步骤 10
1.2 大数据集成:挑战 12
1.2.1 “V”维度 13
1.2.2 案例研究:深网数据量 15
1.2.3 案例研究:抽取的领域数据 18
1.2.4 案例研究:深网数据的质量 22
1.2.5 案例研究:浅网结构化数据 25
1.2.6 案例研究:抽取的知识三元组 28
1.3 大数据集成:机遇 30
1.3.1 数据冗余性 31
1.3.2 长数据 32
1.3.3 大数据平台 33
1.4 章节安排 33
译者序
大数据的关联分析离不开大数据集成,即将多个数据源的数据链接融合在一起。数据集成技术在传统数据库界已经被研究多年,主要针对结构化的关系数据,在模式对齐、记录链接和数据融合等方面取得了许多进展。大数据集成是在大数据背景下的数据集成,具有一些新的挑战,例如数据和数据源的海量性、数据的多样性(即不单单是结构化数据,同时还有许多非结构化和半结构化数据)、数据的动态性等。
本书的作者Xin Luna Dong和Divesh Srivastava在传统数据集成和大数据集成领域有多年的研究经验,在书中系统地梳理和讨论了该领域中关键问题的一些重要研究成果和方法,对大数据集成的研究者和实践者都很有帮助,另外本书也可以作为学生学习该领域的入门读物。
本书第1、2章由王秋月翻译;第3章由杜治娟翻译;第4~6章由王硕翻译。最后由王秋月统稿并校订一些关键译法。
由于译者水平有限,书中难免有不当之处,敬请各位读者批评指正。
王秋月
2016年9月
前言
为此我们意识到,缺少基础性工作和原始积累,就难以培养符合工业界需要的大数据复合型和交叉型人才。因此急需在思维和理念方面进行转变,为现有的课程和知识体系按大数据应用需求进行延展和补充,加入新的可以因材施教的知识模块。我们肩负着大数据时代知识更新的使命,每一位学者都有责任和义务去为此“增砖添瓦”。
在此背景下,我们策划和组织了这套大数据管理丛书,希望能够培养数据思维的理念,对原有数据管理知识体系进行完善和补充,面向新的技术热点,提出新的知识体系/知识点,拉近教材体系与大数据应用的距离,为受教者应对现代技术带来的大数据领域的新问题和挑战,扫除障碍。我们相信,假以时日,这些著作汇溪成河,必将对未来大数据人才培养起到“基石”的作用。
丛书定位:面向新形势下的大数据技术发展对人才培养提出的挑战,旨在为学术研究和人才培养提供可供参考的“基石”。虽然是一些不起眼的“砖头瓦块”,但可以为大数据人才培养积累可用的新模块(新素材),弥补原有知识体系与应用问题之前的鸿沟,力图为现有的数据管理知识查漏补缺,聚少成多,最终形成适应大数据技术发展和人才培养的知识体系和教材基础。
丛书特点:丛书借鉴Morgan & Claypool Publishers出版的Synthesis Lectures on Data Management,特色在于选题新颖,短小精湛。选题新颖即面向技术热点,弥补现有知识体系的漏洞和不足(或延伸或补充),内容涵盖大数据管理的理论、方法、技术等诸多方面。短小精湛则不求系统性和完备性,但每本书要自成知识体系,重在阐述基本问题和方法,并辅以例题说明,便于施教。
丛书组织:丛书采用国际学术出版通行的主编负责制,为此特邀中国人民大学孟小峰教授(email:xfmeng@ruc.edu.cn)担任丛书主编,负责丛书的整体规划和选题。责任编辑为机械工业出版社华章分社姚蕾编辑(email:yaolei@hzbook.com)。
当今数据洪流席卷全球,而中国正在努力从数据大国走向数据强国,大数据时代的知识更新和人才培养刻不容缓,虽然我们的力量有限,但聚少成多,积小致巨。因此,我们在设计本套丛书封面的时候,特意选择了清代苏州籍宫廷画家徐扬描绘苏州风物的巨幅长卷画作《姑苏繁华图》(原名《盛世滋生图》)作为底图以表达我们的美好愿景,每本书选取这幅巨卷的一部分,一步步见证和记录数据管理领域的学者在学术研究和工程应用中的探索和实践,最终形成适应大数据技术发展和人才培养的知识图谱,共同谱写出我们这个大数据时代的盛世华章。
在此期望有志于大数据人才培养并具有丰富理论和实践经验的学者和专业人员能够加入到这套书的编写工作中来,共同为中国大数据研究和人才培养贡献自己的智慧和力量,共筑属于我们自己的“时代记忆”。欢迎读者对我们的出版工作提出宝贵意见和建议。
大数据管理丛书
主编:孟小峰
大数据管理概论
孟小峰编著
2017年5月
异构信息网络挖掘:原理和方法
[美]孙艺洲(Yizhou Sun)韩家炜(Jiawei Han)著
段磊朱敏唐常杰译
2017年5月
大规模元搜索引擎技术
[美]孟卫一(Weiyi Meng)於德(Clement T. Yu)著
朱亮译
序言
大数据的关联分析离不开大数据集成,即将多个数据源的数据链接融合在一起。数据集成技术在传统数据库界已经被研究多年,主要针对结构化的关系数据,在模式对齐、记录链接和数据融合等方面取得了许多进展。大数据集成是在大数据背景下的数据集成,具有一些新的挑战,例如数据和数据源的海量性、数据的多样性(即不单单是结构化数据,同时还有许多非结构化和半结构化数据)、数据的动态性等。
本书的作者Xin Luna Dong和Divesh Srivastava在传统数据集成和大数据集成领域有多年的研究经验,在书中系统地梳理和讨论了该领域中关键问题的一些重要研究成果和方法,对大数据集成的研究者和实践者都很有帮助,另外本书也可以作为学生学习该领域的入门读物。
本书第1、2章由王秋月翻译;第3章由杜治娟翻译;第4~6章由王硕翻译。最后由王秋月统稿并校订一些关键译法。
由于译者水平有限,书中难免有不当之处,敬请各位读者批评指正。
王秋月
2016年9月