基本信息
- 原书名:Advanced Metasearch Engine Technology
- 作者: (美)孟卫一(Weiyi Meng) (美)於德(Clement T. Yu)
- 译者: 朱亮
- 丛书名: 大数据管理丛书
- 出版社:机械工业出版社
- ISBN:9787111556176
- 上架时间:2018-1-23
- 出版日期:2017 年2月
- 开本:16开
- 版次:1-1
- 所属分类:计算机 > 数据库 > 综合
教材

内容简介
计算机书籍
由于谷歌和雅虎等主流搜索引擎的普及,目前在Web上的搜索工具中,搜索引擎是人们最为熟知的。虽然这些主流搜索引擎非常成功,但也存在严重的局限性。
本书介绍的大规模元搜索引擎技术,具有克服这些主流搜索引擎局限性的潜力。本质上,元搜索引擎是一个支持统一访问多个现有搜索引擎的搜索系统,它将接收到的查询发送给各个成员搜索引擎,然后把成员搜索引擎返回的结果聚集为一个单一的排序列表。一个大规模元搜索引擎有成千上万个成员搜索引擎。虽然开发元搜索引擎的最初动力是其结合多个搜索引擎的搜索范围的能力,但它其实还有更多的益处,如可以获得更好、更新的结果,能够访问深层网。
本书详细讨论大规模元搜索引擎的主要部件──搜索引擎选择、搜索引擎加入和结果合并,重点关注部件的高度可扩展性和自动化解决方案,并对作为Web搜索的竞争技术的大规模元搜索引擎技术的可行性进行了强有力的论证。
作译者
於德(ClementT.Yu) 美国伊利诺伊大学芝加哥分校的计算机科学系教授。他的研究方向包括多媒体信息检索、元搜索引擎、数据库管理以及医疗保健应用。他在这些领域已经发表了200 多篇论文,是《PrinciplesofDatabaseQueryProcessingforAdvancedApplications》的合著者之一。他担任过ACMSIGIR的主席,作为分布式和异构环境及文档检索查询处理领域的专家顾问,具有丰富的经验。他曾任美国国家自然科学基金咨询委员会成员,是《IEEE TransactionsonKnowledge andDataEngineering》《JournalofDistributedandParallelDatabases》
《International Journal of Software Engineering and Knowledge Engineering》和《WWW:Internet and WebInformation Systems》等杂志的编委。
他还担任过ACMSIGMOD国际会议的主席和ACMSIGIR国际会议的程序委员会主席。他是Webscalers和PharmIR 两家因特网公司的创始人之一。
目录
译者序
前 言
作者简介
第1章 绪言 1
1.1 Web上查找信息 3
1.1.1 浏览 3
1.1.2 搜索 4
1.2 文本检索概述 7
1.2.1 系统体系结构 7
1.2.2 文档表示 8
1.2.3 文档-查询匹配 9
1.2.4 查询处理 11
1.2.5 检索有效性度量 13
1.3 搜索引擎技术概述 14
1.3.1 Web的专门特性 14
1.3.2 Web爬虫 15
1.3.3 利用标签信息 17
1.3.4 利用链接信息 18
1.3.5 结果组织 23
前言
当下大数据技术发展变化日新月异,大数据应用已经遍及工业和社会生活方方面面,原有的数据管理理论体系与大数据产业应用之前的差距日益加大,而工业界对于大数据人才的需求却极剧增加。大数据专业人才的培养是新一轮科技较量的基础,高等院校承担着大数据人才培养的重任。因此大数据相关课程将逐渐成为国内高校计算机相关专业的重要课程。近来越来越多的院校急切地开设大数据方面的人才培养计划,以求占得“先机”。但纵观大数据人才培养课程体系尚不尽如人意,多是已有课程的“冷拼盘”,顶多是加点“调料”,原材料没有新鲜感。现阶段无论多么新多么好的人才培养计划,都只能在六七十年代编写的计算机知识体系上施教,无法把当下的大数据带给我们的新思维方式和知识体系传导给学生。
为此我们意识到,缺少基础性工作和原始积累,就难以培养符合工业界需要的大数据复合型和交叉型人才。因此急需在思维和理念方面进行转变,为现有的课程和知识体系按大数据应用需求进行延展和补充,加入新的可以因材施教的知识模块。每一位学者都有责任和义务去为此“增砖添瓦”。
在此背景下,我们策划和组织了这套大数据管理丛书,希望能够培养数据思维的理念,对原有数据管理知识体系进行完善和补充,面向新的技术热点,提出新的知识体系/知识点,拉近教材体系与大数据应用的距离,为受教者应对现代技术带来的大数据领域的新问题和挑战,扫除障碍。现时要求学者编写大部头著作费时费力,不太现实。这使我们想到上世纪八九十年代风靡一时的“五角丛书”,它短小精湛,题材丰富,选题新颖,恰到好处地迎合了那个时代人们对新知识的渴望,因此成为了那个时代的共同记忆。所以我们受此启发,选择了这种更容易实现的“五角丛书”的形式,促使学者们力所能及地把各自工作中的积累呈现给大家,为大数据人才培养的“大厦”增砖添瓦。我们相信,假以时日,这些小部头的著作汇溪成河,必将对未来大数据人才培养起到“基石”的作用。
丛书定位:面向新形式下的大数据技术发展对人才培养提出的挑战,旨在为学术研究和人才培养提供可供参考的“基石”。虽然是一些不起眼的“砖头瓦块”,但可以为大数据人才培养积累可用的新模块(新素材),弥补原有知识体系与应用问题之前的鸿沟,力图为现有的数据管理知识查漏补缺,聚少成多,最终形成适应大数据技术发展和人才培养的知识体系和教材基础。
丛书特点:丛书借鉴Morgan&ClaypoolPublishers出版的SynthesisLecturesonDataManagement,特色在于选题新颖,短小精湛。选题新颖即面向技术热点,弥补现有知识体系的漏洞和不足(或延伸或补充),内容涵盖大数据管理的理论、方法、技术等诸多方面。短小精湛则不求系统性和完备性,但每本书要自成知识体系,重在阐述基本问题和方法,并辅以例题说明,便于施教。
丛书组织:丛书采用国际学术出版通行的主编负责制,为此特邀中国人民大学孟小峰教授(email:xfmeng@ruc.edu.cn)担任丛书主编,负责丛书的整体规划和选题。责任编辑为机械工业出版社华章分社姚蕾编辑(email:yaolei@hzbook.com)。
在此期望有志于大数据人才培养并具有丰富理论和实践经验的学者和专业人员能够加入到这套书的编写工作中来,共同为中国大数据研究和人才培养贡献自己的智慧和力量,共筑属于我们自己的“时代记忆”。欢迎读者对我们的出版工作提出宝贵意见和建议。
丛书即将出版书目:
大数据管理概论
孟小峰主编
2017年2月出版
异构信息网络挖掘原理和方法
[美]孙艺洲(YizhouSun)韩家炜(JiaweiHan)著;段磊朱敏 唐常杰译
2017年1月出版
大规模元搜索引擎技术
[美]孟卫一(WeiyiMeng)於德(ClementT.Yu)著;朱亮译
2017年1月
大数据集成
[美]董欣(XinLunaDong)戴夫士·斯里瓦斯塔瓦(DiveshSrivastava)
序言
搜索引擎(searchengine)已为人们所熟知。“Meta-”意为“而上者,之上者,之后的,超越的”;元搜索引擎(metasearchengine)即为“搜索引擎之上的搜索引擎”,最初起源于其结合多个搜索引擎的搜索范围的能力。大规模元搜索引擎有成千上万个成员搜索引擎,它具有克服主流搜索引擎局限性的潜力,可以获得更好、更新的搜索结果,并且能够访问深层网。创建和维护大规模元搜索引擎需要解决许多挑战性的问题。
WeiyiMeng和ClementT.Yu是搜索引擎、信息检索及数据库相关领域的两位著名学者,尤其在大规模元搜索引擎方面做出了开创性的工作。本书广泛而深入地介绍了创建和维护大规模元搜索引擎的先进技术,注重其构造部件的高度可扩展性和自动化解决方案,其中包括他们及其团队开创性的工作。
本书分为6章:第1章介绍相关的概念、术语和知识;第2章概述典型大规模元搜索引擎的体系结构和主要部件;第3章集中讨论搜索引擎选择器;第4章讨论将搜索引擎加入元搜索引擎所需的技术,主要有两个问题,一是关于元搜索引擎与其每个成员搜索引擎之间建立通信的问题,二是关于从响应页面提取搜索结果记录的问题;第5章介绍各种搜索结果合并算法,从几个维度所涵盖的广泛场景讨论这些算法;第6章总结本书论述的主要内容,讨论元搜索引擎技术未来的发展方向,列出具有挑战性的、有待进一步研究的具体问题。
在本书的翻译过程中,得到了各位同仁的帮助和支持,在此深表谢意。刘大中教授、魏勇刚讲师、宋鑫讲师和王煜教授分别对第1章、第2章、第3章和第4章的翻译和相关问题的讨论做出了很大的贡献,并且提出了宝贵意见;马琴教授对译稿进行了校阅并提出了改进建议。本书的著者之一WeiyiMeng教授的鼎力支持和指导性建议,对完成本书的翻译工作起到了至关重要的作用。本套丛书的主编孟小峰教授和姚蕾编辑在翻译过程中给予了很大的帮助。
由于译者水平所限,译文中难免存在错误和不当之处,敬请读者批评指正。
朱亮
2016年9月