搜索引擎:信息检索实践(搜索引擎领域的经典教材)
基本信息
- 作者: (美)W. Bruce Croft Donald Metzler Trevor Strohman
- 译者: 刘挺 秦兵 张宇 车万翔
- 丛书名: 计算机科学丛书
- 出版社:机械工业出版社
- ISBN:9787111288084
- 上架时间:2010-6-18
- 出版日期:2010 年6月
- 开本:16开
- 页码:309
- 版次:1-1
- 所属分类:
计算机 > 信息系统 > 综合
推荐阅读
内容简介回到顶部↑
作译者回到顶部↑
目录回到顶部↑
出版者的话
译者序
前言
第1章 搜索引擎和信息检索 1
1.1 什么是信息检索 1
1.2 重要问题 2
1.3 搜索引擎 4
1.4 搜索工程师 5
参考文献和深入阅读 6
练习 6
第2章 搜索引擎的架构 8
2.1 什么是软件架构 8
2.2 基本的构件 8
2.3 组件及其功能 10
2.3.1 文本采集 10
2.3.2 文本转换 12
2.3.3 索引的创建 13
2.3.4 用户交互 14
2.3.5 排序 15
2.3.6 评价 16
译者序
前言
第1章 搜索引擎和信息检索 1
1.1 什么是信息检索 1
1.2 重要问题 2
1.3 搜索引擎 4
1.4 搜索工程师 5
参考文献和深入阅读 6
练习 6
第2章 搜索引擎的架构 8
2.1 什么是软件架构 8
2.2 基本的构件 8
2.3 组件及其功能 10
2.3.1 文本采集 10
2.3.2 文本转换 12
2.3.3 索引的创建 13
2.3.4 用户交互 14
2.3.5 排序 15
2.3.6 评价 16
译者序回到顶部↑
记得1996年,我在北京图书馆的电子阅览室里付费上机检索,查到了一些我感兴趣的英文文献的题录。当时感觉很兴奋,用电脑检索比手工卡片检索方便了许多,但实在无法想象,短短几年后信息检索技术就冲破了科技情报领域的局限,成为普通民众每天都要使用的信息搜索工具。是互联网这项人类历史上伟大的发明,是网上浩如烟海的信息给人类带来的挑战,推动了信息检索技术向海量、高效、多媒体、个性化等方向突飞猛进地发展。
在21世纪第二个“十年”到来的今天,越来越多的学者、研发人员、研究生和大学生们投入到搜索引擎的研究与实践中来,他们希望掌握搜索引擎背后的理论和技术,希望了解在搜索引擎设计和开发中的原则和经验,从而为搜索引擎在各个行业的应用以及更具颠覆性的下一代搜索引擎的研发创造条件。
本书恰好可以满足这些读者的迫切需求。本书英文版原作者W. Bruce Croft于1979年在英国剑桥大学获得计算机科学博士学位,同年加入University of Massachusetts(Amherst分校)计算机科学系,曾任系主任多年,目前担任该系的特聘教授。1992年,他创建了智能信息检索研究中心,其研究兴趣覆盖信息检索中的多个领域,包括检索模型、Web搜索、查询处理、跨语言检索和搜索架构等。他在1997年被选为ACM Fellow,2000年获得美国信息科学与技术学会的研究奖,2003年获得ACM SIGIR(ACM关于信息检索的特殊兴趣组)的Gerard Salton奖,Salton奖是信息检索领域最受关注的奖励。
从作者的简历中可以看到这是一位国际信息检索领域顶尖的学者,他的这本新书一经出版,就以其深入浅出,理论与实践密切结合,覆盖了诸多最新的搜索引擎技术等鲜明特色而获得了业内的普遍好评。机械工业出版社迅速出版了该书的英文版,同时委托我研究中心将其译为中文,以飨读者。
在本书的翻译过程中,秦兵教授付出的心血最多,她除了要翻译自己负责的部分以外,还要负责组织、校对等工作,她高度的责任心是本书得以顺利出版的关键。除四位主要译者外,李正华、伍大勇、郎君、赵妍妍、宋巍等多位高年级博士生也参与了部分章节的翻译工作。本书也得到了译者们的恩师李生教授的支持,并得到了他主持的国家自然科学基金重点项目“下一代信息检索研究”(编号60736044)的资助。
译者水平有限,书中疏漏在所难免,敬请读者批评指正。
译 者
2010年3月1日
于哈尔滨工业大学
在21世纪第二个“十年”到来的今天,越来越多的学者、研发人员、研究生和大学生们投入到搜索引擎的研究与实践中来,他们希望掌握搜索引擎背后的理论和技术,希望了解在搜索引擎设计和开发中的原则和经验,从而为搜索引擎在各个行业的应用以及更具颠覆性的下一代搜索引擎的研发创造条件。
本书恰好可以满足这些读者的迫切需求。本书英文版原作者W. Bruce Croft于1979年在英国剑桥大学获得计算机科学博士学位,同年加入University of Massachusetts(Amherst分校)计算机科学系,曾任系主任多年,目前担任该系的特聘教授。1992年,他创建了智能信息检索研究中心,其研究兴趣覆盖信息检索中的多个领域,包括检索模型、Web搜索、查询处理、跨语言检索和搜索架构等。他在1997年被选为ACM Fellow,2000年获得美国信息科学与技术学会的研究奖,2003年获得ACM SIGIR(ACM关于信息检索的特殊兴趣组)的Gerard Salton奖,Salton奖是信息检索领域最受关注的奖励。
从作者的简历中可以看到这是一位国际信息检索领域顶尖的学者,他的这本新书一经出版,就以其深入浅出,理论与实践密切结合,覆盖了诸多最新的搜索引擎技术等鲜明特色而获得了业内的普遍好评。机械工业出版社迅速出版了该书的英文版,同时委托我研究中心将其译为中文,以飨读者。
在本书的翻译过程中,秦兵教授付出的心血最多,她除了要翻译自己负责的部分以外,还要负责组织、校对等工作,她高度的责任心是本书得以顺利出版的关键。除四位主要译者外,李正华、伍大勇、郎君、赵妍妍、宋巍等多位高年级博士生也参与了部分章节的翻译工作。本书也得到了译者们的恩师李生教授的支持,并得到了他主持的国家自然科学基金重点项目“下一代信息检索研究”(编号60736044)的资助。
译者水平有限,书中疏漏在所难免,敬请读者批评指正。
译 者
2010年3月1日
于哈尔滨工业大学
前言回到顶部↑
本书综述了信息检索中的重要问题,并介绍了这些问题如何对搜索引擎的设计与实现产生影响。本书并不是按照相同的详细程度描述每个主题,相反,我们侧重于那些对于实现搜索引擎组件以及组件背后的信息检索模型最重要的部分。网络搜索引擎显然是一个重要的话题,我们主要覆盖了在网络上使用的搜索技术,但搜索引擎在其他场合中也有应用,这就是为什么我们重点强调各种搜索引擎背后的信息检索理论与概念的原因。 本书的目标读者群主要是计算机科学或计算机工程的本科生,但研究生也会发现本书是有用的,此外,本书也适合多数情报科学专业的学生。最后,无论读者是什么背景,通过阅读本书都可以对他们动手开发搜索引擎有所帮助。本书中涉及数学知识,但并不深奥。书中也有代码和程序设计的练习,但对于那些已经完成了基本计算机科学与程序设计课程的人来说,完全可以掌握。 每章末尾的练习使用了被称为Galago的基于Java的开源搜索引擎。Galago既是为本书所设计的,也借鉴了Lemur和Indri项目的经验。换句话说,这是一个功能齐全的能够支持真正应用的搜索引擎。许多编程练习都是针对Galago组件的使用、修改和扩展。 内容 在第1章,我们对信息检索及它与搜索引擎的关系做了一个高层次的回顾。在第2章,我们描述了搜索引擎的架构,这一章全面介绍搜索引擎的各个组件,但没有涉及细节问题。在第3章,我们关注于爬取、文档信息源和其他用于获取被检索信息的技术。第4章描述了文本的统计特征,以及用来处理和识别重要特征的技术,并为建立索引做准备。第5章描述了怎样为有效的搜索建立索引,以及怎样利用索引处理查询。在第6章,我们描述了怎样处理查询,并把它们转换为更好的形式,以表达用户的信息需求。 第7章介绍排序算法及以这些算法为基础的检索模型。这一章也概述了机器学习技术以及机器学习与信息检索、搜索引擎的关系。第8章描述了用于比较和调整搜索引擎的评价指标和性能指标。第9章覆盖了分类、过滤、聚类和垃圾信息处理等重要技术。社会化搜索一词用于描述一种搜索引擎的应用,这种应用涉及对内容进行标注或者回答问题的社区人群。第10章描述了为这些应用服务的搜索技术以及P2P搜索。最后,在第11章,我们介绍了一些高级搜索技术,这些技术能够从文档中捕获更多内容,而不只是简单地基于词进行计算,其中包括使用语言学特征、文档结构和非文本媒体的内容,如图像和音乐。 信息检索理论以及搜索引擎的设计、实现、评价和使用覆盖了太多的话题,以至于无法在一本书中做全部深入的描述。我们试图集中于最重要的主题,同时,对于这些充满挑战也非常有价值的课题,我们也兼顾到各个主题的方方面面。 补充材料 本书提供了一定范围的补充材料,这些材料既可以供那些选修这门课的学生使用,也可以供讲授这门课的教师使用,其中包括: ?课程胶片(PDF或PPT格式) ?每章末尾问题的参考答案(仅供教师使用) ?Galago搜索引擎 致谢 首先,也是最重要的,如果没有我们夫人们(Pam Aselton、Anne-Marie Strohman和ShelleyWang)的支持和鼓励,本书是无法完成的。Massachusetts Amherst大学提供了本书准备工作中的素材支持,并给Croft颁发了ContiFaculty Fellowship奖,这显著地提高了本书的成书进程。智能信息检索中心的员工们(Jean Joyce、Kate Moruzzi、Glenn Stowell和Andre Gauthier)在很多方面对我们帮助很大,中心的同事和学生们提供了充满激情的环境,使我们在这个领域的工作很有价值。很多人审阅了本书的部分章节,我们感谢他们给出的建议。最后,不得不提及我们的孩子(Doug、Eric、Evan和Natalie),谢谢他们带来的快乐。 Bruce Croft Don Metzler Trevor Strohman








点击看大图









加载中...

