信息检索:算法与启发式方法:第2版(信息检索领域名著)
基本信息
- 作者: (美)David A. Grossman Ophir Frieder [作译者介绍]
- 译者: 张华平 李恒训 刘治华
- 丛书名: 图灵计算机科学
- 出版社:人民邮电出版社
- ISBN:9787115235756
- 上架时间:2010-8-20
- 出版日期:2010 年9月
- 开本:16开
- 页码:230
- 版次:2-1
- 所属分类:
计算机 > 计算机科学理论与基础知识 > 计算理论 > 算法
计算机 > 信息系统 > 综合
推荐阅读
内容简介回到顶部↑
本书是“信息检索”课程的优秀教材,书中对信息检索的概念、原理和算法进行了详细介绍,内容主要包括检索模型与算法、检索实用策略、跨语言信息检索、查询处理、融合结构化数据和文本、并行信息检索以及分布式信息检索等,并给出了阐述算法的大量实例。
本书有一定的广度和深度,而且所有的内容都用当前的技术阐述,是高等院校计算机及信息管理等专业本科生和研究生的理想教材,对信息检索领域的科研和技术人员也是很好的参考书。
本书有一定的广度和深度,而且所有的内容都用当前的技术阐述,是高等院校计算机及信息管理等专业本科生和研究生的理想教材,对信息检索领域的科研和技术人员也是很好的参考书。
作译者回到顶部↑
本书提供作译者介绍
David A.Grossman 佐治亚梅森大学博士,现在伊利诺伊理工大学计算机系任教。曾在美国政府部门高级技术服务中心和研究发展办公室担任项目经理。主要研究领域包括信息检索、结构化和非结构化数据集成以及数据挖掘。
Ophir Frieder 乔治敦大学教授、计算机科学系主任。曾任伊利诺伊理工大学计算机系首席教授、学院数据检索实验室主任。ACM会员,IEEE和美国艺术与科学研究院高级会员。他在数据检索系统、通信系统、高性能系统结构等方面均有深入的研究。
.. << 查看详细
Ophir Frieder 乔治敦大学教授、计算机科学系主任。曾任伊利诺伊理工大学计算机系首席教授、学院数据检索实验室主任。ACM会员,IEEE和美国艺术与科学研究院高级会员。他在数据检索系统、通信系统、高性能系统结构等方面均有深入的研究。
.. << 查看详细
目录回到顶部↑
第1章 引言 1
第2章 检索模型与算法 7
2.1 向量空间模型 8
2.1.1 相似度计算举例 11
2.1.2 相似度 13
2.2 概率检索模型 14
2.2.1 简单的词项权重 15
2.2.2 非二值独立模型 24
2.2.3 泊松模型 25
2.2.4 文档片段 29
2.2.5 概率模型的关键问题 30
2.3 语言模型 32
2.3.1 平滑 33
2.3.2 语言模型举例 34
2.4 推理网络 40
2.4.1 相关背景 41
2.4.2 链接矩阵 42
2.4.3 相关性排序 44
2.4.4 推理网络实例 45
2.5 扩展布尔检索 47
第2章 检索模型与算法 7
2.1 向量空间模型 8
2.1.1 相似度计算举例 11
2.1.2 相似度 13
2.2 概率检索模型 14
2.2.1 简单的词项权重 15
2.2.2 非二值独立模型 24
2.2.3 泊松模型 25
2.2.4 文档片段 29
2.2.5 概率模型的关键问题 30
2.3 语言模型 32
2.3.1 平滑 33
2.3.2 语言模型举例 34
2.4 推理网络 40
2.4.1 相关背景 41
2.4.2 链接矩阵 42
2.4.3 相关性排序 44
2.4.4 推理网络实例 45
2.5 扩展布尔检索 47
译者序回到顶部↑
搜索引擎越来越受到普通大众、技术、产业与资本的热力追捧,CNNIC发布的《第25次中国互联网络发展状况统计报告》显示,搜索引擎在网络应用使用率中排名第三,达到了73.3%。2009年中国搜索引擎的市场规模达到69.5亿元,在经济危机的背景下,搜索引擎营销获得大品牌广告主的认可。
作为网络搜索与挖掘十余年的研发者,我在研发与教学工作中发现,目前搜索引擎技术方面的资料往往有两种不足:一种是过于学术化,关注于一个很窄的话题,读起来生涩难懂,缺乏一定学术背景的读者很难真正理解;另外一种是原理性的介绍,往往比较浅显,缺乏一定的深度,读者读起来总觉得意犹未尽。而本书是难得的一本佳作。一方面,它全面综合了信息检索领域的各类研究,融合了最新的研究成果;另一方面,它采用通俗易懂的行文方式,在关键点上采用了详尽的案例来解释抽象的过程,读者并不需要具备专业的数学背景就很容易掌握信息检索技术的精髓所在。
本书主要作为本科生或研究生信息检索课程的教材,也特别适合信息检索领域从事应用开发的研发人员使用。在国外,它已经被多所高校作为研究生与本科生的教材,广受好评。
我非常有幸应人民邮电出版社图灵公司之邀翻译这本信息检索领域的杰作。对我们来说,这是一次学习过程,也是多年研究工作的总结提炼过程。翻译从来就不是一件轻松的事,加之正赶上工作调动,在时间和精力上受到一定影响。但我们依然克服了各种困难,每周固定开会研讨,字斟句酌,抱着严谨的学术态度,尽可能忠实表达作者的原意,同时兼顾语言之美。在“苦行僧”式的翻译学习过程中,我们往往也会从作者敏捷的思维和精巧的话语中领略到一种无穷的智慧。
在此,我要感谢原作者Grossman与Frieder的卓越工作,感谢我的研究生忍受我的各种严格要求,感谢人民邮电出版社图灵公司给予我们这次学习的机会。同时,我要感谢北京理工大学计算机学院院长黄河燕教授在此工作过程中给我的支持,也要感谢中科院计算所网络重点实验室主任程学旗研究员对我在信息检索领域的指导。最后,我特别感谢我的妻子,感谢她在这段艰难的时光的默默支持。
本书翻译分工如下:由我负责翻译本书的第1章、第7章与第9章,我的研究生李恒训同学负责翻译第2章,刘治华同学负责翻译第3章,李恒训同学、秦鹏同学和周鹏同学负责翻译第4章和第5章,张京阳同学负责翻译第6章,蒋骈同学负责翻译第8章。另外,我对全书进行了多次全面的审校。
限于水平有限,错误在所难免,恳请读者批评指正。
张华平博士
E-mail: kevinzhang@bit.edu.cn
2010年1月25日于北京理工大学计算机语言信息处理研究所
作为网络搜索与挖掘十余年的研发者,我在研发与教学工作中发现,目前搜索引擎技术方面的资料往往有两种不足:一种是过于学术化,关注于一个很窄的话题,读起来生涩难懂,缺乏一定学术背景的读者很难真正理解;另外一种是原理性的介绍,往往比较浅显,缺乏一定的深度,读者读起来总觉得意犹未尽。而本书是难得的一本佳作。一方面,它全面综合了信息检索领域的各类研究,融合了最新的研究成果;另一方面,它采用通俗易懂的行文方式,在关键点上采用了详尽的案例来解释抽象的过程,读者并不需要具备专业的数学背景就很容易掌握信息检索技术的精髓所在。
本书主要作为本科生或研究生信息检索课程的教材,也特别适合信息检索领域从事应用开发的研发人员使用。在国外,它已经被多所高校作为研究生与本科生的教材,广受好评。
我非常有幸应人民邮电出版社图灵公司之邀翻译这本信息检索领域的杰作。对我们来说,这是一次学习过程,也是多年研究工作的总结提炼过程。翻译从来就不是一件轻松的事,加之正赶上工作调动,在时间和精力上受到一定影响。但我们依然克服了各种困难,每周固定开会研讨,字斟句酌,抱着严谨的学术态度,尽可能忠实表达作者的原意,同时兼顾语言之美。在“苦行僧”式的翻译学习过程中,我们往往也会从作者敏捷的思维和精巧的话语中领略到一种无穷的智慧。
在此,我要感谢原作者Grossman与Frieder的卓越工作,感谢我的研究生忍受我的各种严格要求,感谢人民邮电出版社图灵公司给予我们这次学习的机会。同时,我要感谢北京理工大学计算机学院院长黄河燕教授在此工作过程中给我的支持,也要感谢中科院计算所网络重点实验室主任程学旗研究员对我在信息检索领域的指导。最后,我特别感谢我的妻子,感谢她在这段艰难的时光的默默支持。
本书翻译分工如下:由我负责翻译本书的第1章、第7章与第9章,我的研究生李恒训同学负责翻译第2章,刘治华同学负责翻译第3章,李恒训同学、秦鹏同学和周鹏同学负责翻译第4章和第5章,张京阳同学负责翻译第6章,蒋骈同学负责翻译第8章。另外,我对全书进行了多次全面的审校。
限于水平有限,错误在所难免,恳请读者批评指正。
张华平博士
E-mail: kevinzhang@bit.edu.cn
2010年1月25日于北京理工大学计算机语言信息处理研究所
前言回到顶部↑
我们在1998年写本书第1版时,Web还是比较新鲜的事物。实际上,信息检索是一个比较老的研究领域,只不过还没有引起广泛关注罢了。如今,Google已成为流行词汇,Google索引了网页40多亿页。1998年,只有几所学校为研究生开设了信息检索课程;而如今,信息检索在本科阶段都已普及。文献[Goharian等人,2004]总结了我们讲授本科生信息检索课程的经验,详细分析了在课堂上讨论的每个专题内容,并介绍了课程教学的效果。
信息检索指的是搜索任何形式的信息,包括结构化数据、文本、视频、图像、声音、乐谱、DNA序列等。事实是,多年来,数据库系统用来搜索结构化数据,信息检索则用来搜索文档。本书的作者原本就从事结构化搜索领域的研究,但是在过去十年的大部分时间里,都在研究文档的检索。对我们来说,客观世界的数据类型本身就是不可知的,因此,我们没有必要特别区分结构化数据与非结构化数据。1998年,我们在本书第1版中有一章内容专门讲述数据整合,书评人则认为,收录该部分内容的唯一原因就是它涉及我们最新的一些研究罢了。而现在,这种评述或者辩解已然没有任何意义了,因为我们已经引入了信息的中间表示结构(mediator),可以对结构化和非结构化数据同时进行操作。而且,XML(eXtensible Markup Language,可扩展标记语言)已经广泛地应用于数据库与信息检索领域。
我们主要关注ad hoc信息检索问题 。简单来说,ad hoc信息检索指的是针对用户提交的各种不同查询,搜索出相关的文档集合。像Google这样的系统可能已经解决了这个问题,但是,Google的性能评测并没有公布。一些经典系统的准确率最高也只能达到40%[TREC, 2003]。在对现有算法深入理解的基础上,我们仍有很大的改进空间。
市面上信息检索教材的内容相对散乱,并不适合我们的日常教学。这些教材在许多关键检索模型的细节上往往避而不谈。推理网络是许多系统都要用到的核心模型,但是,几乎没有教材详细介绍推理网络。另外,许多教材都没有详细描述系统的效率,即单一查询的执行速度。或许,对于那些只关注检索效果的人来说,检索效率能够引起的潜在兴趣特别有限;但是对于从业者来说,对效率的关注可以超越其他所有的指标。
另外,针对每种方法,我们都给出了详细可行的实例。当介绍具体方法时,我们很容易在细节方面轻描淡写,不过,实例可以让我们更忠实地阐述方法的本质所在。我们发现贯穿于整本书的一个实例能让学生们从中受益。值得一提的是,本书每个描述核心检索算法的章节要么经过了算法原创者的评审(我们感谢他们的慷慨奉献,更多的感谢详见致谢),要么经过了精通该算法的专家审校。因此,就我们所知,本书所述检索算法的诸多细节目前还很难在其他出版物中找到。
我们的目标是写一本特别专注于ad hoc信息检索的书。为达到这个目标,我们基于模型建立了本领域一套完整的分类体系,主要包括文档和查询比较的算法模型,以及一些可以内嵌到所有算法模型中对性能进行优化的实用策略。本书中介绍了所有的基本方法,还有一系列的工具集。我们提供了足够详尽的说明,阅读本书的学生或者其他读者都可以方便地实现其中的方法或者工具。Managing Gigabytes [Witten等人,1999]一书非常出色地阐述了倒排索引压缩的策略。我们引用了其中最新而且最有效的研究成果,但还是推荐读者将Managing Gigabytes作为本教材优秀的辅助读物。
在第2版中有什么新内容呢?许多核心的检索方法仍没有改变。自1998年以来,在信息检索领域引入语言模型的论文不计其数。因此,我们专门增加了语言模型的章节。跨语言信息检索(使用一种语言提交查询,而搜索出另一种语言的文档)在本书第1版刚问世时尚处于萌芽期,而如今它已经取得了长足的进步,我们在参考了最近100多篇相关文献之后,特别增加了一整章内容来介绍跨语言检索的最新研究进展。
自然而然,我们还讨论了许多当前的热点话题,比如XML、P2P信息检索、文本查重、文档并行聚类、不同检索策略的融合以及信息中间表示等。
最后,一些细心的本科生和研究生发现了上一版的一些错误,我们一一作了修正。这里,我们要感谢他们的努力。
本书主要作为本科生或研究生信息检索课程的教材。本书已经在我们的研究生课程中实际使用过,我们结合了同学们的反馈制作了一套与教材配套的幻灯片,可以在课堂教学过程中使用。这些资源可以从www.ir.iit.edu上获取。
另外,对于要搭建信息检索系统或相关应用程序的读者来说,如何选择恰当的检索方法和工具集用于产品开发,本书将会非常有用。我们曾收到几个读者来信,反映本书第1版对他们有帮助,我们将他们的意见和建议都吸收进了本书新版之中。
虽然我们强调本书的重点是算法而不是商用产品,但是据我们所知,本书中包含了大多数商用产品所采用的方法。我们相信读者或许会发现某些商用产品正在使用本书给出的信息检索方法,还能够将本书作为参考来更多地了解这些产品中采用的技术。
最后,我们注意到信息检索领域每天都在发生新的变化。有关本领域更多最新的研究成果,最好的资源有《ACM信息系统杂志》(the ACM Transactions on Information Systems)、《美国信息科学与技术学报》( the Journal of the American Society for Information Science and Technology)、《信息处理与管理》(Infornmtion Processing and Management)和《信息检索》(Information Retrieval)等杂志。其他相关论文可以查询各种信息检索会议,比如ACM SGIR (www.sigir.org)、NIST TREC(trec.nist.gov)、ACM CIKM (www.cikm.org)。
信息检索指的是搜索任何形式的信息,包括结构化数据、文本、视频、图像、声音、乐谱、DNA序列等。事实是,多年来,数据库系统用来搜索结构化数据,信息检索则用来搜索文档。本书的作者原本就从事结构化搜索领域的研究,但是在过去十年的大部分时间里,都在研究文档的检索。对我们来说,客观世界的数据类型本身就是不可知的,因此,我们没有必要特别区分结构化数据与非结构化数据。1998年,我们在本书第1版中有一章内容专门讲述数据整合,书评人则认为,收录该部分内容的唯一原因就是它涉及我们最新的一些研究罢了。而现在,这种评述或者辩解已然没有任何意义了,因为我们已经引入了信息的中间表示结构(mediator),可以对结构化和非结构化数据同时进行操作。而且,XML(eXtensible Markup Language,可扩展标记语言)已经广泛地应用于数据库与信息检索领域。
我们主要关注ad hoc信息检索问题 。简单来说,ad hoc信息检索指的是针对用户提交的各种不同查询,搜索出相关的文档集合。像Google这样的系统可能已经解决了这个问题,但是,Google的性能评测并没有公布。一些经典系统的准确率最高也只能达到40%[TREC, 2003]。在对现有算法深入理解的基础上,我们仍有很大的改进空间。
市面上信息检索教材的内容相对散乱,并不适合我们的日常教学。这些教材在许多关键检索模型的细节上往往避而不谈。推理网络是许多系统都要用到的核心模型,但是,几乎没有教材详细介绍推理网络。另外,许多教材都没有详细描述系统的效率,即单一查询的执行速度。或许,对于那些只关注检索效果的人来说,检索效率能够引起的潜在兴趣特别有限;但是对于从业者来说,对效率的关注可以超越其他所有的指标。
另外,针对每种方法,我们都给出了详细可行的实例。当介绍具体方法时,我们很容易在细节方面轻描淡写,不过,实例可以让我们更忠实地阐述方法的本质所在。我们发现贯穿于整本书的一个实例能让学生们从中受益。值得一提的是,本书每个描述核心检索算法的章节要么经过了算法原创者的评审(我们感谢他们的慷慨奉献,更多的感谢详见致谢),要么经过了精通该算法的专家审校。因此,就我们所知,本书所述检索算法的诸多细节目前还很难在其他出版物中找到。
我们的目标是写一本特别专注于ad hoc信息检索的书。为达到这个目标,我们基于模型建立了本领域一套完整的分类体系,主要包括文档和查询比较的算法模型,以及一些可以内嵌到所有算法模型中对性能进行优化的实用策略。本书中介绍了所有的基本方法,还有一系列的工具集。我们提供了足够详尽的说明,阅读本书的学生或者其他读者都可以方便地实现其中的方法或者工具。Managing Gigabytes [Witten等人,1999]一书非常出色地阐述了倒排索引压缩的策略。我们引用了其中最新而且最有效的研究成果,但还是推荐读者将Managing Gigabytes作为本教材优秀的辅助读物。
在第2版中有什么新内容呢?许多核心的检索方法仍没有改变。自1998年以来,在信息检索领域引入语言模型的论文不计其数。因此,我们专门增加了语言模型的章节。跨语言信息检索(使用一种语言提交查询,而搜索出另一种语言的文档)在本书第1版刚问世时尚处于萌芽期,而如今它已经取得了长足的进步,我们在参考了最近100多篇相关文献之后,特别增加了一整章内容来介绍跨语言检索的最新研究进展。
自然而然,我们还讨论了许多当前的热点话题,比如XML、P2P信息检索、文本查重、文档并行聚类、不同检索策略的融合以及信息中间表示等。
最后,一些细心的本科生和研究生发现了上一版的一些错误,我们一一作了修正。这里,我们要感谢他们的努力。
本书主要作为本科生或研究生信息检索课程的教材。本书已经在我们的研究生课程中实际使用过,我们结合了同学们的反馈制作了一套与教材配套的幻灯片,可以在课堂教学过程中使用。这些资源可以从www.ir.iit.edu上获取。
另外,对于要搭建信息检索系统或相关应用程序的读者来说,如何选择恰当的检索方法和工具集用于产品开发,本书将会非常有用。我们曾收到几个读者来信,反映本书第1版对他们有帮助,我们将他们的意见和建议都吸收进了本书新版之中。
虽然我们强调本书的重点是算法而不是商用产品,但是据我们所知,本书中包含了大多数商用产品所采用的方法。我们相信读者或许会发现某些商用产品正在使用本书给出的信息检索方法,还能够将本书作为参考来更多地了解这些产品中采用的技术。
最后,我们注意到信息检索领域每天都在发生新的变化。有关本领域更多最新的研究成果,最好的资源有《ACM信息系统杂志》(the ACM Transactions on Information Systems)、《美国信息科学与技术学报》( the Journal of the American Society for Information Science and Technology)、《信息处理与管理》(Infornmtion Processing and Management)和《信息检索》(Information Retrieval)等杂志。其他相关论文可以查询各种信息检索会议,比如ACM SGIR (www.sigir.org)、NIST TREC(trec.nist.gov)、ACM CIKM (www.cikm.org)。
序言回到顶部↑
正如格劳斯曼(Grossman)和弗里德(Frieder)在“前言”中所述,信息检索(IR)在过去5年里取得了相当大的进步。对普通人来说,这种进步充分体现在网络商用搜索引擎的日趋成熟;对从事信息检索的人来说,5年来的进步拓展了网络搜索问题的研究范畴,并突破了诸多局限,随着基础体系架构和信息检索模型的发展,整个检索过程不断地引入了新的视角,同时开展了一系列令人振奋的应用,比如跨语言检索、P2P搜索和音乐检索,这些都极大地拓宽了信息检索研究的疆域。数据库与信息检索这两个不同领域的学者逐步达成共识:必须整合非结构化与结构化数据的处理技术,我们才能够真正解决未来社会的信息问题。本书阐述了许多这方面的重要进展,也是迄今为止唯一一本这样做的教科书。
本书让我印象最深的两个例子是信息检索语言模型和跨语言检索。语言模型强大而简洁,而且在搭建很多实验和应用时可以使用许多现成的工具,因此很多研究人员都在采用这一模型,并且语言模型已经成为主流信息检索学术会议研究的重要课题。格劳斯曼和弗里德在第2章中很好地概述了这一课题,同时也给出了不同平滑技术的例子。跨语言检索是指采用某种语言检索其他多种语言的文本内容,欧洲和美国政府存在广泛的实际需求,这也一直推动着跨语言检索的迅猛发展。充分利用平行语料库和可比语料库,人们研制了一些方法,这些系统的性能现在已接近(在某些方面甚至已超越)单一语言的检索系统。本书专门增加了一章跨语言检索的内容,清晰地阐述了跨语言检索的主要方法,并给出了示例来具体说明如何在真实数据上执行算法。本书覆盖了最新的研究成果,采用准确直接的语言,同时频繁使用了大量实例,可作为研究生或本科生信息检索课程的首选教材。
W. 布鲁斯·克劳福特(W. Bruce Croft)
2004年8月
本书让我印象最深的两个例子是信息检索语言模型和跨语言检索。语言模型强大而简洁,而且在搭建很多实验和应用时可以使用许多现成的工具,因此很多研究人员都在采用这一模型,并且语言模型已经成为主流信息检索学术会议研究的重要课题。格劳斯曼和弗里德在第2章中很好地概述了这一课题,同时也给出了不同平滑技术的例子。跨语言检索是指采用某种语言检索其他多种语言的文本内容,欧洲和美国政府存在广泛的实际需求,这也一直推动着跨语言检索的迅猛发展。充分利用平行语料库和可比语料库,人们研制了一些方法,这些系统的性能现在已接近(在某些方面甚至已超越)单一语言的检索系统。本书专门增加了一章跨语言检索的内容,清晰地阐述了跨语言检索的主要方法,并给出了示例来具体说明如何在真实数据上执行算法。本书覆盖了最新的研究成果,采用准确直接的语言,同时频繁使用了大量实例,可作为研究生或本科生信息检索课程的首选教材。
W. 布鲁斯·克劳福特(W. Bruce Croft)
2004年8月
媒体评论回到顶部↑
本书涉及最新的研究成果,语言经得起推敲,还精心准备了大量的实例说明,适合作为研究生和本科生信息检索课程的首选教材。
——美国马萨诸塞大学阿默斯特校区计算机科学系杰出教授W.Bruce Croft
推荐把本书作为计算机科学专业学生的首选教材,同时也适用于SEO专业人员和Web开发者阅读,书中介绍的搜索技术、算法和探索法可以运用于他们的项目中。
——信息技术与服务顾问E. Garcia博士
——美国马萨诸塞大学阿默斯特校区计算机科学系杰出教授W.Bruce Croft
推荐把本书作为计算机科学专业学生的首选教材,同时也适用于SEO专业人员和Web开发者阅读,书中介绍的搜索技术、算法和探索法可以运用于他们的项目中。
——信息技术与服务顾问E. Garcia博士
【插图】







点击看大图







加载中...

