信息检索导论(讲授信息检索的经典教材)(china-pub首发)
基本信息
- 作者: (美)Christopher D. Manning (美)Prabhakar Raghavan (德)Hinrich Schutze [作译者介绍]
- 译者: 王斌
- 丛书名: 图灵计算机科学
- 出版社:人民邮电出版社
- ISBN:9787115234247
- 上架时间:2010-9-1
- 出版日期:2010 年9月
- 开本:16开
- 页码:369
- 版次:1-1
- 所属分类:
计算机 > 信息系统 > 综合
推荐阅读
内容简介回到顶部↑
《信息检索导论》是一本讲授信息检索的经典教材。全书共21章,前8章详述了信息检索的基础知识,包括倒排索引、布尔检索及词项权重计算和评分算法等,后13章介绍了一些高级话题,如基于语言建模的信息检索模型、基于机器学习的排序方法和web搜索技术等。另外,《信息检索导论》还着重讨论了文本聚类技术这一信息检索中不可或缺的组成部分。全书语言流畅,由浅入深,一气呵成。
《信息检索导论》适合作为高等院校相关专业高年级本科生和研究生的课程教材,也可供信息检索领域的研究人员和专业人士参考。
作译者回到顶部↑
本书提供作译者介绍
Christopher D. Manning,1989年毕业于澳大利亚国立大学,1995年获斯坦福大学语言学博士学位,曾先后在卡内基-梅隆大学、悉尼大学教授语言学,1999年起任斯坦福大学计算机科学和语言学副教授,其主要研究方向是统计自然语言处理、信息提取与表示,以及文本理解和文本挖掘等。
Prabhakar Raghavan,毕业于印度理工学院,后获加州大学伯克利分校计算机科学博士学位,自2005年起担任Yahoo!研究中心负责人,同时也是斯坦福大学计算机科学系顾问教授。其主要研究方向是文本及Web数据挖掘、组合优化、随.. << 查看详细
Prabhakar Raghavan,毕业于印度理工学院,后获加州大学伯克利分校计算机科学博士学位,自2005年起担任Yahoo!研究中心负责人,同时也是斯坦福大学计算机科学系顾问教授。其主要研究方向是文本及Web数据挖掘、组合优化、随.. << 查看详细
目录回到顶部↑
第1章 布尔检索
1.1 一个信息检索的例子
1.2 构建倒排索引的初体验
1.3 布尔查询的处理
1.4 对基本布尔操作的扩展及有序检索
1.5 参考文献及补充读物
第2章 词项词典及倒排记录表
2.1 文档分析及编码转换
2.1.1 字符序列的生成
2.1.2 文档单位的选择
2.2 词项集合的确定
2.2.1 词条化
2.2.2 去除停用词
2.2.3 词项归一化
2.2.4 词干还原和词形归并
2.3 基于跳表的倒排记录表快速合并算法
2.4 含位置信息的倒排记录表及短语查询
2.4.1 二元词索引
2.4.2 位置信息索引
译者序回到顶部↑
第一次见到这本书的电子版是在2007年的年底,当时北京大学的闫宏飞博士向我推荐了这本书。从网上下载书稿的电子版之后,我便迫不及待地在一周时间内通读了这本书。读完之后便萌发了翻译这本书的冲动,随后我就联系作者、联系剑桥大学出版社并通过朋友寻找获得授权的国内出版社。辗转数月之后,我被告知该书已经交由其他学者翻译,很快便可出版。听到这个消息,虽然我有些遗憾,但也算是心里的一块石头得以落地。所以,当去年8月人民邮电出版社突然联系并询问我是否有意翻译这本著作时,我心里的惊讶可想而知。当然,惊讶之余我毫不犹豫地接受了这份邀请,并从此开始了长达数月的翻译历程。
之所以愿意翻译这本书不仅仅是由于该书的作者都是学术界甚至业界鼎鼎大名的人物,更主要的是因为本书在内容和组织上都有独到之处。之前也有很多信息检索方面的教材,但是其中很多内容已经过时。信息检索是一门不断发展并和其他领域、技术不断融合的学科。这本书补充了一些近年来受到广泛关注的新内容。比如:基于语言建模的信息检索模型、基于机器学习的排序方法、检索结果的Snippet生成、聚类标签生成、XML检索、搜索广告、网页作弊,等等。除此之外,本书每章末尾的“参考文献及补充读物”一节也给出了相关技术的最新进展。本书在内容上与传统教材的另一个显著不同之处是加大了文本分类/聚类技术的介绍篇幅,实际上这些技术已经成为当代信息检索不可分割的一部分。另一方面,本书在深度上超过了大部分传统教材。在介绍信息检索技术的同时,本书深入介绍了其背后所依赖的原理。因此,本书不仅可以用作信息检索领域的入门教材,还能满足对该领域进行深入研究的需要。另外,本书给出了很多实际当中的运行算法和实施细节,这些内容对于信息检索技术的实际应用有很好的参考价值。最后值得一提的是,本书在结构上也进行了巧妙构思。首先通过一个例子引出基本技术,然后通过基本技术的不断增强来介绍信息检索的其他技术。全书浑然一体,读起来也有一气呵成的感觉。
这么一本优秀的著作在给译者的翻译带来无穷动力的同时,无疑也给翻译带来了无形的压力。为了尽量保证每章译稿的质量并保持译文的前后一致性,整本书的初译工作全部由译者本人独立完成,在翻译过程中译者也阅读了大量相关的教材和论文,并前后进行了六次自我校对。在校对过程中,有很多学术界同仁也提出了很多宝贵的意见和建议。他们包括:中科院研究生院的朱廷劭教授、中科院自动化所的赵军研究员、中科院软件所的孙乐研究员、复旦大学的黄萱菁教授、江西师范大学的王明文教授、江西财经大学的刘德喜博士、北京大学的闫宏飞博士、何靖博士、清华大学的张敏博士、北京语言大学的徐燕博士等。译者所在的中科院计算所信息检索课题组及选修研究生院《现代信息检索》课程的部分学生也提出了大量修改建议,他们是:郎皓、李亚楠、顾智宇、李鹏、李锐、马宏远、张爱华、蒋在帆、沈沉、史亮、卫冰洁、崔雅超、赵琴琴、李恒训、袁平广、邱泳钦、李丹、鲁凯、徐飞、张帅、张启龙、廖凤、钟进文、朱亮、赵娟等。对于他们无私的帮助,我表示由衷的感谢。感谢我所在的前瞻研究实验室主任李锦涛老师对我的翻译工作给予的支持和肯定。当然,本书的翻译工作得以顺利完成,还要感谢人民邮电出版社众多工作人员特别是责任编辑杨海玲女士在各方面的支持和帮助。另一个需要感谢的是我的妻子,在前前后后近八个月当中,除上班时间完成自己的科研工作外,我几乎所有的业余时间都用在翻译和校对上,而她却默默地承担起两岁的儿子的所有抚育责任。
翻译的过程中,我还有幸与原文的第二作者Prabhakar Raghavan教授进行了当面交流,他对我的翻译工作给予了极大鼓励。在与原文作者的邮件交流中,我也澄清了一些理解上的误区,并修正了原书中的多处错误。
虽然得到了众人的帮助,自己也算认真努力,但由于本人专业水平、理解能力和写作功底都十分有限,加上时间上仍显仓促,最后的译稿中一定存在不少理解上的偏差,译文也会有许多生硬之处。希望读者能不吝提出修改的意见和建议,以便对现有译稿不断改进,直至为国内信息检索领域的读者真正造福为止。来信请联系wbxjj2008@gmail.com,对译稿的修改结果也会及时公布在网站http://ir.ict.ac.cn/~wangbin/iir-book/上。原书的初稿电子版、相关课件、勘误表、论坛等信息也可以从网站http://nlp.stanford.edu/IR-book/ information-retrieval-book.html下载。
译者简介
王斌 博士,中国科学院计算技术研究所前瞻研究实验室信息检索课题组组长,副研究员,博士生导师。主持国家973、863、国家自然科学基金、国际合作基金、部委及企业合作等课题20余项,在包括SIGIR、CIKM、EMNLP等在内的会议和刊物上发表学术论文100余篇。担任CIKM、AIRS、CCIR、SEWM等国际国内会议的程序委员会委员,同时是ACM和IEEE会员、中国计算机学会高级会员、中国中文信息学会会员、中文信息学会信息检索专业委员会委员及《中文信息学报》编委。自2006年起在中国科学院研究生院讲授《现代信息检索》研究生课程,迄今培养博士、硕士研究生近30名。
之所以愿意翻译这本书不仅仅是由于该书的作者都是学术界甚至业界鼎鼎大名的人物,更主要的是因为本书在内容和组织上都有独到之处。之前也有很多信息检索方面的教材,但是其中很多内容已经过时。信息检索是一门不断发展并和其他领域、技术不断融合的学科。这本书补充了一些近年来受到广泛关注的新内容。比如:基于语言建模的信息检索模型、基于机器学习的排序方法、检索结果的Snippet生成、聚类标签生成、XML检索、搜索广告、网页作弊,等等。除此之外,本书每章末尾的“参考文献及补充读物”一节也给出了相关技术的最新进展。本书在内容上与传统教材的另一个显著不同之处是加大了文本分类/聚类技术的介绍篇幅,实际上这些技术已经成为当代信息检索不可分割的一部分。另一方面,本书在深度上超过了大部分传统教材。在介绍信息检索技术的同时,本书深入介绍了其背后所依赖的原理。因此,本书不仅可以用作信息检索领域的入门教材,还能满足对该领域进行深入研究的需要。另外,本书给出了很多实际当中的运行算法和实施细节,这些内容对于信息检索技术的实际应用有很好的参考价值。最后值得一提的是,本书在结构上也进行了巧妙构思。首先通过一个例子引出基本技术,然后通过基本技术的不断增强来介绍信息检索的其他技术。全书浑然一体,读起来也有一气呵成的感觉。
这么一本优秀的著作在给译者的翻译带来无穷动力的同时,无疑也给翻译带来了无形的压力。为了尽量保证每章译稿的质量并保持译文的前后一致性,整本书的初译工作全部由译者本人独立完成,在翻译过程中译者也阅读了大量相关的教材和论文,并前后进行了六次自我校对。在校对过程中,有很多学术界同仁也提出了很多宝贵的意见和建议。他们包括:中科院研究生院的朱廷劭教授、中科院自动化所的赵军研究员、中科院软件所的孙乐研究员、复旦大学的黄萱菁教授、江西师范大学的王明文教授、江西财经大学的刘德喜博士、北京大学的闫宏飞博士、何靖博士、清华大学的张敏博士、北京语言大学的徐燕博士等。译者所在的中科院计算所信息检索课题组及选修研究生院《现代信息检索》课程的部分学生也提出了大量修改建议,他们是:郎皓、李亚楠、顾智宇、李鹏、李锐、马宏远、张爱华、蒋在帆、沈沉、史亮、卫冰洁、崔雅超、赵琴琴、李恒训、袁平广、邱泳钦、李丹、鲁凯、徐飞、张帅、张启龙、廖凤、钟进文、朱亮、赵娟等。对于他们无私的帮助,我表示由衷的感谢。感谢我所在的前瞻研究实验室主任李锦涛老师对我的翻译工作给予的支持和肯定。当然,本书的翻译工作得以顺利完成,还要感谢人民邮电出版社众多工作人员特别是责任编辑杨海玲女士在各方面的支持和帮助。另一个需要感谢的是我的妻子,在前前后后近八个月当中,除上班时间完成自己的科研工作外,我几乎所有的业余时间都用在翻译和校对上,而她却默默地承担起两岁的儿子的所有抚育责任。
翻译的过程中,我还有幸与原文的第二作者Prabhakar Raghavan教授进行了当面交流,他对我的翻译工作给予了极大鼓励。在与原文作者的邮件交流中,我也澄清了一些理解上的误区,并修正了原书中的多处错误。
虽然得到了众人的帮助,自己也算认真努力,但由于本人专业水平、理解能力和写作功底都十分有限,加上时间上仍显仓促,最后的译稿中一定存在不少理解上的偏差,译文也会有许多生硬之处。希望读者能不吝提出修改的意见和建议,以便对现有译稿不断改进,直至为国内信息检索领域的读者真正造福为止。来信请联系wbxjj2008@gmail.com,对译稿的修改结果也会及时公布在网站http://ir.ict.ac.cn/~wangbin/iir-book/上。原书的初稿电子版、相关课件、勘误表、论坛等信息也可以从网站http://nlp.stanford.edu/IR-book/ information-retrieval-book.html下载。
译者简介
王斌 博士,中国科学院计算技术研究所前瞻研究实验室信息检索课题组组长,副研究员,博士生导师。主持国家973、863、国家自然科学基金、国际合作基金、部委及企业合作等课题20余项,在包括SIGIR、CIKM、EMNLP等在内的会议和刊物上发表学术论文100余篇。担任CIKM、AIRS、CCIR、SEWM等国际国内会议的程序委员会委员,同时是ACM和IEEE会员、中国计算机学会高级会员、中国中文信息学会会员、中文信息学会信息检索专业委员会委员及《中文信息学报》编委。自2006年起在中国科学院研究生院讲授《现代信息检索》研究生课程,迄今培养博士、硕士研究生近30名。
前言回到顶部↑
研究表明,直到20世纪90年代,大多数人还是首选通过别人而不是使用信息检索系统来获取信息。当然,那时候大多数人也往往通过旅行社来安排自己的行程。然而,在过去的十年中,信息检索效果的不断优化已经使Web搜索引擎的质量达到了一个新的水平,大多数用户在大部分情况下都对搜索的结果感到满意。Web搜索引擎已经成为用户发现和获取信息的常规和首选渠道。以统计数据为证,2004年美国Pew研究中心的一项因特网调查 (Fallows 2004)结果表明,有92%的因特网用户认为因特网是人们获取日常信息的良好渠道。令很多人惊讶的是,信息检索也从一个以学术研究为主的领域,摇身一变而成为人们赖以获取日常信息的工具背后的基础学科。本书主要介绍该学科的核心理论基础,既考虑研究生科研的需求,也兼顾了高年级本科生学习的需求。
但是,信息检索并非始于Web。在应对信息存取的各种挑战的过程中,信息检索逐渐发展成为一门给各种形式的内容搜索提供原理性方法的学科。信息检索起初主要面向科学文献和馆藏记录,但是很快就扩展到其他形式的内容,特别是新闻记者、律师、医生等特定领域专业人士所需的信息内容。信息检索中的很多学术研究都围绕上述内容展开,而其实践方面则主要是为公司或政府部门提供非结构化信息的获取服务,这些领域的研究和实践构成了本书的主要内容。
然而,近年来信息检索革新的主要推动力却来自万维网,因为网络上聚集了数以千万计的网络用户发布的内容。如果这些内容不能及时被发现、标注和分析,并为有需求的人们提供相关的、全面的信息,那么它们的存在将毫无意义。到20世纪90年代末,很多人逐渐意识到,由于Web的规模呈指数级增长,继续给整个Web建立索引很快会变得毫无可能。但是,卓越的科学创新、一流的工程水平、日益低廉的计算机硬件价格及Web搜索商业化基础的壮大等一系列因素,促成了当今主流搜索引擎的产生与成长。这些搜索引擎一天之内能够完成对数十亿网页的数亿次搜索请求,并且每次搜索都能够在亚秒级时间内返回高质量的结果。
本书组织结构及课程设计
本书是我们在斯坦福大学和斯图加特大学所讲授的一系列课程的教学成果总结。这些课程持续的时间从四分之一学期、半学期到一学期不等,主要面向低年级计算机专业的研究生,也曾用于高年级计算机专业的本科生和法律、医学信息学、统计、语言学及其他工程学科背景的学生的教学。因此,本书主要的写作原则是提供一个学期的信息检索研究生课程,并尽量覆盖信息检索的学科重点。另一个原则是尽量让每章的内容能在约75~90分钟内讲授完。
本书前8章介绍信息检索的基础知识,特别是搜索引擎的核心理论。这八章对于任何信息检索课程来说都是核心部分。第1章主要介绍倒排索引,并说明如何通过这种索引实现简单的布尔查询。第2章介绍索引之前的文档预处理过程,并讨论在不同的功能和速度要求下对倒排索引进行改进的方法。第3章主要介绍词典搜索的数据结构,并给出查询存在拼写错误或者与被搜索的文档中的词汇不能精确匹配时的处理方法。第4章主要介绍基于文本集合构建倒排索引的几个算法,并着重介绍具有高扩展性的分布式算法,这类算法适用于大规模文档集的索引构建。第5章介绍词典和倒排索引的压缩技术,这些技术对于实现大型搜索引擎的亚秒级查询响应十分关键。第1~5章中介绍的索引和查询仅针对布尔检索(Boolean retrieval),即一篇文档和查询要么匹配,要么不匹配。那么,如何度量查询和文档的匹配程度,或者说如何根据文档和查询的匹配情况对结果打分呢?对这个问题的回答构成了第6、第7章词项权重计算和评分算法的主要内容。也就说是,给定查询,我们可以利用这两章介绍的技术,按照文档评分的结果次序输出结果列表。第8章主要介绍信息检索系统的评价技术,即根据检索系统返回结果的相关性对不同系统进行评价,从而可以在基准文档集和查询上对不同系统的性能进行比较。
在前8章的基础上,本书的第9~21章涵盖了信息检索的一些高级话题。第9章介绍了相关反馈和查询扩展技术,其目的在于增加相关文档返回的可能性。第10章介绍了采用XML和HTML等标记语言的结构化文档的检索,这其中我们将结构化文档的检索进行约简,并采用第6章所介绍的向量空间模型进行求解。第11章和第12章介绍基于概率论的信息检索模型。其中,第11章介绍传统的概率检索模型,它提供了一个相关度计算框架,在给定一系列查询词项时,能够计算一篇文档与查询相关的概率。这个概率显然可以用于文档的评分和排序。第12章给出了另一种方法,即对文档集中的每篇文档建立一个语言模型,然后在每个模型下估计查询生成的概率。这个概率也显然可以用于文档的评分和排序。
第13~18章介绍了信息检索中各种形式的机器学习和数值方法。第13~15章主要关注文档分类的问题,即在给定一系列文档及其归属类别的前提下,将新文档分配到某个或者某几个类别中去。第13章首先指出统计分类是一个成功的搜索引擎所必需的关键技术之一,接着介绍了朴素贝叶斯算法(该算法概念虽然简单,但是文本分类的效率很高),最后给出了文本分类的评价技术。第14章将第6章所讲述的向量空间模型应用于文本分类,介绍了几种基于向量空间模型的分类方法,主要包括Rocchio和kNN(k nearest neighbor)两种分类算法。本章最后给出了用于分类方法选择的偏差—方差折中准则,而偏差—方差折中也是学习问题的一个重要特点。第15章介绍了支持向量机,这是目前公认的效果最好的文本分类算法。另外,本章还将分类问题和一些看上去与文本分类无关的问题(比如如何从给定的训练集合中推导出检索的评分函数)联系起来。
第16~18章主要介绍文档的聚类技术。第16章在概述信息检索中的一些重要聚类应用的基础上,主要介绍了两个扁平聚类算法:K—均值算法和EM算法。前者是一个效率很高并被广泛应用的算法;后者虽然计算复杂度高一些,但是灵活性更好。第17章介绍信息检索对层次聚类(而非扁平聚类)的应用需求,并介绍了一些能产生层次簇结构的聚类算法。这一章还探讨了自动生成聚类标签的难题。第18章介绍了一些线性代数的方法,它们是对聚类方法的扩展,并且为线性代数方法在信息检索的应用提供了极具吸引力的前景,其中最具代表性的方法是隐性语义索引。
第19~21章主要介绍Web搜索这个具体的应用。第19章概述了Web搜索所面临的基本挑战,并给出了Web信息检索中的一些普遍使用的技术。第20章介绍了一个基本网络采集器的体系结构和必要需求。最后,第21章讨论了链接分析在Web搜索中的作用,其中用到了线性代数和高级概率论中的方法。
本书并没有囊括信息检索的所有主题,因为有些主题超出了信息检索入门课程的范围。当然,感兴趣的读者可以参见如下参考书籍。
Cross-language IR(跨语言检索):Grossman and Frieder 2004,第4章;Oard and Dorr 1996。
Image and multimedia IR(图像和多媒体检索):Grossman and Frieder 2004,第4章;Baeza-Yates and Ribeiro-Neto 1999,第6、11和12章;del Bimbo 1999;Lew 2001;Smeulders et al.2000。
Speech retrieval(语音检索):Coden et al.2002。
Music retrieval(音乐检索):Downie 2006 及网站 http://www.ismir.net/。
User interfaces for IR(信息检索中的用户界面):Baeza-Yates and Ribeiro-Neto 1999,第10章。
Parallel and peer-to-peer IR(并行和p2p检索):Grossman and Frieder 2004,第7章;Baeza-Yates and Ribeiro-Neto 1999,第9章;Aberer 2001。
Digital libraries(数字图书馆):Baeza-Yates and Ribeiro-Neto 1999,第15章;Lesk 2004。
Information science perspective(基于信息科学视角的信息检索):Korfhage 1997;Meadow et al.1999;Ingwersen and J?rvelin 2005。
Logic-based approaches to IR (基于逻辑的信息检索):van Rijsbergen 1989。
但是,信息检索并非始于Web。在应对信息存取的各种挑战的过程中,信息检索逐渐发展成为一门给各种形式的内容搜索提供原理性方法的学科。信息检索起初主要面向科学文献和馆藏记录,但是很快就扩展到其他形式的内容,特别是新闻记者、律师、医生等特定领域专业人士所需的信息内容。信息检索中的很多学术研究都围绕上述内容展开,而其实践方面则主要是为公司或政府部门提供非结构化信息的获取服务,这些领域的研究和实践构成了本书的主要内容。
然而,近年来信息检索革新的主要推动力却来自万维网,因为网络上聚集了数以千万计的网络用户发布的内容。如果这些内容不能及时被发现、标注和分析,并为有需求的人们提供相关的、全面的信息,那么它们的存在将毫无意义。到20世纪90年代末,很多人逐渐意识到,由于Web的规模呈指数级增长,继续给整个Web建立索引很快会变得毫无可能。但是,卓越的科学创新、一流的工程水平、日益低廉的计算机硬件价格及Web搜索商业化基础的壮大等一系列因素,促成了当今主流搜索引擎的产生与成长。这些搜索引擎一天之内能够完成对数十亿网页的数亿次搜索请求,并且每次搜索都能够在亚秒级时间内返回高质量的结果。
本书组织结构及课程设计
本书是我们在斯坦福大学和斯图加特大学所讲授的一系列课程的教学成果总结。这些课程持续的时间从四分之一学期、半学期到一学期不等,主要面向低年级计算机专业的研究生,也曾用于高年级计算机专业的本科生和法律、医学信息学、统计、语言学及其他工程学科背景的学生的教学。因此,本书主要的写作原则是提供一个学期的信息检索研究生课程,并尽量覆盖信息检索的学科重点。另一个原则是尽量让每章的内容能在约75~90分钟内讲授完。
本书前8章介绍信息检索的基础知识,特别是搜索引擎的核心理论。这八章对于任何信息检索课程来说都是核心部分。第1章主要介绍倒排索引,并说明如何通过这种索引实现简单的布尔查询。第2章介绍索引之前的文档预处理过程,并讨论在不同的功能和速度要求下对倒排索引进行改进的方法。第3章主要介绍词典搜索的数据结构,并给出查询存在拼写错误或者与被搜索的文档中的词汇不能精确匹配时的处理方法。第4章主要介绍基于文本集合构建倒排索引的几个算法,并着重介绍具有高扩展性的分布式算法,这类算法适用于大规模文档集的索引构建。第5章介绍词典和倒排索引的压缩技术,这些技术对于实现大型搜索引擎的亚秒级查询响应十分关键。第1~5章中介绍的索引和查询仅针对布尔检索(Boolean retrieval),即一篇文档和查询要么匹配,要么不匹配。那么,如何度量查询和文档的匹配程度,或者说如何根据文档和查询的匹配情况对结果打分呢?对这个问题的回答构成了第6、第7章词项权重计算和评分算法的主要内容。也就说是,给定查询,我们可以利用这两章介绍的技术,按照文档评分的结果次序输出结果列表。第8章主要介绍信息检索系统的评价技术,即根据检索系统返回结果的相关性对不同系统进行评价,从而可以在基准文档集和查询上对不同系统的性能进行比较。
在前8章的基础上,本书的第9~21章涵盖了信息检索的一些高级话题。第9章介绍了相关反馈和查询扩展技术,其目的在于增加相关文档返回的可能性。第10章介绍了采用XML和HTML等标记语言的结构化文档的检索,这其中我们将结构化文档的检索进行约简,并采用第6章所介绍的向量空间模型进行求解。第11章和第12章介绍基于概率论的信息检索模型。其中,第11章介绍传统的概率检索模型,它提供了一个相关度计算框架,在给定一系列查询词项时,能够计算一篇文档与查询相关的概率。这个概率显然可以用于文档的评分和排序。第12章给出了另一种方法,即对文档集中的每篇文档建立一个语言模型,然后在每个模型下估计查询生成的概率。这个概率也显然可以用于文档的评分和排序。
第13~18章介绍了信息检索中各种形式的机器学习和数值方法。第13~15章主要关注文档分类的问题,即在给定一系列文档及其归属类别的前提下,将新文档分配到某个或者某几个类别中去。第13章首先指出统计分类是一个成功的搜索引擎所必需的关键技术之一,接着介绍了朴素贝叶斯算法(该算法概念虽然简单,但是文本分类的效率很高),最后给出了文本分类的评价技术。第14章将第6章所讲述的向量空间模型应用于文本分类,介绍了几种基于向量空间模型的分类方法,主要包括Rocchio和kNN(k nearest neighbor)两种分类算法。本章最后给出了用于分类方法选择的偏差—方差折中准则,而偏差—方差折中也是学习问题的一个重要特点。第15章介绍了支持向量机,这是目前公认的效果最好的文本分类算法。另外,本章还将分类问题和一些看上去与文本分类无关的问题(比如如何从给定的训练集合中推导出检索的评分函数)联系起来。
第16~18章主要介绍文档的聚类技术。第16章在概述信息检索中的一些重要聚类应用的基础上,主要介绍了两个扁平聚类算法:K—均值算法和EM算法。前者是一个效率很高并被广泛应用的算法;后者虽然计算复杂度高一些,但是灵活性更好。第17章介绍信息检索对层次聚类(而非扁平聚类)的应用需求,并介绍了一些能产生层次簇结构的聚类算法。这一章还探讨了自动生成聚类标签的难题。第18章介绍了一些线性代数的方法,它们是对聚类方法的扩展,并且为线性代数方法在信息检索的应用提供了极具吸引力的前景,其中最具代表性的方法是隐性语义索引。
第19~21章主要介绍Web搜索这个具体的应用。第19章概述了Web搜索所面临的基本挑战,并给出了Web信息检索中的一些普遍使用的技术。第20章介绍了一个基本网络采集器的体系结构和必要需求。最后,第21章讨论了链接分析在Web搜索中的作用,其中用到了线性代数和高级概率论中的方法。
本书并没有囊括信息检索的所有主题,因为有些主题超出了信息检索入门课程的范围。当然,感兴趣的读者可以参见如下参考书籍。
Cross-language IR(跨语言检索):Grossman and Frieder 2004,第4章;Oard and Dorr 1996。
Image and multimedia IR(图像和多媒体检索):Grossman and Frieder 2004,第4章;Baeza-Yates and Ribeiro-Neto 1999,第6、11和12章;del Bimbo 1999;Lew 2001;Smeulders et al.2000。
Speech retrieval(语音检索):Coden et al.2002。
Music retrieval(音乐检索):Downie 2006 及网站 http://www.ismir.net/。
User interfaces for IR(信息检索中的用户界面):Baeza-Yates and Ribeiro-Neto 1999,第10章。
Parallel and peer-to-peer IR(并行和p2p检索):Grossman and Frieder 2004,第7章;Baeza-Yates and Ribeiro-Neto 1999,第9章;Aberer 2001。
Digital libraries(数字图书馆):Baeza-Yates and Ribeiro-Neto 1999,第15章;Lesk 2004。
Information science perspective(基于信息科学视角的信息检索):Korfhage 1997;Meadow et al.1999;Ingwersen and J?rvelin 2005。
Logic-based approaches to IR (基于逻辑的信息检索):van Rijsbergen 1989。
媒体评论回到顶部↑
“什么是排序SVM、XML、DNS和LSI?什么是信息检索中的垃圾信息、隐藏页和门页?MapReduce和其他一些并行运算方法是如何实现由兆字节(MB)到百万兆字节(PB)的飞跃的?这些问题在本书中你都能找到答案。本书首次将构建Web搜索引擎的复杂过程以一种清晰的全景方式展现给读者。”
——Peter Norvig,Google公司研究主管
“本书对信息检索这个举足轻重而又发展迅猛的领域进行了全面、新颖、准确的介绍,我们非常需要这样一本教科书。”
——Raymond J. Mooney,得克萨斯大学奥斯汀分校教授
“此书内容新颖,选材独特,对信息检索的基础知识和发展方向进行了生动的描述。”
——Jon Kleinberg,康奈尔大学教授
“我是信息检索领域的新手,我非常喜欢这本书。丰富的细节以及实践与理论的完美结合使得阅读本书充满了乐趣。”
——亚马逊读者评论
“这是我读过的关于信息检索的第一本书,我认为它非常完美!它涵盖了信息检索领域所有的前瞻思想,并且内容明了,简单易懂。”
——亚马逊读者评论
“这本书形象地将读者带入了信息检索领域的核心,并分类介绍了搜索引擎的核心技术,具有十分高的实用性。”
——亚马逊读者评论
——Peter Norvig,Google公司研究主管
“本书对信息检索这个举足轻重而又发展迅猛的领域进行了全面、新颖、准确的介绍,我们非常需要这样一本教科书。”
——Raymond J. Mooney,得克萨斯大学奥斯汀分校教授
“此书内容新颖,选材独特,对信息检索的基础知识和发展方向进行了生动的描述。”
——Jon Kleinberg,康奈尔大学教授
“我是信息检索领域的新手,我非常喜欢这本书。丰富的细节以及实践与理论的完美结合使得阅读本书充满了乐趣。”
——亚马逊读者评论
“这是我读过的关于信息检索的第一本书,我认为它非常完美!它涵盖了信息检索领域所有的前瞻思想,并且内容明了,简单易懂。”
——亚马逊读者评论
“这本书形象地将读者带入了信息检索领域的核心,并分类介绍了搜索引擎的核心技术,具有十分高的实用性。”
——亚马逊读者评论
【插图】


点击看大图










加载中...
