自从本书第1版出版以来,信息检索(Information Retrieval,IR)领域发生了许多变化,其中许多和Web有关。首先,Web上的海量信息已将搜索引擎转化为寻找和发现用户感兴趣信息的关键工具。其次,由于搜索引擎的本质核心是信息检索系统,这就有力地证明了信息检索技术可以应用于具有巨大查询流量的海量文档集。
紧随这一演变趋势,在本书第1版出现以后的短短几个月内,我们在巴西和智利就开始了搜索引擎的研究。后来,我们进入谷歌和雅虎这两个主要的搜索引擎公司工作,对搜索引擎的一切行为有了更深入的了解。因此,本书第2版不仅反映了信息检索领域的变化,也反映了我们自己正在研究、开发和实现的信息检索技术,以及将其应用于Web的经验。
本书第1版并不是按照标准方式书写的,对于我们觉得没有足够专业知识的领域,我们邀请专家撰写相关章节。所以,从某种意义上说,我们先于Web 2.0的发展趋势进行了团队协作。我们的宗旨是精心协调和监督所有的写作内容,使本书成为有机的整体。在某种程度上,我们的努力颇有成效。事实上,第1版卖得非常好,成为了信息检索领域的畅销书,并已重印多次。该书已被数以百计的大学和学校采纳。它首先被翻译成韩文,其次是中文,还有一个特别低价的版本已在印度出版。因此,第1版出版后仅仅一两年,我们就开始谈论第2版。这个想法一直到2004年我们向出版商提交建议书并获得批准后才得以实现。最终在2005年11月,也就是四年多前,我们开始第2版的工作。今天,我们终于完成了!
在第2版中,我们遵循着和第1版相同的方法,因为它明显行之有效。尽管如此,我们仍然是更多章节的作者或合著者,而且我们采取了更强有力的手段对其他章节的内容进行设计。我们不得不完全修改许多章节,并增加了许多新的章节。因此,第2版的60%~70%是由新素材组成的,和第1版的不同之处主要在以下几个方面:
完全重组第1章内容。
增加文本分类、Web爬取、结构化文本检索和企业搜索等新章节,以及一个关于开源搜索引擎的新附录。
完全重写用户界面、多媒体检索和数字图书馆等章节。
扩充章节内容,以包括重要的新进展,例如语言模型、新的评价准则、查询特性、基于集群的信息检索和分布式信息检索、排序学习、搜索引擎界面和个性化等。
改进本书网站,其中包括本书所有章节的全套幻灯片和推荐的练习列表,使之成为信息检索的参考教学资源。
最后的成果是,和第1版相比,第2版几乎有两倍的篇幅,并包含两倍以上的参考文献。总之,如果你喜欢本书第1版,我们希望你会更喜欢这个第2版。万一你不喜欢第1版,我们希望这一次你会改变主意。
Ricardo Baeza-Yates于西班牙巴塞罗那
Berthier Ribeiro-Neto于巴西贝洛奥里藏特
2010年12月
第1版前言
Modern Information Retrieval:The Concepts and Technology behind Search,2E
随着Web的发展,以及时尚而廉价的图形用户界面和海量存储设备的问世,信息检索在过去几年中发生了巨大的变化。传统的信息检索教科书已相当过时,为此,最近已经出版了一些新的信息检索书籍。不过,我们相信,仍然非常需要这样一本书,它能够从计算机科学的视角,而不是从用户为中心的视角,以严密和完整的方式来介绍这个领域。本书致力于部分地填补这一鸿沟,它既可以作为信息检索的入门教材,也可以用于该方向的研究生课程。
本书是由相互补充和平衡的两部分组成。核心部分包括由本书设计者撰写或合著的9章。第二部分和第一部分紧密相连,共分为6章。这部分由相关领域的领先研究人员撰写,介绍最新的研究进展。所有章节采用相同的符号和术语。因此,尽管事实上邀请了多位撰稿人,但这本书并不是由不同作者撰写的章节汇编成的合著,而是一本教科书。此外,与合著相比,本书的主要作者精心设计了全书的内容和结构,以便展示现代信息检索中所有重要方面的内在联系。
从信息检索模型到文本索引,从信息检索可视化工具和界面到Web,从多媒体信息检索到数字图书馆,本书都广泛涵盖,而且细节丰富。考虑到信息检索对现代社会显而易见的相关性和重要性,我们希望本书对世界各地的信息科学、计算机科学与图书馆学等学科研究的进一步传播起到促进作用。
Ricardo Baeza-Yates于智利圣地亚哥
Berthier Ribeiro-Neto于巴西贝洛奥里藏特
. 1998年10月
第2版致谢
Modern Information Retrieval:The Concepts and Technology behind Search,2E
我们对在过去几年间向我们提供了有用和有益的意见、评论和建议的人们致以衷心的感谢。本书内容和素材组织的改进,很大程度上归功于他们。如果没有他们的帮助,第2版的质量将大大下降。仍然存在的任何错误——希望只有少量,完全是我们的责任。
第一,我们对所有撰稿人所体现出的奉献精神和浓厚兴趣表示感谢,他们是Eric Brown、Carlos Castillo、Marcos Gonalves、David Hawking、Marti Hearst、Mounia Lalmas、Yoelle Maarek、Christian Middleton、Gonzalo Navarro、Dulce Ponceleón、Edie Rasmussen、Malcolm Slaney和Nivio Ziviani。他们所体现的专业知识是我们所欠缺的。
第二,我们感谢对第2版的新内容提供直接或者间接贡献或影响的人们,他们是Omar Alonso(他指出我们偏离了众包的重要趋势)、Paolo Boldi(Web图压缩)、Pavel Calado(文本分类)、Marco Cristo(他对于文本分类章节的意见导致了对素材的整体重组)、Christos Faloutsos(多维索引)、Winston Hsu(多媒体)、Flavio Junqueira(分布式检索)、Edleno Moura(检索评价)、Vanessa Murdock(查询困难性)、Martin Porter(词干提取算法)、Mark Sanderson(他的尖锐意见导致检索评价章节的重大改进)、Fabrizio Silvestri(URL排序)和Gleb Skobeltsyn(对等网络信息检索)。另外,我们还感谢巴西米纳斯吉拉斯州联邦大学Marcos Gonalves的多位研究生的贡献,他们评阅了文本分类章节并书写了大量意见。
第三,我们需要感谢所有提供第1版勘误信息、提出改进建议和对第2版草稿提出修改意见的人们。对于勘误表,我们只提及发现错误的第一人,否则名单将太长。他们是:Omar Alonso、Jose Hilario Canos、Berkant Barla Cambazoglu、Ernie Davis、Anne Diekema、Bill Dimm、Joaquim Gabarro、Jamie Geddes、Eduardo Graells、Kyoung-Soo Han、Claudia Hauff、Shoujie He、Ben Houston、Puay-Leng Lee、Songwook Lee、Shian-Hua Lin、Mildrid Ljosland、Chang-Tien Lu、Mari Carmen Marcos、Peter Mika、Vanessa Murdock、Joanna Plattner、Luz Rello、Hee-Cheol Seo、Ben Shneiderman、Helge Grenager Solheim、Ellen Spertus、Markus Stocker、Kazunari Sugiyama、Satoru Takabayashi、Juha Takkinen、Luong Minh Thang、Yannis Tzitzikas、Fredrik Wallenberg、Theo van der Weide、John Westbrook、Judith Winter、Sui Xi、Peng Yong、Hugo Zaragoza和Yonghui Zhang。上述名单可能不全。
第四,我们特别感谢David Fernandes,本书网站上有他制作的教学幻灯片。他也耐心指出了许多小错误和不一致的地方。我们也需要提及我们的雇主雅虎和谷歌,他们为我们完成撰写本书的艰巨任务提供了隐性支持。
第五,我们感谢Pearson Education公司的编辑。他们是Kate Brewin、Simon Plumtree、Owen Knight和Rufus Curnow。在最重要的出版过程中,他们给予了支持。Anita Atkinson和Jenny Oates分别是本书的文字编辑和校对,我们感谢她们的帮助。
最后也是最重要的,感谢Helena、Rosa和我们的孩子,他们再次忍受了我们一连串的国际旅行、周末加班和不规律的工作时间。在过去的4年里,他们总是在问:你们什么时候完成这本书?
第1版致谢
Modern Information Retrieval:The Concepts and Technology behind Search,2E
我们对在过去几个月的写作过程中向我们提供了有用和有益帮助的各位人士致以衷心的感谢。如果没有他们的关心,本书很可能无法完成。
第一,我们对所有撰稿人所体现出的奉献精神和浓厚兴趣表示感谢。他们是Elisa Bertino、Eric Brown、Barbara Catania、Christos Faloutsos、Elena Ferrari、Ed Fox、Marti Hearst、Gonzalo Navarro、Edie Rasmussen、Ohm Sornil和Nivio Ziviani。他们所体现的专业知识是我们所欠缺的。我们也感谢他们在编辑和交叉审阅过程中给予的耐心,这是一种相当难以平衡的工作。
第二,我们要感谢对出版本书感兴趣的所有人士,特别是Scott Delman和Doug Sery。
第三,对于Addison Wesley Longman出版社对我们的兴趣和给予的鼓励,以及在整个过程中所做的优秀工作,我们在此深表感谢。他们的代表是Keith Mansfield、Karen Sutherland、Bridget Allen、David Harrison、Sheila Chatten、Helen Hodge和Lisa Talbot。他们联系的评阅人阅读了本书的早期(也是非常原始的)方案,并提供了很好的反馈意见,显示了深刻的洞察力。鉴于一位匿名评阅人的客观评论,“并行和分布式检索”章节从不很合适的“信息检索应用”部分移到了“文本信息检索”部分。鉴于检索评价的重要性,另一位热心的评阅人强烈建议我们将它单列为一章。
第四,我们要感谢和我们讨论过本书撰写计划的所有人士。Doug Oard很早就评阅了本书的草案。Gary Marchionini是本书的早期支持者,并在我们写书的过程中保持联系。Bruce Croft从一开始就鼓励我们。Alberto Mendelzon提供了Web搜索章节的初始方案和参考文献列表。Ed Fox在百忙之中对第1章“引言”提出了富有洞察力的评阅意见,使我们极大地改进了这一章。他也认真评阅了信息检索建模的内容。Marti Hearst很早就对我们的方案深表兴趣,在整个编辑过程中提供了帮助,并且是一个热情的支持者和伙伴。
第五,我们感谢我们所在的机构,智利大学和巴西米纳斯吉拉斯州联邦大学计算机科学系的支持,以及来自国家研究机构——巴西科技发展委员会(CNPq)、智利国家科技研究委员会(CONICYT)和国际合作项目的经费资助,特别是拉美科技发展项目(CYTED)项目“Web信息管理与检索环境(Environment for Information Managing and Retrieval in the World Wide Web,AMYRI,编号VII.13)”和巴西科学研究与发展项目资助署(Finep)项目“移动计算机的信息系统(Information Systems for Mobile Computers,SIAM)”。
最重要的是,感谢Helena、Rosa和我们的孩子,他们忍受了我们一连串的国际旅行、周末加班和不规律的工作时间。
出版商致谢
Modern Information Retrieval:The Concepts and Technology behind Search,2E
我们感谢以下复制版权材料的许可:
图
图2-1和图2-12来自Yelp!,http://www.yelp.co.uk/,Yelp!Inc.;图2-3来自NextBio.com;图2-5、图4-13b、图11-10c、图11-11a和图11-13来自www.google.co.uk提供的谷歌系统截图;图2-6来自http://biosearch.berkerley.edu,M.A.Hearst版权所有;图2-7来自Microsoft Corporation的产品截图重印许可;图2-13来自Findex、FindEx.com,Inc.及其许可者版权所有2010;图2-15来自“Graphical query specification and dynamic result previews for a digital library,Proceedings of the 11th Annual ACM Symposium on User Interface Software and Technology(UIST’98)pp.143-151(Jones,S.1998)”,http://doi.acm.org/10.1145/288392.288595,Association for Computing Machinery,Inc.版权所有1998,重印经许可;图2-16来自“Research:TileBars”,http://people.ischool.berkeley.edu/~hearst/research/tilebars.html,M.A.Hearst版权所有;图2-17a来自“Search User Interfaces,Cambridge University Press(Hearst,M.A.2009)”的图10-17a,M.A.Hearst版权所有;图2-17b来自“INSYDER:a content-based visual-information-seeking system for the web,International Journal on Digital Libraries,pp.25-41(Reiterer,H.,Tullius,G.and Mann,T.M.2005)”,许可来自Springer Science+Business Media and CCC及H.Reiterer教授;图2-18来自“Using thumbnails to search the Web,Proceedings of the SIGCHI Conference on Human Factors in Computing Systems(CHI’01),pp.198-205(Woodruff,A.,Faulring,A.,Rosenholtz,R.,Morrison,J.and Pirolli,P.2001)”,http://doi.acm.org/10.1145/365024.365098,Association for Computing Machinery,Inc.版权所有2001,重印经许可;图2-20a来自“Evaluating a system for interactive exploration of large,hierarchically structured document repositories,Proceedings of the IEEE Symposium on Information Visualization(INFOVIS’04),pp.127-134(Granitzer,M.,Kienreich,W.,Sabol,V.,Andrews,K.and Klieber,W.2004)”,IEEE版权所有2004;图2-20b来自“Search result visualisation with xFIND,Proceedings of User Interfaces to Data Intensive Systems(UIDIS 2001),pp.50-58(Andrews,K.,Gutl,C.,Moser,J.,Sabol,V.and Lackner,W.2001)”,IEEE版权所有2001;图2-21来自http://kylescholz.com/projects/wordnet/,Kyle Scholz;图2-22来自“The Word tree,an interactive visual concordance,IEEE Transactions on Visualization and Computer Graphics,14(6),pp.1221-1228(Wattenberg,M.and Fernanda,B.2008)”,IEEE版权所有2008;图2-23来自婴儿名字流行度图NameVoyager,http://www.babynamewizard.com;图2-24来自“Avian flu case study with nSPace and GeoTime,Proceedings of the IEEE Symposium on Visual Analytics Science and Technology(VAST’06)pp.27-34(Proulx,P.et al.2006)”,IEEE版权所有2006;图5-4仿自“Evaluating the accuracy of implicit feedback from clicks and query reformulations in Web search,ACM Transactions on Information Systems,25(2)(Joachims,T.,Granka,L.,Pan,B.,Hembrooke,H.,Radlinski,F.and Gay,G.2007)”,http://doi.acm.org/10.1145/1229179.1229181,Association for Computing Machinery,Inc.版权所有2007,重印经许可;图7-4和图7-5来自“The impact of caching on search engines,Proceedings of the 30th International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGR’07)(Baeza-Yates,R.et al.2007)”,http://doi.acm.org/10.1145/1277741.1277775,Association for Computing Machinery,Inc.版权所有2007,重印经许可;图7-6来自“Query usage mining in search engines,Web Mining Applications and Techniques(Baeza-Yates,R.(Scime,A.ed.)2004)”,Idea Group,重印经出版商IGI Global许可;图10-1改编自“Load balancing for term-distributed parallel retrieval,Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,pp.348-355(Moffat,A.,Webber,W.and Zobel,J.2006)”,http://doi.acm.org/10.1145/1148170.1148232,Association for Computing Machinery,Inc.版权所有2006,重印经许可;图10-12和图10-13来自“Challenges on distributed web retrieval,Proceedings of ICDE 2007,pp.6-20(2007)”,IEEE版权所有2007;图10-14来自“A pipelined architecture for distributed text query evaluation,Information Retrieval,10(3),pp.205-231(Webber,W.,Moffat,A.,Zobel,J.and Baeza-Yates,R.2007)”,许可来自Springer Science+Business Media;图11-1来自“Graph structure in the web:experiments and models,Proceedings of the North Conference on World Wide Web,pp.309-320(Broder,A.,Kumar,R.,Maghoul,F.,Raghavan,P.,Rajagopolan,S.,Stata,R.,Tomkins,A.and Wiener,J.2000)”,Elsevier版权所有(2000);图11-3a来自M.Crovella,1998;图11-3b来自“Self-similarity in World Wide Web traffic:evidence and possible causes,SIGMETRICS’96:Proceedings of the 1996 ACM SIGMETRICS International Conference on Measurement and Modelling of Computer Systems,24,pp.160-169(Crovella,M.E.and Bestavros,A.1996)”,http://doi.acm.org/10.1109/90.650143,Association for Computing Machinery,Inc.版权所有1996,重印经许可;图11-4和图11-5来自“Generic damping functions for propagating importance in linkbased ranking algorithms,Internet Mathematics,3(4),pp.445-478(Baeza-Yates,R.,Boldi,P.and Castillo,C.2006)”,A.K.Peters,Ltd.版权所有2006;图11-7仿自“Challenges in building large-scale information retrieval systems:invited talk presentation”,http://research.google.com/people/jeff/WSDM09-keynote.pdf,Jeffrey Dean;图11-8来自“Design trade-offs for search engine caching,TWEB,2(4)(Baeza-Yates,R.A.,Gionis,A.,Juncqueira,F.,Murdock,V.,Plachouras,V.and Silvestri,F.2008)”,http://doi.acm.org/10.1145/1409220.1409223,Association for Computing Machinery,Inc.版权所有2008,重印经许可;图 11-10a来自Ask系统截图,IAC Search & Media,Inc.保留所有权利2010。ASK.COM、ASK JEEVES、ASK商标、ASK JEEVES商标及其他出现在Ask.com和Ask Jeeves网站上的商标属于IAC Search & Media,Inc.及其授权者;图11-10b及图11-15来自Bing系统截图,重印经Microsoft Corporation许可;图12-8来自“Synchronizing a database to improve freshness,Proceedings of ACM International Conference on Management of Data(SIGMOD),pp.117-128(Cho,J.and Garcia-Molina,H.2000)”,http://doi.acm.org/10.1145/342009.335391,Association for Computing Machinery,Inc.版权所有2000,重印经许可;图13-9来自INEX 2006评估界面,由Mounia Lalmas教授提供;图14-4来自IBM Almaden研究中心;图14-6和图14-8来自IBM Almaden研究中心QBIC系统,Jim Hafner的许可;图14-9来自“A bipartite graph model for associating images and text,IJCAI-2007 Workshop on Multimodal Information Retrieval(Srinivasan,S.H.and Slaney,M.2007)”;图14-10来自“Image retrieval on large-scale image databases,Proceedings of the 6th ACM International Conference on Image and Video Retrieval(CIVR 07),pp.17-24(Horster,E.,Lienhart,R.and Slaney,M.2007)”,http://doi.acm.org/10.1145/1282280.1282283,Association for Computing Machinery,Inc.版权所有2007,重印经许可;图14-13和图14-14来自Kyogu Lee;图14-16来自Carnegie Mellon大学计算机学院技术报告“Video skimming for quick browsing based on audio and image characterization,Technical Report CMU-CS-95-186(Smith,M.A.and Kanade,T.1995)”;图14-17来自“Video manga:generating semantically meaningful video summaries,MULTIMEDIA’99:Proceedings of the Seventh ACM International Conference on Multimedia(Part 1),pp.383-392(Uchihashi,S.et al.1999)”,http://doi.acm.org/10.1145/319463.319654,Association for Computing Machinery,Inc.版权所有1999,重印经许可;图14-18来自Sarnoff Corporation的Harpreet Sawhney;图14-19来自“Salient stills,ACM Transactions on Multimedia Computing,Communications and Applications,1(1),pp.16-36(Teodosio,L.and Bender,W.2005)”,http://doi.acm.org/10.1145/1047936.1047940,Association for Computing Machinery,Inc.版权所有2005,重印经许可;图14-20来自“PanoramaExcerpts:Extracting and packing panoramas for video browsing,MULTIMEDIA’97:Proceedings of the Fifth ACM International Conference on Multimedia,pp.427-436(Taniguchi,Y.,Akutsu,A.and Tonomura,Y.1997)”,http://doi.acm.org/10.1145/266180.266396,Association for Computing Machinery,Inc.版权所有1997,重印经许可;图14-21来自“Hierarchical brushing in a collection of video data,Proceedings of Hawaii International Conference on System Science(HICSS)(2001)”,IEEE版权所有2001;图14-26来自“Automatic recognition of audiovisual speech:recent progress and challenges,Proceedings of the IEEE(Potamianos,G.,Neti,C.,Gravier,G.,Garg,A.and Senior,A.W.2003)”,IEEE版权所有2003;图14-28来自“Multimedia edges:finding hierarchy in all dimensions,Proceedings of 9th ACM International Conference on Multimedia(Slaney,M.,Ponceleon,D.and Kaufman,J.2001)”,http://doi.acm.org/10.1145/500141.500149,Association for Computing Machinery,Inc.版权所有2001,重印经许可;图14-29来自“Comparison of automatic shot boundary detection algorithms,SPIE Image and Video Processing VII,3656,290-301(Lienhart,R.1999)”,SPIE;图15-3来自Oxfam Australia;图15-5来自“Evaluation by comparing result sets in context,Proceedings of the 15th ACM International Conference on Information and Knowledge Management pp.94-101(Thomas,P.and Hawking,D.2006)”,http://doi.acm.org/10.1145/1183614.1183632,ACM版权所有2006;图16-1来自Edie Rasmussen,许可来自The Network Development and MARC Standards Office;图16-2来自“Find...books or journals”,http://www.library.ubc.ca/home/research.html,不列颠哥伦比亚大学网站(2010),许可后使用;图16-4、图16-5、图16-6和图16-7来自DIALOG,Dialog的界面及截屏,经Dialog LLC.许可后改编,Dialog产品名是Dialog LLC.的注册商标;图16-4来自EBSCO Publishing,Inc.的许可。