相关性搜索:利用Solr与Elasticsearch创建智能应用
基本信息
- 作者: 【美】Doug Turnbull(道格·特恩布尔) John Berryman(约翰·贝瑞曼)
- 译者: 莫映 蔡宇飞 殷智勇
- 出版社:电子工业出版社
- ISBN:9787121327216
- 上架时间:2017-9-29
- 出版日期:2017 年9月
- 开本:16开
- 页码:392
- 版次:1-1
- 所属分类:计算机 > 信息系统 > 综合
编辑推荐
关键字搜索框已经演变成查找数据和浏览大多数网站及应用的事实上的标准用户界面。"聪明"的站内搜索引擎能给用户想要的结果,帮助你留住用户。
本书所讲的"相关性"是一门交叉学科,涵盖特征工程、机器学习、本体理论、用户测试、自然语言处理,还要与业务紧密结合。作者用一个在影片库中搜索想看的电影为例,系统展现了相关的技术和知识。
内容简介
计算机书籍
《相关性搜索:利用Solr与Elasticsearch创建智能应用》揭开了相关性搜索的神秘面纱,告诉大家如何将 Elasticsearch与 Solr这样的搜索引擎作为可编程的相关性框架,从而表达业务排名规则。从这《相关性搜索:利用Solr与Elasticsearch创建智能应用》中你可学会如何结合各种外部数据源、分类方法以及文本分析手段对相关性进行编程,以满足用户的个性化需求,将令人满意的搜索结果呈现给用户。此外,相关性搜索也需要一定的软性技能《相关性搜索:利用Solr与Elasticsearch创建智能应用》还将告诉读者怎样与业务人员协作,为业务找到正确的相关性需求,从而在搜索产品的整个研发生命周期内,实现相关性改进的良性循环。 本书介绍了搜索引擎的基本原理,及相关性搜索的调试技术,用大量实例的方式详述了搜索引擎的诸多特性,以形成一整套针对相关性搜索的系统化方法,并倡导致力于提高搜索质量的企业文化。《相关性搜索:利用Solr与Elasticsearch创建智能应用》适用于想利用 Elasticsearch或 Solr尝试构建智能搜索应用的开发人员。
作译者
John Berryman 的第一份职业是航空工程师,但在航空领域工作了几年之后,他发现编写程序或解决数学难题才是他喜欢的工作。后来,John 撇下了飞机和卫星,开始全职工作于软件开发、基础架构,以及搜索技术领域。目前,John 供职于Eventbrite,帮助利用Elasticsearch 构建事件活动的发现、搜索及推荐。
译者
莫映,IBM中国软件开发实验室顾问软件开发工程师,具有超过10年的软件开发与设计经验,目前从事IBM社交商务软件的研发工作。一直关注社交网络的应用与社交技术的运用。同时也积极活跃于IBM内部以及外部的各种技术社区之中。
蔡宇飞,IBM中国软件开发实验室软件开发工程师,目前从事IBM社交商务软件的研发工作,对云技算、大数据有浓厚兴趣。
殷智勇,IBM中国软件开发实验室IBM Domino高级软件开发工程师,对社会化协作软件、大数据搜索等领域较为关注,并有较为深入的研究。
目录
1.1 我们的目标:掌握相关性技术研发的技能
1.2 为什么搜索的相关性如此之难
1.2.1 什么是具备"相关性"的搜索结果
1.2.2 搜索:没有银弹
1.3 来自相关性研究的启示
1.3.1 信息检索
1.3.2 能否利用信息检索解决相关性问题
1.4 如何解决相关性
1.5 不只是技术:管理、协作与反馈
1.6 本章小结
第2章 搜索-幕后揭秘
2.1 搜索101
2.1.1 什么是搜索文档
2.1.2 对内容进行搜索
2.1.3 通过搜索来探索内容
2.1.4 获取进入搜索引擎的内容
2.2 搜索引擎的数据结构
2.2.1 倒排索引
2.2.2 倒排索引的其他内容
译者序
为了解决这一问题,大家觉得团队成员们迫切需要一本良师益友式的专业书籍,它既能系统地介绍搜索的相关知识,又能结合当下流行的搜索引擎框架,做到理论与实践相结合。恰巧,电子工业出版社计算机出版分社的许艳老师联系到了我们,商讨一本刚从 Manning出版社引进的外版书籍的翻译工作,该书正是以 Elasticsearch和 Solr为背景介绍相关性搜索的。而且,此书引进时刚刚面世不久,在亚马逊上甚至还没有开始售卖,因此所涉内容的时效性非常之高,正好是团队眼下急需的学习资源。于是,几位同事商量之后,觉得在学习之余,如果顺手将其译成中文,以惠及更多的业内同行,不失为一件利人利己的好事。故而,才有了读者眼前的这本中文版图书。
遇到本书是译者的幸运。书中围绕相关性搜索这一主题,全面系统地介绍了该领域的方方面面:从搜索引擎的基础知识,到相关性搜索的主要技术,再到各种高阶议题,直到当下前沿领域的研究成果,凡此种种,不一而足。两位作者通过朴实细腻的笔触,清晰无误的语言,循序渐进地将我们带入了相关性搜索的神奇世界。这里没有高深莫测的晦涩理论,只有生动有趣的示例讲解。值得一提的是,全书各章所选的示例多以构建影片搜索应用这一任务为背景,一以贯之,精挑细选。通过来自 The Movie Database(TMDB)的大量真实影片数据,为读者构建出了一个个实际可运行的搜索示例。其中,以经典系列影片"星际迷航"为主题的影片搜索应用,就在本书的前后多个章节中频频出现,足见作者构思精巧,用心良苦。读完本书,再读 Elasticsearch或 Solr的有关文档或书籍时,其中内容无一不有似曾相识的感觉;查阅其他介绍相关性搜索的文章,也有一种"一览众山小"的感觉。而面对现实生活中的各种应用,以及我们自己研发的产品,不禁让人联想,如果将书中所学应用其中,想必一定能画龙点睛,为之增色不少。
本书的翻译过程持续了将近十个月,中文版的字里行间都饱含了几位译者的辛勤汗水。回顾往昔,多艰之旅,历历在目,译稿最终得以成功付梓,实属不易。翻译过程中,从初译到终稿,每一章每一节基本都要经过反复推敲与琢磨至五六遍以上。因为是多人翻译,所以为了保证全书行文风格的统一,最后还进行了一次全面细致的统稿,几位译者都为此投入了极大的精力和时间。大家已经记不清有多少个日夜,当家人都已进入梦乡,自己却还在灯下埋首伏案;有多少个周末,把孩子托付给爱人照料,自己却在一旁奋笔疾书…… 本书的翻译也是一次感恩之旅。感谢家人和朋友,没有他们一直以来的支持就不会有本书中文版的问世。感谢莫映的夫人李唯一女士,作为本书的首位读者,每每译稿新鲜出炉,都会经过她的耐心初校,以读者的视角为我们提出诸多中肯的修改建议。感谢智勇的家人,本书翻译之初正值智勇千金呱呱坠地,家人的理解和支持是这位新晋奶爸最大的前进动力。感谢宇飞的爱女,小小年纪就善解人意,能够体谅妈妈因为工作而少了与之相伴的时间。还要感谢博文视点的许艳老师,为我们牵线搭桥,感谢责编刘舫老师,为本书的后期审校尽心尽力。也要感谢我们这几位译者彼此间的相互扶持。大家利用各自的业余时间,以极大的热情投入到翻译工作中,默契配合,一路走来。当然,更应感谢本书的两位原作者 Doug Turnbull先生和 John Berryman先生,他们的睿智与经验成就了本书原作的好口碑。
最后,希望中文版的面世,不负原作的美誉,以及各位读者的厚望!
中文版译者2017年 8月于北京,晴耕书斋
前言
与本书结缘还要追溯到一年前。当时正值团队启动新产品的研发,需要一款查询性能优良的 NoSQL DB作为数据存储方案。在考察了包括 Elasticsearch、Solr、 Mongo、Cassandra等一系列 NoSQL DB之后,我们最终从实际需求出发,选择了与产品功能契合度更高的 Elasticsearch。于是大家开始了对 Elasticsearch从零起步的探索。不过,在阅读了 Elasticsearch的大量官方文档之后,大家发现,虽然通过文档的查阅可以了解 Elasticsearch诸多特性的使用方法,但是这种工具书式的平铺直叙无法将知识有机地联系起来,形成系统而立体的认知。并且,在阅读官方文档的过程中我们也发现,自己对不少搜索相关的基础概念还不甚了解,于是只能借助于网络上搜到的一些支离破碎的快餐资源来补充营养。
为了解决这一问题,大家觉得团队成员们迫切需要一本良师益友式的专业书籍,它既能系统地介绍搜索的相关知识,又能结合当下流行的搜索引擎框架,做到理论与实践相结合。恰巧,电子工业出版社计算机出版分社的许艳老师联系到了我们,商讨一本刚从 Manning出版社引进的外版书籍的翻译工作,该书正是以 Elasticsearch和 Solr为背景介绍相关性搜索的。而且,此书引进时刚刚面世不久,在亚马逊上甚至还没有开始售卖,因此所涉内容的时效性非常之高,正好是团队眼下急需的学习资源。于是,几位同事商量之后,觉得在学习之余,如果顺手将其译成中文,以惠及更多的业内同行,不失为一件利人利己的好事。故而,才有了读者眼前的这本中文版图书。
遇到本书是译者的幸运。书中围绕相关性搜索这一主题,全面系统地介绍了该领域的方方面面:从搜索引擎的基础知识,到相关性搜索的主要技术,再到各种高阶议题,直到当下前沿领域的研究成果,凡此种种,不一而足。两位作者通过朴实细腻的笔触,清晰无误的语言,循序渐进地将我们带入了相关性搜索的神奇世界。这里没有高深莫测的晦涩理论,只有生动有趣的示例讲解。值得一提的是,全书各章所选的示例多以构建影片搜索应用这一任务为背景,一以贯之,精挑细选。通过来自 The Movie Database(TMDB)的大量真实影片数据,为读者构建出了一个个实际可运行的搜索示例。其中,以经典系列影片“星际迷航”为主题的影片搜索应用,就在本书的前后多个章节中频频出现,足见作者构思精巧,用心良苦。读完本书,再读 Elasticsearch或 Solr的有关文档或书籍时,其中内容无一不有似曾相识的感觉;查阅其他介绍相关性搜索的文章,也有一种“一览众山小”的感觉。而面对现实生活中的各种应用,以及我们自己研发的产品,不禁让人联想,如果将书中所学应用其中,想必一定能画龙点睛,为之增色不少。
本书的翻译过程持续了将近十个月,中文版的字里行间都饱含了几位译者的辛勤汗水。回顾往昔,多艰之旅,历历在目,译稿最终得以成功付梓,实属不易。翻译过程中,从初译到终稿,每一章每一节基本都要经过反复推敲与琢磨至五六遍以上。因为是多人翻译,所以为了保证全书行文风格的统一,最后还进行了一次全面细致的统稿,几位译者都为此投入了极大的精力和时间。大家已经记不清有多少个日夜,当家人都已进入梦乡,自己却还在灯下埋首伏案;有多少个周末,把孩子托付给爱人照料,自己却在一旁奋笔疾书……
本书的翻译也是一次感恩之旅。感谢家人和朋友,没有他们一直以来的支持就不会有本书中文版的问世。感谢莫映的夫人李唯一女士,作为本书的首位读者,每每译稿新鲜出炉,都会经过她的耐心初校,以读者的视角为我们提出诸多中肯的修改建议。感谢智勇的家人,本书翻译之初正值智勇千金呱呱坠地,家人的理解和支持是这位新晋奶爸最大的前进动力。感谢宇飞的爱女,小小年纪就善解人意,能够体谅妈妈因为工作而少了与之相伴的时间。还要感谢博文视点的许艳老师,为我们牵线搭桥,感谢责编刘舫老师,为本书的后期审校尽心尽力。也要感谢我们这几位译者彼此间的相互扶持。大家利用各自的业余时间,以极大的热情投入到翻译工作中,默契配合,一路走来。当然,更应感谢本书的两位原作者 Doug Turnbull先生和
John Berryman先生,他们的睿智与经验成就了本书原作的好口碑。
最后,希望中文版的面世,不负原作的美誉,以及各位读者的厚望!
中文版译者2017年 8月于北京,晴耕书斋
推荐序
在过去十年里,搜索已经变得无处不在
—关键字搜索框已经演变成查找数据和浏览大多数网站及应用的事实上的标准用户界面。与此同时,对大多数组织来说,若非被严重忽视,要想提供真正具有相关性的搜索体验一直以来都绝非易事。
强大的开源技术已经能做到在几乎零编码的情况下(如 Apache Solr和 Elasticsearch),以分布式的、高度可伸缩的方式,实现高效运行和功能丰富的搜索(如 Apache Lucene)。这为几乎所有的开发人员在大数据时代建立起一个“在一般意义上相关( generally relevant)”的实时搜索引擎提供了必要的基础架构。随着搜索在基础架构方面有越来越多的难题得到了解决,加之解决方案的商品化进程,竞争的差异已经从如何提供快速、可伸缩的搜索,转变成如何针对用户的信息需求提供最为相关的匹配。换言之,提供“在一般意义上相关”的结果已经远远不够了
—谷歌以及其他顶级的搜索引擎现在已经把用户培养成为这样一种群体,他们期望搜索应用几乎能读懂自己内心的想法。本书所讨论的,就是我们如何更加积极地朝着理解用户意图的方向去努力。
Doug Turnbull 和 John
Berryman是两位经验丰富的搜索和相关性领域的专家,我认识他们已经很多年了,大家时常会在出席搜索大会时遇到。我还能回忆起与他们一起讨论的美好时光,我们共同探讨了如何解决搜索相关性、推荐和个性化方面的一些世界级难题。没有人会比我更加欣喜地看到他们将自己独特的专业知识融入这本书中—这是我读过的最好的、最引人入胜的技术书籍之一。
序言
可惜我对写一本关于 Python并发的书也不感兴趣,但我的确有写另一本书的想法。带着这个想法我找到了 John,经过几番谈话之后,我们共同提出了一个非常激动人心的出书提议-接下来的事大家都知道了!
大约在两年前,我们与 Manning通了那次意义重大的电话。就像是在坐过山车一样,光阴荏苒,伴随着本书的写作,我们的生活也经历了一系列重大的变迁。我们两个人的家庭都增添了小宝宝。我开启了一项相关性的咨询业务。 John换了工作,成为 Eventbrite的常驻搜索专家。但我们还是无法拒绝继续为这个让人着迷的话题撰写文章。
你会发现本书不同于其他技术类的书籍,它不是某项技术的功能罗列。它更像是一张地图,指引着我们走出多年的痛苦,去解决那些没有现成答案的难题。换句话说,我们已经走出了搜索相关性的沙漠,发现了许多绿洲,并且学会了如何躲避沙人和帝国突击队。
我们向大家展示这张穿越沙漠的地图,这样大家就不会像我们那样迷失方向。现在,请原谅,我们要找一处最近的海滩来小憩一会儿了……
Doug Turnbull
致谢
在开始撰写本书的几周前,我们两家都迎来了小宝宝。我们要把最诚挚的感谢和爱意送给我们的爱人, Khara Turnbull和 Kumiko Berryman。我们把连续数个周末的时间都用来写书,而她们也都坚持了下来 -在此期间, Khara完成了她自己的一本书,Kumiko成功地经历了一次长途越野和房屋出售。现在是时候放个长假了!
本书的成功付梓也离不开 OpenSource Connections的创始人 Eric Pugh。作为我们的"老板",是他把我们推到了写作、演讲和解惑的聚光灯下。作为一位领导者, Eric能够让你的热情成为他的热情。如果不是 Eric摘掉"辅轮"(有时甚至坚持"独轮"),我们就不会意识到,自己竟然能胜任写作或解惑的工作。 Eric告诉我们,每个人都可以成为思想领袖,包括我们自己。
感谢 TMDB提供的数据和支持。我们曾经花费大把的时间试图找到理想的数据集。TMDB(http://themoviedb.org)不仅提供了丰富的搜索数据集,而且在我们遇到程序错误和问题的时候(通常是我们自己的代码里的错误),TMDB也能为我们以及我们的早期读者提供支持。特别要感谢的是 Travis Bell,他总是及时回复我们的问题和邮件。
写书是一项团队活动,我们要感谢 Manning出版社本书制作团队中的每一位成员: Marina Michaels,我们的开发编辑; Aaron Colcord,技术开发编辑; Valentin Crettaz,技术校对; Frank Pohlmann和 Mike Stephens,策划编辑;还有负责营销的 Candace Gillhoolley。
我们也要感谢很多参与审稿的朋友,他们阅读了本书最初的书稿,并提出了许多有益的建议,包括 John Guthrie,Martin Beer,Arthur Zubarev,Elman Krinker, Amit Lamba,Marc-Oliver Scheele,Ian Stirk,Joseph Wang,Stuart Woodward, Ursin Stauss,Russ Cam,Michael Fink,Gregor Zurowski,Dimitrios Kouzis-Loukas,Jeremy Gailor和 Keith Webster。
另外要感谢 Andrew Montalenti,他为我们与 Manning建立了联系。还要感谢 Shay Banon的帮助,他是 Elasticsearch的创始人,坦率地说,他是一个很和蔼的人。感谢我们的同事, Trey Grainger,Matt Overstreet,Rena Morse,David Smiley, Grant Ingersoll,Yonik Seeley,Rene Kriegler,Peter Dixon-Moses,Charlie Hull和 Drew Farris,感谢这些年来与我们在搜索和相关性方面的这么多精彩讨论。还要特别感谢 Trey,他为我们这本书写了推荐序。
感谢每一位家人对我们的支持。尤其是我们的孩子们: Megume Berryman,Ian Turnbull和 Murray Turnbull。感谢我们在 OpenSource Connections和 Eventbrite上的"工作大家庭",让我们能够把大量精力投入到本书的写作上。
关于本书
本书将告诉大家,在响应用户的搜索时要给出用户满意和认可的内容。我们将学习如何根据搜索条件,而不是对搜索引擎的神秘猜测,来严格控制对搜索结果的排名。我们会简要介绍深入定制 Solr或 Elasticsearch相关性排名的方法,以及如何采取措施帮助大家发掘相关性对应用而言的意义。
谁应该阅读本书
本书的目标读者是那些渴望了解为什么搜索引擎无法"领会"用户搜索意图的 Solr或 Elasticsearch开发人员。对搜索引擎至少有基本了解的读者,可以通过本书将他们的技能提升到更高的层次。虽然这是一本技术方面的书籍,但从组织机构和产品战略的角度来看,它的大部分内容都是围绕相关性展开的,因此也适合于产品经理、内容战略的制订者、市场营销人员,或专注搜索的领域专家阅读。
本书是如何组织的
本书首先介绍了相关技术的基础知识,然后逐步上升到定义和解决搜索相关性问题时我们所要面对的产品策略和文化议题,最后介绍了如何实施个性化搜索、语义搜索以及推荐。
书摘
与本书结缘还要追溯到一年前。当时正值团队启动新产品的研发,需要一款查询性能优良的 NoSQL DB作为数据存储方案。在考察了包括 Elasticsearch、Solr、 Mongo、Cassandra等一系列 NoSQL DB之后,我们最终从实际需求出发,选择了与产品功能契合度更高的 Elasticsearch。于是大家开始了对 Elasticsearch从零起步的探索。不过,在阅读了 Elasticsearch的大量官方文档之后,大家发现,虽然通过文档的查阅可以了解 Elasticsearch诸多特性的使用方法,但是这种工具书式的平铺直叙无法将知识有机地联系起来,形成系统而立体的认知。并且,在阅读官方文档的过程中我们也发现,自己对不少搜索相关的基础概念还不甚了解,于是只能借助于网络上搜到的一些支离破碎的快餐资源来补充营养。
为了解决这一问题,大家觉得团队成员们迫切需要一本良师益友式的专业书籍,它既能系统地介绍搜索的相关知识,又能结合当下流行的搜索引擎框架,做到理论与实践相结合。恰巧,电子工业出版社计算机出版分社的许艳老师联系到了我们,商讨一本刚从 Manning出版社引进的外版书籍的翻译工作,该书正是以 Elasticsearch和 Solr为背景介绍相关性搜索的。而且,此书引进时刚刚面世不久,在亚马逊上甚至还没有开始售卖,因此所涉内容的时效性非常之高,正好是团队眼下急需的学习资源。于是,几位同事商量之后,觉得在学习之余,如果顺手将其译成中文,以惠及更多的业内同行,不失为一件利人利己的好事。故而,才有了读者眼前的这本中文版图书。
遇到本书是译者的幸运。书中围绕相关性搜索这一主题,全面系统地介绍了该领域的方方面面:从搜索引擎的基础知识,到相关性搜索的主要技术,再到各种高阶议题,直到当下前沿领域的研究成果,凡此种种,不一而足。两位作者通过朴实细腻的笔触,清晰无误的语言,循序渐进地将我们带入了相关性搜索的神奇世界。这里没有高深莫测的晦涩理论,只有生动有趣的示例讲解。值得一提的是,全书各章所选的示例多以构建影片搜索应用这一任务为背景,一以贯之,精挑细选。通过来自 The Movie Database(TMDB)的大量真实影片数据,为读者构建出了一个个实际可运行的搜索示例。其中,以经典系列影片“星际迷航”为主题的影片搜索应用,就在本书的前后多个章节中频频出现,足见作者构思精巧,用心良苦。读完本书,再读 Elasticsearch或 Solr的有关文档或书籍时,其中内容无一不有似曾相识的感觉;查阅其他介绍相关性搜索的文章,也有一种“一览众山小”的感觉。而面对现实生活中的各种应用,以及我们自己研发的产品,不禁让人联想,如果将书中所学应用其中,想必一定能画龙点睛,为之增色不少。
本书的翻译过程持续了将近十个月,中文版的字里行间都饱含了几位译者的辛勤汗水。回顾往昔,多艰之旅,历历在目,译稿最终得以成功付梓,实属不易。翻译过程中,从初译到终稿,每一章每一节基本都要经过反复推敲与琢磨至五六遍以上。因为是多人翻译,所以为了保证全书行文风格的统一,最后还进行了一次全面细致的统稿,几位译者都为此投入了极大的精力和时间。大家已经记不清有多少个日夜,当家人都已进入梦乡,自己却还在灯下埋首伏案;有多少个周末,把孩子托付给爱人照料,自己却在一旁奋笔疾书…… 本书的翻译也是一次感恩之旅。感谢家人和朋友,没有他们一直以来的支持就不会有本书中文版的问世。感谢莫映的夫人李唯一女士,作为本书的首位读者,每每译稿新鲜出炉,都会经过她的耐心初校,以读者的视角为我们提出诸多中肯的修改建议。感谢智勇的家人,本书翻译之初正值智勇千金呱呱坠地,家人的理解和支持是这位新晋奶爸最大的前进动力。感谢宇飞的爱女,小小年纪就善解人意,能够体谅妈妈因为工作而少了与之相伴的时间。还要感谢博文视点的许艳老师,为我们牵线搭桥,感谢责编刘舫老师,为本书的后期审校尽心尽力。也要感谢我们这几位译者彼此间的相互扶持。大家利用各自的业余时间,以极大的热情投入到翻译工作中,默契配合,一路走来。当然,更应感谢本书的两位原作者 Doug Turnbull先生和 John Berryman先生,他们的睿智与经验成就了本书原作的好口碑。
最后,希望中文版的面世,不负原作的美誉,以及各位读者的厚望!
中文版译者2017年 8月于北京,晴耕书斋