Lucene+nutch搜索引擎开发
基本信息
编辑推荐
入门:引导读者快速掌握Lucene和nutch的使用方法.
揭秘:深度剖析搜索引擎内核..
实战:手把手带您构建企业级搜索引擎
推荐:Web开发专家强烈推荐...
内容简介回到顶部↑
书籍
计算机书籍
本书以lucene构建搜索引擎的开发过程为主线,由浅入深,循序渐进,为读者展示如何使用lucene开发自己的搜索引擎系统。全书内容包括搜索引擎概述和原理、lucene部署安装、nutch网络蜘蛛与数据获取、lucene索引建立、lucene检索与查询、搜索结果排序、文档分析器与中文分词、格式化文本分析、分布式搜索与缓存等。为便于读者理解搜索引擎快速开发过程,本书最后几章进行了应用实例的讲解,包括nutch构建专题搜索、lucene构建企业级搜索实例以及相关的整体工程性能测试。
本书适合对搜索引擎开发有兴趣的读者阅读,包括搜索引擎开发的初学者、高等院校、信息专业学生、从事搜索开发的程序设计人员等。
计算机书籍
本书以lucene构建搜索引擎的开发过程为主线,由浅入深,循序渐进,为读者展示如何使用lucene开发自己的搜索引擎系统。全书内容包括搜索引擎概述和原理、lucene部署安装、nutch网络蜘蛛与数据获取、lucene索引建立、lucene检索与查询、搜索结果排序、文档分析器与中文分词、格式化文本分析、分布式搜索与缓存等。为便于读者理解搜索引擎快速开发过程,本书最后几章进行了应用实例的讲解,包括nutch构建专题搜索、lucene构建企业级搜索实例以及相关的整体工程性能测试。
本书适合对搜索引擎开发有兴趣的读者阅读,包括搜索引擎开发的初学者、高等院校、信息专业学生、从事搜索开发的程序设计人员等。
目录回到顶部↑
第1篇 入门篇
第1章 搜索引擎概述
1.1 什么是搜索引擎
1.1.1 搜索引擎与信息检索
1.1.2 搜索引擎的概念
1.1.3 搜索引擎的使用
1.1.4 搜索引擎发展历史
1.2 搜索引擎分类
1.2.1 按照工作方式分类
1.2.2 按照领域范围分类
1.2.3 信息类型分类
1.3 主流搜索引擎
1.3.1 全球著名搜索引擎
1.3.2 中文搜索引擎的发展历史
1.3.3 著名中文搜索引擎
1.3.4 其他细化搜索引擎
1.4 搜索引擎评价原则
1.4.1 评价指标体系
1.4.2 其他评测因素
1.5 搜索引擎相关资源
第1章 搜索引擎概述
1.1 什么是搜索引擎
1.1.1 搜索引擎与信息检索
1.1.2 搜索引擎的概念
1.1.3 搜索引擎的使用
1.1.4 搜索引擎发展历史
1.2 搜索引擎分类
1.2.1 按照工作方式分类
1.2.2 按照领域范围分类
1.2.3 信息类型分类
1.3 主流搜索引擎
1.3.1 全球著名搜索引擎
1.3.2 中文搜索引擎的发展历史
1.3.3 著名中文搜索引擎
1.3.4 其他细化搜索引擎
1.4 搜索引擎评价原则
1.4.1 评价指标体系
1.4.2 其他评测因素
1.5 搜索引擎相关资源
前言回到顶部↑
搜索引擎技术是互联网资源导航和访问的重要手段。但是对于一般开发者而言,搜索引擎的底层开发技术过于复杂,加上各大搜索引擎厂商对核心技术严格保密,使搜索引擎开发有很高的门槛。开源搜索引擎项目Lucence和Nutch的出现改变了这一现状。使用这两个软件,普通开发者能够快速搭建搜索引擎应用。.
Lucence和Nutch
Lucence和Nutch系统使用Java语言开发,内部的代码和技术细节全部公开,为搜索技术提供了快速实现方法。由于采用了跨平台的开发语言,在各种开发平台的应用中有很好的适用性。
Lucence提供了强大的全文检索功能,在桌面检索系统、网站级邮件列表、网站站内索引、企业级内部文档管理与检索、情报分析系统、知识管理系统、图书馆检索系统中都能够很好地应用,甚至在部分覆盖了上亿乃至数十亿网页的搜索引擎中也可以应用。Nutch是Lucence得到广泛应用和认可之后出现的搜索引擎系统,内部使用了Lucence的索引管理、存储和检索技术,并进一步封装成一个真正的搜索引擎。两个系统一起完成了搜索引擎从网页下载、文本分析、索引生成、索引存储、信息检索等各个层面的应用。
本书的由来
本书编者在搜索引擎领域从事开发工作多年,非常希望有机会把自己工作中的一些积累和心得与同行共享交流。长期以来由于系统设计与开发工作繁忙,一直未能如愿。
在2007年,有机会放下手头的工作从事知识工程方面的研究,用了一年时间完成本书的写作。本书以实例代码的形式介绍了使用Lucene构建搜索引擎的基本架构,力求让读者通过阅读本书,掌握使用Lucene开发搜索引擎的基本知识并具备一定的项目实践能力。
本书的特点
1.体系完整,内容新颖
本书采用最新版本进行讲解,内容全面,涉及Lucene搜索系统的安装、开发和提高,既能指导新手快速入门,又能为有经验的读者提高进阶的能力。本书覆盖了搜索引擎应用开发的方方面面,如信息下载、文本分析、索引建立、信息检索等,对高性能搜索系统也有相关的描述。
2.注重实效,工程实用
本书以实际工程应用为主线,从实际应用需求、基本结构、具体代码实现和应用效果展开讲解,重视技术的应用。所有实例代码都经过调试和测试,保证代码可用。选择垂直搜索和专题搜索等实际工程应用实例,并做适当的简化、抽象。
3.通俗易懂,条理清晰
本书对复杂的技术内容进行整理和梳理,把复杂的搜索技术原理,以高度概括和通俗的语言进行描述,便于读者理解。层次化展开每个功能点,方便不同层面读者选择读取。
4.图例丰富,步骤详尽
采用大量的直观结构图和原理图,生动、形象地层示枯燥的信息检索技术问题,方便读者阅读。对Lucene和Nutch系统安装和环境设置,按照实际操作给出完整的过程,便于快速学习使用,并给出代码实例的开发和测试步骤,方便读者自己测试和调试。
5.提供学习光盘和学习社区
为了方便读者学习,本书配套光盘提供实例代码、开发包以及部分测试数据。另外本书有专门的学习和讨论社区(www.rzchina.net),帮助大家解决阅读中遇到的问题,并为搜索引擎爱好者提供一个互相交流的场所。
本书的内容
本书共分为3篇12章,具体内容如下。..
Lucence和Nutch
Lucence和Nutch系统使用Java语言开发,内部的代码和技术细节全部公开,为搜索技术提供了快速实现方法。由于采用了跨平台的开发语言,在各种开发平台的应用中有很好的适用性。
Lucence提供了强大的全文检索功能,在桌面检索系统、网站级邮件列表、网站站内索引、企业级内部文档管理与检索、情报分析系统、知识管理系统、图书馆检索系统中都能够很好地应用,甚至在部分覆盖了上亿乃至数十亿网页的搜索引擎中也可以应用。Nutch是Lucence得到广泛应用和认可之后出现的搜索引擎系统,内部使用了Lucence的索引管理、存储和检索技术,并进一步封装成一个真正的搜索引擎。两个系统一起完成了搜索引擎从网页下载、文本分析、索引生成、索引存储、信息检索等各个层面的应用。
本书的由来
本书编者在搜索引擎领域从事开发工作多年,非常希望有机会把自己工作中的一些积累和心得与同行共享交流。长期以来由于系统设计与开发工作繁忙,一直未能如愿。
在2007年,有机会放下手头的工作从事知识工程方面的研究,用了一年时间完成本书的写作。本书以实例代码的形式介绍了使用Lucene构建搜索引擎的基本架构,力求让读者通过阅读本书,掌握使用Lucene开发搜索引擎的基本知识并具备一定的项目实践能力。
本书的特点
1.体系完整,内容新颖
本书采用最新版本进行讲解,内容全面,涉及Lucene搜索系统的安装、开发和提高,既能指导新手快速入门,又能为有经验的读者提高进阶的能力。本书覆盖了搜索引擎应用开发的方方面面,如信息下载、文本分析、索引建立、信息检索等,对高性能搜索系统也有相关的描述。
2.注重实效,工程实用
本书以实际工程应用为主线,从实际应用需求、基本结构、具体代码实现和应用效果展开讲解,重视技术的应用。所有实例代码都经过调试和测试,保证代码可用。选择垂直搜索和专题搜索等实际工程应用实例,并做适当的简化、抽象。
3.通俗易懂,条理清晰
本书对复杂的技术内容进行整理和梳理,把复杂的搜索技术原理,以高度概括和通俗的语言进行描述,便于读者理解。层次化展开每个功能点,方便不同层面读者选择读取。
4.图例丰富,步骤详尽
采用大量的直观结构图和原理图,生动、形象地层示枯燥的信息检索技术问题,方便读者阅读。对Lucene和Nutch系统安装和环境设置,按照实际操作给出完整的过程,便于快速学习使用,并给出代码实例的开发和测试步骤,方便读者自己测试和调试。
5.提供学习光盘和学习社区
为了方便读者学习,本书配套光盘提供实例代码、开发包以及部分测试数据。另外本书有专门的学习和讨论社区(www.rzchina.net),帮助大家解决阅读中遇到的问题,并为搜索引擎爱好者提供一个互相交流的场所。
本书的内容
本书共分为3篇12章,具体内容如下。..
书摘回到顶部↑
第1篇入门篇
第1章搜索引擎概述
1.1什么是搜索引擎
搜索引擎是一款特别的软件系统,能够从互联网上自动搜集信息,并为用户提供查询服务。搜索引擎对原始文档进行了一系列的整理和处理。用户的查询结果是搜索引擎按照某种规则计算获得的。搜索引擎为网民提供了资源查找和导航的有效手段。
1.1.1 搜索引擎与信息检索
搜索引擎并不是一个完全创新的系统,而是借鉴了以往全文检索系统和网络软件系统开发而成的。搜索引擎采用了以往产品的很多技术和思路,尤其是继承了很多信息检索系统的技术和方法。互联网搜索引擎在继承历史技术的同时,针对互联网信息处理的特点,开发出了互联网信息查找工具。
……
第1章搜索引擎概述
1.1什么是搜索引擎
搜索引擎是一款特别的软件系统,能够从互联网上自动搜集信息,并为用户提供查询服务。搜索引擎对原始文档进行了一系列的整理和处理。用户的查询结果是搜索引擎按照某种规则计算获得的。搜索引擎为网民提供了资源查找和导航的有效手段。
1.1.1 搜索引擎与信息检索
搜索引擎并不是一个完全创新的系统,而是借鉴了以往全文检索系统和网络软件系统开发而成的。搜索引擎采用了以往产品的很多技术和思路,尤其是继承了很多信息检索系统的技术和方法。互联网搜索引擎在继承历史技术的同时,针对互联网信息处理的特点,开发出了互联网信息查找工具。
……
评论交流
共有35人开贴评论 40人参与评论 29人参与打分 查看
评价等级:



发表于:2010-10-18 18:23:00
书的整体结构还不错,适合我们初学者,但是当我仔细阅读的时候,发现书里错误还是比较多的,比如39页第二行应该是Java.net.www.http, 在我的JDK是没有这个包,有的是sun.net.www.http,不知道是因为跟作者的环境不同还是怎么的,然后在40页又有两处错误,一个是在声明 receiver时少了一个空格,然后在result输入Http请求头之后没有flush(),我在调试过程中如果少了这一行,程序是没有运行结果的。不知道此段代码,作者或者编者有没有进行调试,感谢作者能跟我们分享你的知识,但是既然是做为出版物,还是希望能够更认真,写出更好的书,加油吧。
| 我要写评论 |
| 查看所有评论交流(共35条) |








点击看大图




加载中...
