编辑推荐
随着互联网搜索引擎取得商业上的巨大成功,越来越多的读者对信息检索技术产生了浓厚的兴趣。本书作者基于多年信息检索教学与科研实践心得编写了本书,从基础到应用,从理论到实践,从经典算法到最新的研究成果,全面地介绍信息检索系统中的各项核心技术。书中详细阐述信息检索模型、常用的文本操作技术、文本的索引和搜索技术、查询处理相关的技术、评测技术等,有利于读者了解信息检索系统的基本实现原理,掌握搜索引擎的关键技术。
本书特点
理论联系实际,介绍了用Lucene实现Web信息检索的实例。
融入了作者的科研实践心得,对相关的前沿技术也有所涉及。
每章后都附有大量的参考文献,并提供思考题供读者进行深入研究。
本书为授课教师提供电子课件,请登录华章网站下载。
内容简介
书籍 计算机书籍
本书对信息检索及信息检索系统的基本概念、原理、算法进行详尽介绍。主要内容包括信息检索模型、文本操作技术、文本索引和搜索技术、查询处理与Web检索技术、分布式信息检索、文本分类与聚类、信息过滤等,并给出Web信息检索的实现实例。
本书内容丰富,源于作者多年的教学及科研心得,适合作为高等院校计算机专业本科生及研究生相关课程的教材,也可作为技术人员研究信息检索与搜索引擎的参考读物。
作译者
刘挺,教授,博士生导师。哈尔滨工业大学计算机研究所副所长,信息检索研究室主任。国家863”中文处理”重点项目总体组专家。中国中文信息学会理事.信息检索专委会副主任.计算语言学专委会委员,《中文信息学报》编委。中国计算机学会中文信息技术专委会委员,YOCSEF委员。曾任IJCNLP、AIRS等国际会议的程序委员会委员,以及全国信息检索会议NCIRCS的程序委贯会主席,JSCL的多属委员等。主要研究方向为信息检索和自然语言处理,主持多项国家、部委、国际金作、企业合作等科研项目.在相关领域发表论文60余篇。
目录
序
前言
作者简介
教学建议
第1章 绪论
1.1 信息检索简介
1.1.1 信息检索的概念和处理对象
1.1.2 信息检索的基本流程
1.1.3 与信息检索相关的学科
1.2 信息检索的研究内容
1.2.1 信息检索要解决的问题
1.2.2 信息检索中的基础研究课题
1.2.3 信息检索中的关键技术
1.2.4 信息检索中的应用研究
1.3 信息检索的历史、现状与未来
1.3.1 信息检索的历史
1.3.2 信息检索的现状与未来
1.4 本书结构
本章小结
思考练习
第2章 信息检索模型
2.1 信息检索模型的定义和分类
2.1.1 信息检索模型的定义
2.1.2 信息检索模型的分类
2.2 布尔模型
2.2.1 布尔模型的定义
2.2.2 布尔模型示例
2.3 向量空间模型
2.3.1 向量空间模型的定义
2.3.2 常见相似度计算方法
2.3.3 向量空间模型与布尔模型的比较
2.4 概率模型
2.4.1 概率模型的定义
2.4.2 概率模型的优缺点
2.5 扩展布尔模型
2.5.1 扩展布尔模型简介
2.5.2 基本模糊集合模型
2.5.3 扩展模糊集合模型
2.6 统计语言模型
2.6.1 语言模型简介
2.6.2 数据稀疏和平滑
2.6.3 基于语言模型的检索模型
2.6.4 基于语言模型的信息检索模型的优缺点分析
2.7 隐性语义索引模型
2.7.1 隐性语义索引
2.7.2 隐性语义索引模型原理
2.7.3 隐性语义索引实例
2.7.4 隐性语义索引模型的特点
2.8 基于本体论的模型
2.8.1 本体论的概念
2.8.2 描述本体的语言
2.8.3 本体的构造
2.8.4 常用的本体库简介
2.8.5 本体论在信息检索系统中的应用
本章小结
思考练习
参考文献
第3章 信息检索系统的评价
3.1 引言
3.2 性能评价指标
3.2.1 准确率和召回率
3.2.2 单值评价方法
3.2.3 一些特殊的评价方法
3.2.4 其他测度方法
3.3 国外信息检索评测
3.3.1 TREC评测
3.3.2 NTCIR评测
3.3.3 CLEF评测
3.4 国内信息检索评测
3.4.1 863信息检索评测
3.4.2 SEWM中文Web评测
3.5 信息检索评价的研究
3.5.1 现有研究成果介绍
3.5.2 今后的研究问题与趋势
本章小结
思考练习
参考文献
第4章 文本操作技术
4.1 引言
4.2 英文词法分析
4.2.1 断词
4.2.2 词干提取
4.3 中文词法分析
4.3.1 最大匹配法
4.3.2 歧义词切分
4.3.3 未登录词识别
4.3.4 分词系统介绍
4.3.5 语料及评测
4.4 相关资源
4.4.1 停用词表
4.4.2 词典资源
4.5 英文拼写检查
4.5.1 形态还原
4.5.2 词语相似度计算
本章小结
思考练习
参考文献
第5章 文本索引和搜索
5.1 引言
5.2 倒排文件
5.2.1 倒排文件简介
5.2.2 倒排文件的使用
5.2.3 倒排文件的建立
5.2.4 倒排文件的维护
5.2.5 倒排文件的压缩
5.2.6 倒排文件性能分析
5.3 词汇表的存取
5.3.1 排序数组
5.3.2 B树
5.3.3 Trie树
5.4 后缀数组
5.4.1 后缀数组的构造
5.4.2 后缀数组的使用
5.4.3 后缀数组的分析
5.5 签名文件
5.5.1 签名文件的构造
5.5.2 签名文件的使用和维护
5.5.3 签名文件的分析
5.6 文本搜索技术
5.6.1 BF算法
5.6.2 KMP算法
5.6.3 BM算法
5.6.4 精确模式匹配算法的选择
本章小结
思考练习
参考文献
第6章 查询处理技术
6.1 引言
6.2 查询构造方法
6.2.1 单一词查询
6.2.2 上下文查询
6.2.3 布尔查询
6.3 相关反馈与查询重构
6.3.1 向量空间模型中的反馈与查询重构
6.3.2 概率模型中的反馈与查询重构
6.3.3 布尔模型中的反馈与查询重构
6.3.4 相关反馈的评价
6.4 自动查询扩展技术
6.4.1 查询扩展的全局分析方法
6.4.2 查询扩展的局部分析方法
6.4.3 基于词典库的查询扩展
6.5 交互式查询扩展
6.6 查询处理的发展趋势
本章小结
思考练习
参考文献
第7章 Web检索技术
7.1 引言
7.2 Web检索的工作流程及系统结构
7.2.1 工作流程
7.2.2 系统结构
7.3 Web数据的采集
7.3.1 Web数据采集系统的工作原理
7.3.2 Web数据采集系统的相关概念及协议
7.3.3 Web数据采集系统的基本结构
7.3.4 Web数据采集系统的分类
7.4 网页的预处理
7.4.1 网页去重
7.4.2 正文提取
7.5 相关性排序系统
7.5.1 早期的相关性排序技术
7.5.2 链接分析技术
7.5.3 多特征融合的相关性排序算法
7.6 Web检索系统的其他模块
本章小结
思考练习
参考文献
第8章 分布式信息检索
8.1 引言
8.2 分布式信息检索系统体系结构
8.3 文档集合的划分
8.4 文档集合的选择
8.4.1 文档集合的表示
8.4.2 集合选择算法
8.4.3 文档集合选择算法的评价
8.5 检索结果的合并
本章小结
思考练习
参考文献
第9章 Web信息检索实践
9.1 引言
9.2 利用Lucene建立索引
9.2.1 在Lucene中建立索引的主要步骤
9.2.2 基本索引程序
9.2.3 深入控制Lucene索引过程
9.2.4 与索引相关的并发问题
9.3 利用Lucene进行搜索
9.3.1 IndexSearcher
9.3.2 Hits
9.3.3 Query与QueryParser
本章小结
思考练习
参考资源
第10章 文本分类与聚类
10.1 引言
10.2 文本分类
10.2.1 文本分类概述
10.2.2 文本分类的过程
10.2.3 分类算法
10.2.4 文本分类的评估指标
10.2.5 相关评测和相关资源
10.3 文本聚类
10.3.1 文本聚类概述
10.3.2 层次聚类
10.3.3 基于划分的聚类
10.3.4 基于密度的方法
10.3.5 自组织映射
10.3.6 基于模型的方法
10.3.7 文本聚类结果的描述
11.3.8 文本聚类的评价方法
本章小结
思考练习
参考文献
第11章 信息过滤技术
11.1 引言
11.2 信息过滤的概念及主要研究内容
11.2.1 信息过滤的概念和主要特点
11.2.2 信息过滤与信息检索、信息抽取以及分类等研究的区别
11.2.3 信息过滤系统的分类体系
11.3 信息过滤系统的结构及评价
11.3.1 信息过滤系统的组成
11.3.2 信息过滤系统的评价
11.4 基于内容的信息过滤
11.4.1 信息过滤中应用的统计模型
11.4.2 信息过滤中应用的文本分类方法
11.5 协作过滤
11.5.1 基于用户的协作过滤
11.5.2 基于模型的协作过滤
11.5.3 基于项目的协作过滤
本章小结
思考练习
参考文献
第12章 问答系统
12.1 引言
12.2 问答系统的发展历程
12.3 问答系统的种类
12.3.1 问答系统分类方法
12.3.2 自然语言的数据库问答系统
12.3.3 对话式问答系统
12.3.4 基于常问问题集的问答系统
12.3.5 基于大规模文档集的问答系统
12.3.6 阅读理解系统
12.3.7 基于知识库的问答系统
12.4 基于常问问题集的问答系统实现
12.4.1 候选问题集的建立
12.4.2 句子相似度计算
12.5 基于大规模文档集的问答系统实现
12.5.1 问答的任务与系统实现流程
12.5.2 问题分析
12.5.3 相关文档检索
12.5.4 句段检索
12.5.5 答案抽取
12.5.6 问答结果的答案评测及其面对的问题和困难
本章小结
思考练习
参考文献
前言
信息检索这个术语同时被情报科学领域和计算机科学领域所使用。在情报科学领域,信息检索主要是指如何使用文献检索工具查找资料,例如查询科学引文数据库等;在计算机科学领域,信息检索是指信息检索算法及软件系统的研究和开发,比如建立索引的方法,检索结果的排序算法等。概括地说,前者是对工具的使用,后者是工具的研制,二者大不相同,以往出版的以“信息检索”为题的书籍大多是情报领域的,而本书属于计算机领域,为此作者在书名中特别增加了“系统”一词,以示区别,而本书中出现的“信息检索”一词均指计算机领域的信息检索,这一点请读者特别注意。从这一定位上说,本书适合计算机专业、软件专业以及情报管理专业中偏重于计算机系统开发的本科生、研究生阅读,也可供信息检索领域的相关学者参考。.
近年来,随着以Google、百度为代表的搜索引擎公司的崛起,越来越多的青年才俊对Internet搜索技术产生了浓厚的兴趣,很多同学选修信息检索课程,剖析开源的搜索引擎代码,申请加入与搜索相关的研究室,有的同学毕业后加盟与搜索技术相关的企业,有的则开始创业,开发新型的搜索引擎。这些充满激情、才华横溢的大学生们迫切地希望了解搜索引擎的奥秘,掌握搜索技术的架构和算法思想。
本书正是为满足读者对搜索技术的渴望而编写的,不过本书并不直接讲述如何搭建一个搜索引擎,而是侧重介绍搜索引擎背后的理论和算法。事实上,搜索引擎是一种网络上的应用,它的基础在“信息检索”。搜索引擎是随着Internet而发展起来的,只有十几年的历史,而信息检索伴随着计算机而兴起,有几十年的历史。信息检索方面长期的理论储备和技术积淀,为今天搜索引擎的蓬勃发展奠定了基础。掌握了信息检索的基础理论和技术,才能更深刻地理解搜索引擎的内涵,把握其千变万化中不变的本质。
八年来,笔者在哈尔滨工业大学为研究生和本科生讲授信息检索课程,同时从事信息检索方面的研究。在教学与科研实践中,深感需要一本完整而系统地介绍信息检索的教材,为此在以往教案的基础上经过反复删改补充完成了此书。本书一共有12章,可以分为四个部分,第一部分是第1~3章,介绍信息检索的基础内容,包括绪论、模型和评价;第二部分是4~6章,全面介绍信息检索系统中的各项技术,包括查询处理、文档处理、索引和检索技术;第三部分是第7~9章,讲述检索中的一些高级话题,包括Web检索、分布式检索以及开源的搜索代码等;第四部分是第10~12章,主要介绍信息检索应用,分别介绍分类和聚类、信息过滤和自动问答技术。本书试图从基础到应用,从理论到实践,从经典算法到最新的研究成果全面地介绍信息检索系统中的核心技术。由于笔者的研究背景所限,本书专注于文本检索,而没有涉及图像、语音、视频等多媒体检索。..
本书是在哈尔滨工业大学信息检索研究室十余位老师和同学的共同努力下完成的。参加本书编写的还有:高立琦、刘桂平、张志辉、马金山、孙军、龚诚、郑伟、陈儒、陈毅恒、洪宇、张志昌,还有毕业后一直在中科院计算所工作的张刚。此外,刘怀军、祝惠佳、赵妍妍、林建国等人参加了校对工作。秦兵老师担当了信息检索课程的主要教学任务,她也是这本书的主要组织者,为本书的成稿付出了大量的心血。笔者们的老师李生教授在百忙中担任了本书的主审,同时本书也得到了李生教授主持的国家自然科学基金重点项目“下一代信息检索研究”(编号60736044)的资助。
基于关键词的通用搜索技术已经发展到了一定的高度,但这只是拉开了Internet信息处理的序幕,更为广阔的市场需求和研究空间正在我们面前展开。在搜索方面,垂直搜索、个性化搜索、多语言搜索、移动搜索、问答式搜索、社区化搜索等代表了未来的趋势;在文本挖掘方面,信息的抽取与聚合、实体关系挖掘、意见挖掘与情感倾向性分析、针对各种类型文本的多层次多角度分类等很多以往只在学术论文中提到的内容开始展现出实用价值。希望本书能够起到为国内信息检索领域多铺一块垫脚石的作用,帮助更多的读者提高对信息检索的兴趣,加深对信息检索的了解,加入到信息检索的研发队伍中来。
由于作者水平有限,书中疏漏在所难免,敬请读者批评指正。...
作者
2008年7月
于哈尔滨工业大学
序言
信息检索和搜索引擎因Internet的普及而日益变成一个热门学科。各种相关学科的技术都被用于信息检索,而信息检索也被用于各个领域。.
热门固然是一门学科兴盛的表现,每个从事研究的人都希望自己的研究领域成为热门。但热门也可能带来危险,即把信息检索当作一种时髦技术,无论适用与否都将其套用而不究其根本。对于信息检索而言,这种时髦反而是它进一步发展的障碍。
实际上,信息检索是一门复杂的学科。它的目的看似简单——找出相关的信息,却涉及计算机科学几乎所有的方面:编码、数据结构、算法……直至自然语言处理及知识的表达和应用。而在研究信息检索时,我们不得不时时思考,什么是相关信息?这个问题牵涉许多学科:信息学、数学、哲学……。要对这样一门复杂的学科有一个全面的了解,就需要一本合适的教材。一本好的教材就是一个好的引路人,而用中文编写的好的信息检索的书却为数不多。..
刘挺教授和他的同事们编写的这本书正是一本能把读者引入这个领域的好书。它系统地介绍信息检索的各个方面,以及它的各种应用。从书中不但可以看到对各种古典方法及模型的描述和讨论,还可以读到对广泛使用的Lucene开源系统的介绍。对信息检索感兴趣的学生和学者能从这些介绍中得到莫大的帮助。
搜索引擎正处于它的兴旺时期,但这并不意味着我们已经成功地解决了它的问题。它正在扩展到人们生活的各个角落而成为一种必需的工具。由此带来的新的问题尚待我们去解决。毫无疑问,这本书为解决这些问题提供了一个很好的基础,而它的系统性的介绍和深入浅出的描述,也将使它成为适合本科生及研究生的教材之一。...
聂建云
加拿大蒙特利尔大学教授