基本信息

内容简介
目录
前言
第1章 概述1
1.1 实体识别问题的提出1
1.2 实体识别研究的发展历史2
1.3 实体识别问题的描述4
1.4 实体识别的处理流程6
1.5 实体识别的挑战6
1.5.1 相似度衡量问题7
1.5.2 计算效率问题7
1.5.3 机器学习方法的应用问题8
1.5.4 关联对象的识别问题8
1.5.5 一些新的挑战9
1.5.6 实体识别评估10
1.6 实体识别的应用10
1.6.1 医疗卫生10
1.6.2 人口普查11
1.6.3 客户关系管理12
1.6.4 网购比价13
1.6.5 犯罪及欺诈侦查13
前言
实体识别最早出现在人口普查和医疗卫生等社会公共服务领域,很早就受到公共机构的重视和依赖,从而促进了实体识别的研究。实体识别已经有几十年的研究历史,出现了许多有效的实体识别技术。在大数据时代的今天,实体识别在多个领域有着广泛的应用需求,包括客户关系管理、人口普查、医疗卫生、网购比价、国家安全、引文数据库、垃圾邮件检测、关联的数据(Linked Data)、机器阅读等。
本书作者多年来一直从事数据集成相关研究,实体识别是提升数据集成质量的关键技术之一。在国家973计划、国家自然科学基金、国家863计划等课题的支持下,作者分别针对关系数据对象识别、复杂数据空间中的数据对象识别、具有时间特性的数据对象识别、隐私保护下的数据对象识别等方面进行了深入研究。本书基于已有相关研究,综述了当前已有的实体识别技术,目的是为相关研究者提供一定借鉴作用。
本书共分八章,主要内容包括概述、相似度计算算法、实体识别的分块技术、典型的基于机器学习的实体识别技术和基于关系的实体识别技术,以及新型的实体识别技术(包括基于时间模型的实体识别、基于众包的实体识别、隐私保护下的实体识别)等。
本书由东北大学计算机科学与工程学院计算机科学系申德荣、寇月、聂铁铮、于戈等撰写。其中,申德荣、于戈负责本书前言部分,申德荣、于戈、孙琛琛负责第1章,韩姝敏、寇月负责第2章,聂铁铮负责第3章,孙琛琛、聂铁铮负责第4章,寇月负责第5章,申德荣、韩姝敏负责第6章,孙琛琛、韩姝敏负责第7章,申德荣、孙琛琛负责第8章。参加本书撰写的还有硕士研究生刘宏、汪潜等。全书由申德荣统稿,由于戈教授主审。
我们在撰写本书过程中,覆盖了经典实体识别技术和新型的实体识别技术,跟踪了该学科的新发展和新技术,力求本书具有先进性和实用性。但由于作者学识有限,一定存在许多不足之处,敬请专家和学者批评指正。
序言
为此我们意识到,缺少基础性工作和原始积累,就难以培养符合工业界需要的大数据复合型和交叉型人才。因此急需在思维和理念方面进行转变,为现有的课程和知识体系按大数据应用需求进行延展和补充,加入新的可以因材施教的知识模块。我们肩负着大数据时代知识更新的使命,每一位学者都有责任和义务去为此“增砖添瓦”。
在此背景下,我们策划和组织了这套大数据管理丛书,希望能够培养数据思维的理念,对原有数据管理知识体系进行完善和补充,面向新的技术热点,提出新的知识体系/知识点,拉近教材体系与大数据应用的距离,为受教者应对现代技术带来的大数据领域的新问题和挑战,扫除障碍。我们相信,假以时日,这些著作汇溪成河,必将对未来大数据人才培养起到“基石”的作用。
丛书定位:面向新形势下的大数据技术发展对人才培养提出的挑战,旨在为学术研究和人才培养提供可供参考的“基石”。虽然是一些不起眼的“砖头瓦块”,但可以为大数据人才培养积累可用的新模块(新素材),弥补原有知识体系与应用问题之前的鸿沟,力图为现有的数据管理知识查漏补缺,聚少成多,最终形成适应大数据技术发展和人才培养的知识体系和教材基础。
丛书特点:丛书借鉴Morgan & Claypool Publishers出版的Synthesis Lectures on Data Management,特色在于选题新颖,短小精湛。选题新颖即面向技术热点,弥补现有知识体系的漏洞和不足(或延伸或补充),内容涵盖大数据管理的理论、方法、技术等诸多方面。短小精湛则不求系统性和完备性,但每本书要自成知识体系,重在阐述基本问题和方法,并辅以例题说明,便于施教。
丛书组织:丛书采用国际学术出版通行的主编负责制,为此特邀中国人民大学孟小峰教授(email:xfmeng@ruc.edu.cn)担任丛书主编,负责丛书的整体规划和选题。责任编辑为机械工业出版社华章分社姚蕾编辑(email:yaolei@hzbook.com)。
当今数据洪流席卷全球,而中国正在努力从数据大国走向数据强国,大数据时代的知识更新和人才培养刻不容缓,虽然我们的力量有限,但聚少成多,积小致巨。因此,我们在设计本套丛书封面的时候,特意选择了清代苏州籍宫廷画家徐扬描绘苏州风物的巨幅长卷画作《姑苏繁华图》(原名《盛世滋生图》)作为底图以表达我们的美好愿景,每本书选取这幅巨卷的一部分,一步步见证和记录数据管理领域的学者在学术研究和工程应用中的探索和实践,最终形成适应大数据技术发展和人才培养的知识图谱,共同谱写出我们这个大数据时代的盛世华章。
在此期望有志于大数据人才培养并具有丰富理论和实践经验的学者和专业人员能够加入到这套书的编写工作中来,共同为中国大数据研究和人才培养贡献自己的智慧和力量,共筑属于我们自己的“时代记忆”。欢迎读者对我们的出版工作提出宝贵意见和建议。
大数据管理丛书
主编:孟小峰大数据管理概论
孟小峰编著
2017年5月异构信息网络挖掘:原理和方法
[美]孙艺洲(Yizhou Sun)韩家炜(Jiawei Han)著
段磊朱敏唐常杰译
2017年5月大规模元搜索引擎技术
[美]孟卫一(Weiyi Meng)於德(Clement T.Yu)著
朱亮译
2017年5月大数据集成
[美]董欣(Xin Luna Dong)戴夫士·斯里瓦斯塔瓦(Divesh Sriva-stava)著
王秋月杜治娟王硕译