基本信息
- 原书名:Deep Learning and Image Recognition: Principle and Practice


【插图】

编辑推荐
从技术原理、算法和工程实践3个维度系统讲解图像识别
阿里巴巴达摩院算法专家、阿里巴巴技术发展专家、阿里巴巴数据架构师联合撰写
内容简介
计算机书籍
本书是一本有关人工智能图像识别应用开发与实践指导类的教材,主要介绍图像处理应用项目开发的基本流程、图像识别处理应用项目关键技术。本书直击当今研究热点,选择有代表性的专题项目而且尽量避免复杂的数学推导,易于读者理解,专注于实战。详细介绍了numpy,knn,线性回归,逻辑回归,神经网络在图像识别上的应用,并为后一部分的深度学习做好铺垫。同时,针对每一个项目介绍项目的应用及意义,该项目的数据特征分析、识别系统设计、图像预处理技术、特征提取技术,以及识别方法等。书中实例程序的框架结构简单,代码简洁,读者可在数字图像处理技术的基础上进一步深化学习内容,提高实践应用能力和项目开发能力。
作译者
魏溪含
爱丁堡大学人工智能硕士,阿里巴巴达摩院算法专家,在计算机视觉、大数据领域有8年以上的算法架构和研发经验。
在大数据领域,曾带领团队对阿里巴巴个性化推荐系统进行升级;计算机视觉领域,主导并攻克了光伏EL全自动瑕疵识别的世界难题,并在行为识别领域带领团队参赛打破世界纪录等。
涂铭
阿里巴巴数据架构师,对大数据、自然语言处理、图像识别、Python、Java相关技术有深入的研究,积累了丰富的实践经验。在工业领域曾参与了燃煤优化、设备故障诊断项目,正泰光伏电池片和组件EL图像检测项目;在自然语言处理方面,担任导购机器人项目的架构师,主导开发机器人的语义理解、短文本相似度匹配、上下文理解,以及通过自然语言检索产品库,在项目中构建了NoSQL+文本检索等大数据架构,也同时负责问答对的整理和商品属性的提取,带领NLP团队构建语义解析层。
张修鹏
毕业于中南大学,阿里巴巴技术发展专家,长期从事云计算、大数据、人工智能与物联网技术的商业化应用,在阿里巴巴首次将图像识别技术引入工业,并推动图像识别产品化、平台化,擅于整合前沿技术解决产业问题,主导多个大数据和AI为核心的数字化转型项目成功实施,对技术和商业结合有着深刻的理解。
目录
第1章 机器视觉在行业中的应用1
1.1 机器视觉的发展背景1
1.1.1 人工智能1
1.1.2 机器视觉2
1.2 机器视觉的主要应用场景3
1.2.1 人脸识别3
1.2.2 视频监控分析4
1.2.3 工业瑕疵检测5
1.2.4 图片识别分析6
1.2.5 自动驾驶/驾驶辅助7
1.2.6 三维图像视觉8
1.2.7 医疗影像诊断8
1.2.8 文字识别9
1.2.9 图像/视频的生成及设计9
1.3 本章小结10
第2章 图像识别前置技术11
2.1 深度学习框架11
2.1.1 Theano11
2.1.2 Tensorflow12
前言
随着深度学习技术的发展、计算能力的提升和视觉数据的增长,视觉智能计算技术在许多应用领域如拍照搜索、智能相册、人脸闸机、城市智能交通管理、智慧医疗等都取得了令人瞩目的成绩。因此越来越多的人开始对机器视觉感兴趣,并开始从事这个行业。就图像识别领域来说,运行一个开源的代码并不是什么难事,但搞懂其中的原理确实会稍有些难度。因此本书在每章中都会用相对通俗的语言来介绍算法的背景和原理,并会在读者“似懂非懂”时给出实战案例。实战案例的代码已全部在线下运行通过,代码并不复杂,可以很好地帮助读者理解其中的细节,希望读者在学习理论之后可以亲自动手实践。图像识别的理论和实践是相辅相成的,希望本书可以带领读者走进图像识别的世界。
本书从章节规划到具体的讲述方式,具有以下两个特点:
第一个特点是本书的主要目标读者定位为高校相关专业的本科生(统计学、计算机技术)、图像识别爱好者,以及不具备专业数学知识的人群。图像识别是一系列学科的集合体,它以机器学习、模式识别等知识为基础,因此依赖很多数学知识。本书尽量绕开复杂的数学证明和推导,从问题的前因后果、创造者思考的过程和简单的数学计算的角度来做模型的分析和讲解,目的是以更通俗易懂的方式带领读者入门。另外,在第8~12章的后面都附有参考文献,想要深入了解的读者可以继续阅读。
第二个特点是本书在每章后面都附有实战案例,读者可以结合案例学习,通过实践验证自己想法的价值。在本书的内容编排上,遵循知识点背景介绍—原理剖析—实战案例的介绍方式,同时所有的代码会在书中详细列出或者上传到GitHub,以方便读者下载与调试,帮助读者快速掌握知识点,快速上手,而且这些代码也可以应用到后续实际的开发项目中。在实际项目章节中,选取目前在图像识别领域中比较热门的项目,对之前的知识点进行汇总,帮助读者巩固与提升。
读者对象
统计学或相关IT专业学生
本书的初衷是面向相关专业的学生—拥有大量基于理论知识的认知却缺乏实战经验的人员,让其在理论的基础上深入了解。通过本书,学生可以跟随本书的教程一起操作学习,达到对自己使用的人工智能工具、算法和技术知其然亦知其所以然的目的。
信息科学和计算机科学爱好者
本书是一本近现代科技的历史书,也是一本科普书,还是一本人工智能思想和技术的教科书。通过本书可以了解人工智能领域的前辈们在探索的道路上做出的努力和思考,理解他们不同的观点和思路,有助于开拓自己的思维和视野。
人工智能相关专业的研究人员
本书详细介绍了图像识别的相关知识。通过本书可以了解其理论知识,了解哪些才是项目所需的内容以及如何在项目中实现,能够快速上手。
如何阅读本书
本书从以下几个方面阐述图像识别:
第1章介绍图像识别的一些应用场景,让读者对图像识别有个初步的认识。
第2章主要对图像识别的工程背景做简单介绍,同时介绍了本书后续章节实战案例中会用到的环境,因此该章是实战的基础。
第3~6章是图像识别的技术基础,包括机器学习、神经网络等。该部分的代码主要使用Python实现。没有机器学习基础的同学需要理解这几章之后再往下看,有机器学习基础的同学可以有选择地学习。
第7章是一个过渡章节,虽然第6章中手动用Python实现了神经网络,但由于本书后面的图像识别部分主要使用PyTorch实现,因此使用该章作为过渡,介绍如何使用PyTorch来搭建神经网络。
第8~12章为图像识别的核心。第8章首先介绍了图像中的卷积神经网络与普通神经网络的异同,并给出了常见的卷积神经网络结构。接下来的第9~12章分别介绍了图像识别中的检测、分割、产生式模型以及可视化的问题,并在每章后面给出相应的实战案例。
第13章简单介绍了图像识别的工业部署模式,以帮助读者构建一个更完整的知识体系。
媒体评论
本书主要包含以下内容:
图像识别的9大应用场景
图像识别的工具和环境搭建
图像识别的技术基础,如图像分类算法、机器学习基础、神经网络基础、误差反向传播等
如何用PyTorch实现神经网络分类
图像识别的核心技术,如卷积神经网络、目标检测、分割、生产式模型、神经网络可视化等
图像识别算法的部署模式