基本信息

编辑推荐
---------------------------图书编号:6417905---------------------------
人工智能在信息安全领域的应用
---------------------------图书编号:7017944---------------------------
在现今的互联网公司中,产品线绵延复杂,安全防御体系无时无刻不在应对新的挑战。哪怕是拥有丰富工作经验的安全从业者,在面对层出不穷的攻击手段和海量日志数据时也会望洋兴叹。机器学习、深度学习是这些问题天然契合的解决方案,在数据量以指数级不断增长的未来,甚至有可能是唯一的出路。当AI遇到安全时,如何快速进化,本书给出了实战方案。
本书作者是百度安全专家,他用风趣幽默的语言、深入浅出的方法诠释了卷积神经网络和循环神经网络这两大深度学习算法,及其在Web安全领域中的实际应用,非常实用,包括所有案例源代码,以及公开的测试数据,可极大地降低学习成本,使读者快速上手实践。
内容简介
计算机书籍
---------------------------图书编号:6417905---------------------------
本书首先介绍主流的机器学习工具,以及Python应用于机器学习的优势,并介绍Scikit-Learn环境搭建、TensorFlow环境搭建。接着介绍机器学习的基本概念和Web安全基础知识。然后深入讲解几个机器学习算法在Web安全领域的实际应用,如K近邻、决策树、朴素贝叶斯、逻辑回归、支持向量机、K-Means算法、FP-growth、隐式马尔可夫、有向图、神经网络等,还介绍了深度学习算法之CNN、RNN。本书针对每一个算法都给出了具体案例,如使用K近邻算法识别XSS攻击、使用决策树算法识别SQL注入攻击、使用逻辑回归算法识别恶意广告点击、使用K-Means算法检测DGA域名等。本书作者在安全领域有多年开发经验,全书理论结合实际,案例丰富,讲解清晰,适合于有信息安全基础知识的网络开发与运维技术人员参考。
---------------------------图书编号:7017944---------------------------
本书系统介绍Kafka的实现原理和应用方法,并介绍Kafka的运维工具、客户端编程方法和第三方集成方式,深入浅出、图文并茂、分析透彻。本书共10章,主要内容包括:第1章介绍Kafka诞生的背景和主要涉及目标。第2章介绍Kafka的基本组成、拓扑结构以及内部的通信协议。第3章介绍Broker Server及内部的模块组成。第4章介绍Broker Server内部的九大基本模块。第5章介绍Broker的控制管理模块。第6章介绍Topic的管理工具。第7章从设计原则、示例代码、模块组成和发送模式四个方面介绍有关消息生产者的相关知识。第8章介绍两种消费者:简单消费者和高级消费者。第9章介绍Kafka的典型应用,包括与Storm、ELK、Hadoop、Spark典型大数据系统的集成。第10章介绍了一个综合实例,描述Kafka作为数据总线在安防整体解决方案中的作用。
---------------------------图书编号:7672768---------------------------
本书是作者AI安全领域三部曲的第三部,重点介绍强化学习和生成对抗网络的基础知识和实际应用,特别是在安全领域中攻防建设的实际应用。
作译者
---------------------------图书编号:6417905---------------------------
刘焱 百度安全技术经理,Web防护产品线负责人。全程参与了百度企业安全建设,负责百度安全对外的Web安全产品,包括防DDoS、Web应用防火墙、Web威胁感知、服务器安全防护产品等。研究兴趣包括机器学习、Web安全、僵尸网络、威胁情报等。还建立了微信公众号:“兜哥带你学安全”,发布了大量信息安全技术知识。
---------------------------图书编号:7017944---------------------------
刘焱 百度安全Web防护产品线负责人,负责百度安全的Web安全产品,包括防DDoS、Web应用防火墙、Web威胁感知、服务器安全以及安全数据分析等,具有近十年云安全及企业安全从业经历,全程参与了百度企业安全建设。研究兴趣包括机器学习、Web安全、僵尸网络、威胁情报等。他是FreeBuf专栏作家、i春秋知名讲师,多次在OWASP 、电子学会年会等发表演讲,参与编写了《大数据安全标准白皮书》。他还建立了微信公众号“兜哥带你学安全”,分享了大量信息安全技术知识。AI+安全畅销书《Web安全之机器学习》的作者。
---------------------------图书编号:7672768---------------------------
刘焱 百度安全实验室资深研究员,AI安全产品架构师,研究领域主要包括AI安全、IOT安全、Web安全。原百度安全Web安全产品线负责人、基础架构安全负责人;FreeBuf、雷锋网专栏作家、i春秋知名讲师,多次在OWASP 、电子学会年会发表演讲,参与编写全国信息安全标准化技术委员会发布的《大数据安全标准白皮书》;“兜哥带你学安全”创始人;著有AI安全领域三部曲:《Web安全之机器学习入门》《Web安全之深度学习实战》《Web安全之强化学习与GAN》。
目录
---------------------------图书编号:6417905---------------------------
对本书的赞誉
序一
序二
序三
前言
第1章 通向智能安全的旅程 1
1.1 人工智能、机器学习与深度学习 1
1.2 人工智能的发展 2
1.3 国内外网络安全形势 3
1.4 人工智能在安全领域的应用 5
1.5 算法和数据的辩证关系 9
1.6 本章小结 9
参考资源 10
第2章 打造机器学习工具箱 11
前言
---------------------------图书编号:6417905---------------------------
近几年,人工智能无疑成为人们口中的热点话题,先是谷歌的AlphaGo,后有百度的度秘、无人车,微软必应搜索推出的小冰。这一系列人工智能产品的推陈出新,令人眼花缭乱,一时间给人的感觉是人工智能遍地开花。无论人们接受还是不接受,人工智能都在迅速渗透各行各业。网络安全相比之下是一个传统行业,基于规则以及黑白名单的检测技术已经发展到了一定的瓶颈,而利益驱动的黑产团伙,其技术的发展已经远远超乎我们的想象。如何借助人工智能的力量,提升安全行业的整体检测与防护能力,成为各大安全厂商研究的课题。在国内安全行业, BAT以及大量新兴的创业公司先后进入企业安全领域,他们凭借着自身数据搜集、处理、积累以及人工智能方面的优势,正在逐渐改变着整个安全行业。安全产品的形态也从硬件盒子逐步走向混合模式以及云端SaaS服务,安全技术从重防御逐步走向数据分析以及智能驱动。传统安全厂商也凭借其强大的安全人才储备,迅速推进人工智能在安全产品的落地。
我在网络安全这个行业搬了好几年砖,前五年做大型互联网公司的企业安全建设,从准入系统到WAF、SIEM、IPS等,基本都开发或者使用过,最近三年一直负责云安全产品,从抗D、WAF产品到、SIEM、入侵检测等,使用的技术从规则、黑白名单、模型、沙箱再到机器学习,从单机的OSSIM到Hadoop、Storm、Spark、ELK,也算目睹了安全技术或者更准确地说是数据分析处理技术的迅猛发展。我深深感到,使用人工智能技术改变这个行业不是我们的选择,而是必经之路。我在真正意义上接触机器学习是2014年年底,当时带领了一个很小的团队尝试使用机器学习算法解决安全问题,磕磕绊绊一直走到现在,变成几十人的一个产品团队。
本书是我机器学习三部曲的第一部,主要以机器学习常见算法为主线,以生活中的例子和具体安全场景介绍机器学习常见算法,定位为机器学习入门书籍,便于大家可以快速上手。全部代码都能在普通PC上运行。第二部将重点介绍深度学习,并以具体的十个案例介绍机器学习的应用,主要面向具有一定机器学习基础或致力于使用机器学习解决工作中问题的读者,全书的重点集中在问题的解决而不是算法的介绍。由于深度学习通常计算量已经超过了PC的能力,部分代码需要在服务器甚至GPU上运行,不过这不影响大家的阅读与学习。第三部将重点介绍强化学习和对抗网络,并以若干虚构安全产品或者项目介绍如何让机器真正具备AlphaGo级别的智能。
本书的第1章概括介绍了机器学习的发展以及互联网目前的安全形势。第2章介绍了如何打造自己的机器学习工具箱。第3章概括介绍机器学习的基本概念。第4章介绍Web安全的基础知识。第5章到第13章介绍浅层机器学习算法,包括常见的K近邻、决策树、朴素贝叶斯、逻辑回归、支持向量机、K-Means、FP-growth、Apriori、隐式马尔可夫、有向图。第14章到第17章介绍神经网络以及深度学习中常用的递归神经网络和卷积神经网络。每章都会以生活中的例子开头,让读者有一个感性的认识,然后简短介绍基础知识,最后以安全领域的2~3个例子讲解如何使用该算法解决问题。全书定位是能让更多的安全爱好者以及信息安全从业者了解机器学习,动手使用简单的机器学习算法解决实际问题。在写作中尽量避免生硬的说教,能用文字描述的尽量不用冷冰冰的公式,能用图和代码说明的尽量不用多余的文字。正如霍金所言“多写1个公式,少一半读者”,希望反之亦然。
机器学习应用于安全领域遇到的最大问题就是缺乏大量的黑样本,即所谓的攻击样本,尤其相对于大量的正常业务访问,攻击行为尤其是成功的攻击行为是非常少的,这就给机器学习带来了很大挑战。本书很少对不同算法进行横向比较,也是因为确实在不同场景下不同算法表现差别很大,很难说深度学习就一定比朴素贝叶斯好,也很难说支持向量机就比不过卷积神经网络,拿某个具体场景进行横向比较意义不大,毕竟选择算法不像购买SUV,可以拿几十个参数评头论足,最后还是需要大家结合实际问题去选择。
这里我要感谢我的家人对我的支持,本来工作就很忙,没有太多时间处理家务,写书以后更是花费了我大量的休息时间,我的妻子无条件承担起了全部家务,尤其是照料孩子等繁杂事务。我很感谢我的女儿,写书这段时间几乎没有时间陪她玩,她也很懂事地自己玩,我想用这本书作为她的生日礼物送给她。我还要感谢吴怡编辑对我的支持和鼓励,让我可以坚持把这本书写完。最后还要感谢各位业内好友尤其是我boss对我的支持,排名不分先后:马杰@百度安全、冯景辉@百度安全、林晓东@百度基础架构、黄颖@百度IT、李振宇@百度AI、Lenx@百度安全、黄正@百度安全、程岩@百度云、郝轶@百度云、云鹏@百度无人车、赵林林@微步在线、张宇平@数盟、谢忱@Freebuf、李新@Freebuf、李琦@清华、徐恪@清华、王宇@蚂蚁金服、王珉然@蚂蚁金服、王龙@蚂蚁金服、周涛@启明星辰、姚志武@借贷宝、刘静@安天、刘袁君@医渡云、廖威@易宝支付、尹毅@sobug、宋文宽@联想、团长@宜人贷、齐鲁@搜狐安全、吴圣@58安全、康宇@新浪安全、幻泉@i春秋、雅驰@i春秋、王庆双@i春秋、张亚同@i春秋、王禾@微软、李臻@paloalto、西瓜@四叶草、郑伟@四叶草、朱利军@四叶草、土夫子@XSRC、英雄马@乐视云、sbilly@360、侯曼@360、高磊@滴滴、高磊@爱加密、高渐离@华为、刘洪善@华为云、宋柏林@一亩田、张昊@一亩田、张开@安恒、李硕@智联、阿杜@优信拍、李斌@房多多、李程@搜狗、Tony@京东安全、简单@京东安全、姚聪@face+、李鸣雷@金山云,最后我还要感谢我的亲密战友陈燕、康亮亮、蔡奇、哲超、新宇、子奇、月升、王磊、碳基体、刘璇、钱华钩、刘超、王胄、吴梅、冯侦探、冯永校。
本书面向信息安全从业人员、高等院校计算机相关专业学生以及信息安全爱好者,机器学习爱好者,对于想了解人工智能的CTO、运维总监、架构师同样也是一本不错的科普书籍。当读者在工作学习中遇到问题时可以想起本书中提到的一两种算法,那么我觉得就达到效果了,如果可以让读者像使用printf一样使用SVM、朴素贝叶斯等算法,那么这本书就相当成功了。
我平时在FreeBuf专栏以及i春秋分享企业安全建设以及人工智能相关经验与最新话题,同时也运营我的微信公众号“兜哥带你学安全”,欢迎大家关注并在线交流。
本书使用的代码和数据均在GitHub上发布,地址为:https://github.com/duoergun0729/1book,代码层面任何疑问可以在GitHub上直接反馈。
---------------------------图书编号:7017944---------------------------
序言
---------------------------图书编号:6417905---------------------------
兜哥是网络安全行业的老兵,早在成为自媒体人之前,他所带领的团队在Web入侵检测、WebShell识别等技术上就是百度安全防御的重要组成部分。他是一位十分难得的拥有敏感产品神经的技术人,在百度这些年,不仅将许多新产品、新技术引入百度,丰富百度防御能力,更通过自己的努力将百度在威胁检测等方面的经验不断传播出去。他通过自己的智能安全三部曲将他在人工智能方向的探索向业界做了系统性分享,在安全技术亟待突破的今天,有着很深的借鉴意义。本书是他的第一部著作,重点介绍如何在安全场景下进行机器学习。
回顾网络安全行业这十年来的发展,从防火墙、下一代防火墙、入侵检测到威胁情报,安全厂商一次次将新的概念引入,将新的技术包装,但安全威胁的现状却一天天恶化着,当我们看到越来越多的安全入侵事件发生,其波及范围也已经不仅仅是互联网业务,更有大量的国民基础设施深陷泥潭,我们不禁要问,是黑客越来越强大,还是我们的技术不够先进?我们被眼花缭乱的技术所困,却忽略了安全的本质——对抗。今天炙手可热的人工智能是否也会是一枚“银弹”?
诚然,人工智能在自然语言处理、图像识别、棋类对抗领域的成绩有目共睹,而安全能否成为下一个人工智能的突破口?现在看来,一切正方兴未艾,在有监督学习方向,能否大幅简化安全工程师的工作量,让准实时对抗成为可能;在无监督学习方向,能否突破安全对抗的猫鼠游戏,让安全由被动变为主动。等待我们的将是一场令人激动的技术探索。
冯景辉,安全宝联合创始人,百度商业安全总监
马杰,安全宝创始人,百度安全总经理
序二
兜哥在通过数据分析进行安全检测的技术方面已经积累了很长时间,从最初我们合作建立国内最大TB级别日志分析系统开始,在这几年中,他一直在不断尝试使用更合适的技术来解决问题,这次欣喜地看到了他又有新的突破。
拿到样章当看到“通向智能安全的旅程”这一章时,着实被深深地吸引住了,在新技术中尝试使用机器学习的能力,借助AI,能让系统变得更加聪明更好用,从而更好地解决问题。Gartner在2015年就提出过“自适应安全架构来应对高级定向攻击”的概念,其中实现这套架构很重要的一个阶段就是让系统具备对攻击的预测能力,“预测”是一种更接近人的思考方法,通过机器学习及人工智能的技术迭代,这将有可能实现。
安全数据分析已经从搭建大数据分析系统过渡到使用机器学习的过程中了,通过机器学习算法对安全事件的分析在一段时间内也许并不能突出优势,就像我们面对一个天才少年一样,因为阅历原因暂时他不能超越你,但他一定会用非常短的时间就能追上并且更好地帮助你。
阅读过程中常常感叹于兜哥的细心和他对此系列书的撰写决心,兜哥是一位不折不扣的技术实践者,全书使用了超过15种机器学习的算法,收集整理了大量或知名、或在真实环境下出现过的案例,并一一详细给出了使用机器学习算法进行分析的方法。书中还包含了丰富的数据集以及大量的实例,能帮助入门的同学降低学习成本,快速进入技术实践中。阅读的过程中,我常常在假想,如果回到几年前看到这本书,现在我们搭建的分析系统又将是另一番景象。
本书的写作风格是实战型的,围绕常见的安全问题,通过代码导读的方式,把每个问题与机器学习算法相关联,循序渐进,揭开了机器学习的神秘面纱。对于立志从事信息安全技术的同学来说,这种实战型的案例更直观,更能激发学习兴趣,推动机器学习在安全分析上的应用。
云朋,百度无人车首席安全架构师
序三
跟兜哥相识迄今一年有余,当时我还在一个跨境电商公司当码农头子,互金、电商也都还是资本圈炙手可热的概念,我们这个小而美的电商公司不能免俗,三天一小促,五天一大促地在玩着冲刺GMV(日总交易金额)的游戏。玩命狂奔业绩的同时,我早早地就跟当时还身为独立安全公司的“安全宝”交了抗DDoS费,保证每次业务起起落落的时候,不会受到某一小撮别有用心的敌对势力的干扰。“安全宝”的服务接入不到半年就爆出新闻,百度全资收购了“安全宝”,推出了面向企业的百度安全服务体系。一直跟我对接的“安全宝”的销售朋友摇身一变,成为三巨头之一的金领员工。朋友高升遇喜自然要多多分享,于是某日就电话约了 “百度资深安全工程师和销售团队”来我们这里做一个交流。产品介绍、业界八卦聊了半个多小时以后,一直安坐对方一角,眼睛闪着灵光的胖子始终没说话。我接受不了屋里仅有两个胖子,一个是我一直在聊;另一个胖子却如此沉默。于是我就开口问:“你们客户端的那个核心xx功能,就是这个角落里不说话的大黑客写的吧?”
媒体评论
---------------------------图书编号:6417905---------------------------
此亦笃信之年,此亦大惑之年。此亦多丽之阳春,此亦绝念之穷冬。人或万事俱备,人或一事无成。我辈其青云直上,我辈其黄泉永坠。——《双城记》狄更斯著,魏易译
如今是一个人工智能兴起的年代,也是一个黑产猖獗的年代;是一个机器学习算法百花齐放的年代,也是一个隐私泄露、恶意代码传播、网络攻击肆虐的年代。AlphaGo碾压柯洁之后,不少人担心AI会抢了人类的工作,然而信息安全领域专业人才严重匮乏,极其需要AI来补充专业缺口。
兜哥的这本书展示了丰富多彩的机器学习算法在错综复杂的Web安全中的应用,是一本非常及时的人工智能在信息安全领域的入门读物。正如书中所述,没有最好的算法,只有最合适的算法。虽然这几年深度学习呼声很高,但各种机器学习算法依然在形形色色的应用场景中有着各自独特的价值,熟悉并用好这些算法在安全领域的实战中会起到重要的作用。
——Lenx,百度首席安全科学家,安全实验室负责人
存储和计算能力的爆发式增长,让我们获得了比以往更全面、实时地获取以及分析数据的潜在能力,但面对产生的海量信息如何快速准确地转化为业务需求则需要依赖一些非传统的手段。就安全领域来说,原先依赖于规则的问题解法过于受限于编写规则的安全专家自身知识领域的广度和深度,以及对于问题本质的理解能力。但我们都知道,安全漏洞层出不穷,攻击利用的方式多种多样,仅仅依赖于规则进行问题的发现在现阶段的威胁形势下慢慢变得捉襟见肘。面对威胁,企业安全人员需要打造这样一种能力,它能够让我们脱离单纯的点对点的竞争,case by case的对抗,转而从更高的维度上来审视业务,发现潜在的异常事件。这些异常事件可能会作为安全人员深入调查的起点,让我们具备找到原有安全能力盲区以及发现新威胁的能力,使我们的技能水平以及对威胁的响应速度能持续提升。同时这种能力和防御体系结合,也有可能让我们达到在面对某些未知威胁时,以不变应万变,获得天然免疫的理想状态。兜哥的这本书或许是开启我们这种能力的一把钥匙。本书通过介绍通俗易懂的机器学习原理,结合实际企业中的安全业务需求场景,让广大安全人员能够感受到这种“如日中天”的技术在传统安全领域内如何大放异彩。最后,May the force be with you。
——王宇,蚂蚁金服安全总监
百度是拥有海量互联网数据的几家公司之一,兜哥是百度前IT安全负责人,现Web安全产品负责人,研发的产品不仅应用于百度公司内部检测网络攻击,也应用在多个百度的商业安全产品中,服务于数万站长。兜哥的团队是国内最早一批将机器学习算法应用于网络安全场景的团队之一,本书聚集了兜哥及其团队多年的安全实践经验,覆盖了互联网公司可能会遇到的多个安全场景, 比如用图算法检测WebShell等,非常好地解决了百度商业安全客户被入侵留后门的问题。兜哥将自己的技术选型、算法、代码倾囊相授,我相信本书的出版将会大大降低安全研发工程师转型安全数据分析专家的难度,值得推荐。
——黄正,百度安全实验室X-Team负责人,MSRC 2016中国区第一
在大数据时代,犯罪分子作案的手段越来越高明,手动分析的成本越来越高,效率也越来越低;与此同时,人工智能技术越来越成熟,安全与人工智能技术相结合,才能适应新的环境,推荐安全从业者学习这本书。
——桑文峰,神策数据创始人&CEO
网络世界的攻击与防护对抗发展到今天,各种技术已经日趋专业和精细,通过古老的string-match的防御方式越来越不能适应新的攻击环境,对于想尝试着把机器学习和安全相结合的从业人员来说,阅读本书是个很好的开端。
——赵林林,微步在线技术合伙人,前美团、高德安全负责人
就我有限的了解,在很长一段时间里,安全技术和机器学习技术都是分别演进的。安全问题几乎会伴随着任何新生事物而来,并与之同生长,这也使得安全研究人员往往会把注意力局限于关注事物的个体特征而忽略其群体特征;而有的时候,即使有意于群体特征的研究,也可能会囿于工具和方法以致难于寸进,这对安全问题的解决形成了事实上的约束。机器学习作为一种可以从另一个维度来解决问题的技术,则对此约束进行了相当程度的突破。用新工具去解决老问题,这要求对这两者都有比较深入的了解(例如 AlphaGo),基于了解而进行实践,基于实践而予以总结分享,这样的知识分享和传递,正是刘焱这本书的价值所在。
——张宇平,数盟CTO