- 定价:¥79.00
- 校园优惠价:¥51.35 (65折) (马上了解)
- 评分:
(已有0条评价)
- 电子书:Web安全之机器学习入门
- 促销活动:
- 我要买:
基本信息

编辑推荐
人工智能在信息安全领域的应用
内容简介
计算机书籍
本书首先介绍主流的机器学习工具,以及Python应用于机器学习的优势,并介绍Scikit-Learn环境搭建、TensorFlow环境搭建。接着介绍机器学习的基本概念和Web安全基础知识。然后深入讲解几个机器学习算法在Web安全领域的实际应用,如K近邻、决策树、朴素贝叶斯、逻辑回归、支持向量机、K-Means算法、FP-growth、隐式马尔可夫、有向图、神经网络等,还介绍了深度学习算法之CNN、RNN。本书针对每一个算法都给出了具体案例,如使用K近邻算法识别XSS攻击、使用决策树算法识别SQL注入攻击、使用逻辑回归算法识别恶意广告点击、使用K-Means算法检测DGA域名等。本书作者在安全领域有多年开发经验,全书理论结合实际,案例丰富,讲解清晰,适合于有信息安全基础知识的网络开发与运维技术人员参考。
作译者
目录
序一
序二
序三
前言
第1章 通向智能安全的旅程 1
1.1 人工智能、机器学习与深度学习 1
1.2 人工智能的发展 2
1.3 国内外网络安全形势 3
1.4 人工智能在安全领域的应用 5
1.5 算法和数据的辩证关系 9
1.6 本章小结 9
参考资源 10
第2章 打造机器学习工具箱 11
2.1 Python在机器学习领域的优势 11
2.1.1 NumPy 11
2.1.2 SciPy 15
2.1.3 NLTK 16
2.1.4 Scikit-Learn 17
2.2 TensorFlow简介与环境搭建 18
前言
我在网络安全这个行业搬了好几年砖,前五年做大型互联网公司的企业安全建设,从准入系统到WAF、SIEM、IPS等,基本都开发或者使用过,最近三年一直负责云安全产品,从抗D、WAF产品到、SIEM、入侵检测等,使用的技术从规则、黑白名单、模型、沙箱再到机器学习,从单机的OSSIM到Hadoop、Storm、Spark、ELK,也算目睹了安全技术或者更准确地说是数据分析处理技术的迅猛发展。我深深感到,使用人工智能技术改变这个行业不是我们的选择,而是必经之路。我在真正意义上接触机器学习是2014年年底,当时带领了一个很小的团队尝试使用机器学习算法解决安全问题,磕磕绊绊一直走到现在,变成几十人的一个产品团队。
本书是我机器学习三部曲的第一部,主要以机器学习常见算法为主线,以生活中的例子和具体安全场景介绍机器学习常见算法,定位为机器学习入门书籍,便于大家可以快速上手。全部代码都能在普通PC上运行。第二部将重点介绍深度学习,并以具体的十个案例介绍机器学习的应用,主要面向具有一定机器学习基础或致力于使用机器学习解决工作中问题的读者,全书的重点集中在问题的解决而不是算法的介绍。由于深度学习通常计算量已经超过了PC的能力,部分代码需要在服务器甚至GPU上运行,不过这不影响大家的阅读与学习。第三部将重点介绍强化学习和对抗网络,并以若干虚构安全产品或者项目介绍如何让机器真正具备AlphaGo级别的智能。
本书的第1章概括介绍了机器学习的发展以及互联网目前的安全形势。第2章介绍了如何打造自己的机器学习工具箱。第3章概括介绍机器学习的基本概念。第4章介绍Web安全的基础知识。第5章到第13章介绍浅层机器学习算法,包括常见的K近邻、决策树、朴素贝叶斯、逻辑回归、支持向量机、K-Means、FP-growth、Apriori、隐式马尔可夫、有向图。第14章到第17章介绍神经网络以及深度学习中常用的递归神经网络和卷积神经网络。每章都会以生活中的例子开头,让读者有一个感性的认识,然后简短介绍基础知识,最后以安全领域的2~3个例子讲解如何使用该算法解决问题。全书定位是能让更多的安全爱好者以及信息安全从业者了解机器学习,动手使用简单的机器学习算法解决实际问题。在写作中尽量避免生硬的说教,能用文字描述的尽量不用冷冰冰的公式,能用图和代码说明的尽量不用多余的文字。正如霍金所言“多写1个公式,少一半读者”,希望反之亦然。
机器学习应用于安全领域遇到的最大问题就是缺乏大量的黑样本,即所谓的攻击样本,尤其相对于大量的正常业务访问,攻击行为尤其是成功的攻击行为是非常少的,这就给机器学习带来了很大挑战。本书很少对不同算法进行横向比较,也是因为确实在不同场景下不同算法表现差别很大,很难说深度学习就一定比朴素贝叶斯好,也很难说支持向量机就比不过卷积神经网络,拿某个具体场景进行横向比较意义不大,毕竟选择算法不像购买SUV,可以拿几十个参数评头论足,最后还是需要大家结合实际问题去选择。
这里我要感谢我的家人对我的支持,本来工作就很忙,没有太多时间处理家务,写书以后更是花费了我大量的休息时间,我的妻子无条件承担起了全部家务,尤其是照料孩子等繁杂事务。我很感谢我的女儿,写书这段时间几乎没有时间陪她玩,她也很懂事地自己玩,我想用这本书作为她的生日礼物送给她。我还要感谢吴怡编辑对我的支持和鼓励,让我可以坚持把这本书写完。最后还要感谢各位业内好友尤其是我boss对我的支持,排名不分先后:马杰@百度安全、冯景辉@百度安全、林晓东@百度基础架构、黄颖@百度IT、李振宇@百度AI、Lenx@百度安全、黄正@百度安全、程岩@百度云、郝轶@百度云、云鹏@百度无人车、赵林林@微步在线、张宇平@数盟、谢忱@Freebuf、李新@Freebuf、李琦@清华、徐恪@清华、王宇@蚂蚁金服、王珉然@蚂蚁金服、王龙@蚂蚁金服、周涛@启明星辰、姚志武@借贷宝、刘静@安天、刘袁君@医渡云、廖威@易宝支付、尹毅@sobug、宋文宽@联想、团长@宜人贷、齐鲁@搜狐安全、吴圣@58安全、康宇@新浪安全、幻泉@i春秋、雅驰@i春秋、王庆双@i春秋、张亚同@i春秋、王禾@微软、李臻@paloalto、西瓜@四叶草、郑伟@四叶草、朱利军@四叶草、土夫子@XSRC、英雄马@乐视云、sbilly@360、侯曼@360、高磊@滴滴、高磊@爱加密、高渐离@华为、刘洪善@华为云、宋柏林@一亩田、张昊@一亩田、张开@安恒、李硕@智联、阿杜@优信拍、李斌@房多多、李程@搜狗、Tony@京东安全、简单@京东安全、姚聪@face+、李鸣雷@金山云,最后我还要感谢我的亲密战友陈燕、康亮亮、蔡奇、哲超、新宇、子奇、月升、王磊、碳基体、刘璇、钱华钩、刘超、王胄、吴梅、冯侦探、冯永校。
本书面向信息安全从业人员、高等院校计算机相关专业学生以及信息安全爱好者,机器学习爱好者,对于想了解人工智能的CTO、运维总监、架构师同样也是一本不错的科普书籍。当读者在工作学习中遇到问题时可以想起本书中提到的一两种算法,那么我觉得就达到效果了,如果可以让读者像使用printf一样使用SVM、朴素贝叶斯等算法,那么这本书就相当成功了。
我平时在FreeBuf专栏以及i春秋分享企业安全建设以及人工智能相关经验与最新话题,同时也运营我的微信公众号“兜哥带你学安全”,欢迎大家关注并在线交流。
本书使用的代码和数据均在GitHub上发布,地址为:https://github.com/duoergun0729/1book,代码层面任何疑问可以在GitHub上直接反馈。
序言
回顾网络安全行业这十年来的发展,从防火墙、下一代防火墙、入侵检测到威胁情报,安全厂商一次次将新的概念引入,将新的技术包装,但安全威胁的现状却一天天恶化着,当我们看到越来越多的安全入侵事件发生,其波及范围也已经不仅仅是互联网业务,更有大量的国民基础设施深陷泥潭,我们不禁要问,是黑客越来越强大,还是我们的技术不够先进?我们被眼花缭乱的技术所困,却忽略了安全的本质——对抗。今天炙手可热的人工智能是否也会是一枚“银弹”?
诚然,人工智能在自然语言处理、图像识别、棋类对抗领域的成绩有目共睹,而安全能否成为下一个人工智能的突破口?现在看来,一切正方兴未艾,在有监督学习方向,能否大幅简化安全工程师的工作量,让准实时对抗成为可能;在无监督学习方向,能否突破安全对抗的猫鼠游戏,让安全由被动变为主动。等待我们的将是一场令人激动的技术探索。
冯景辉,安全宝联合创始人,百度商业安全总监
马杰,安全宝创始人,百度安全总经理
序二
兜哥在通过数据分析进行安全检测的技术方面已经积累了很长时间,从最初我们合作建立国内最大TB级别日志分析系统开始,在这几年中,他一直在不断尝试使用更合适的技术来解决问题,这次欣喜地看到了他又有新的突破。
拿到样章当看到“通向智能安全的旅程”这一章时,着实被深深地吸引住了,在新技术中尝试使用机器学习的能力,借助AI,能让系统变得更加聪明更好用,从而更好地解决问题。Gartner在2015年就提出过“自适应安全架构来应对高级定向攻击”的概念,其中实现这套架构很重要的一个阶段就是让系统具备对攻击的预测能力,“预测”是一种更接近人的思考方法,通过机器学习及人工智能的技术迭代,这将有可能实现。
安全数据分析已经从搭建大数据分析系统过渡到使用机器学习的过程中了,通过机器学习算法对安全事件的分析在一段时间内也许并不能突出优势,就像我们面对一个天才少年一样,因为阅历原因暂时他不能超越你,但他一定会用非常短的时间就能追上并且更好地帮助你。
阅读过程中常常感叹于兜哥的细心和他对此系列书的撰写决心,兜哥是一位不折不扣的技术实践者,全书使用了超过15种机器学习的算法,收集整理了大量或知名、或在真实环境下出现过的案例,并一一详细给出了使用机器学习算法进行分析的方法。书中还包含了丰富的数据集以及大量的实例,能帮助入门的同学降低学习成本,快速进入技术实践中。阅读的过程中,我常常在假想,如果回到几年前看到这本书,现在我们搭建的分析系统又将是另一番景象。
本书的写作风格是实战型的,围绕常见的安全问题,通过代码导读的方式,把每个问题与机器学习算法相关联,循序渐进,揭开了机器学习的神秘面纱。对于立志从事信息安全技术的同学来说,这种实战型的案例更直观,更能激发学习兴趣,推动机器学习在安全分析上的应用。
云朋,百度无人车首席安全架构师
序三
跟兜哥相识迄今一年有余,当时我还在一个跨境电商公司当码农头子,互金、电商也都还是资本圈炙手可热的概念,我们这个小而美的电商公司不能免俗,三天一小促,五天一大促地在玩着冲刺GMV(日总交易金额)的游戏。玩命狂奔业绩的同时,我早早地就跟当时还身为独立安全公司的“安全宝”交了抗DDoS费,保证每次业务起起落落的时候,不会受到某一小撮别有用心的敌对势力的干扰。“安全宝”的服务接入不到半年就爆出新闻,百度全资收购了“安全宝”,推出了面向企业的百度安全服务体系。一直跟我对接的“安全宝”的销售朋友摇身一变,成为三巨头之一的金领员工。朋友高升遇喜自然要多多分享,于是某日就电话约了 “百度资深安全工程师和销售团队”来我们这里做一个交流。产品介绍、业界八卦聊了半个多小时以后,一直安坐对方一角,眼睛闪着灵光的胖子始终没说话。我接受不了屋里仅有两个胖子,一个是我一直在聊;另一个胖子却如此沉默。于是我就开口问:“你们客户端的那个核心xx功能,就是这个角落里不说话的大黑客写的吧?”
“没有,没有,我们的xx功能不是那样的。”这哥们终于开口说了第一句话。
“不可能啊,因为xx、xx、xx。”我又吧啦吧啦说了一通。
“嘿嘿,其实是xx、xx。”他抬抬头,翻起眼睛看着我,一种内行跟内行言简意赅过招的感觉跃然而出。
“额,来,先留个微信吧。”我站起来,把手机递了过去。10秒钟后,“中国相声界的小学生通过扫一扫添加你为好友”的消息弹了出来。“你太逗了。”我忍不住看着对方评论了一句,心想:这么有趣的码农朋友交定了。散会后,几个人站在办公室楼下,相声界的小学生朋友特别真诚地感谢了一下我提供如此好的机会,让他们有机会从中国互联网的物理核心交换地区后厂村来到事业线、大白腿比例明显高一个数量级的CBD地区。我则不失时机地指点了对方一下,应该步行走一段什么样的路线去地铁站,能更顺利地回到核心交换地区。这就是我跟兜哥的第一次见面。
接下来的一段时间,相声界的小学生朋友变成了我微信朋友圈中昵称更换频率最高的人,在目睹了“青青河边草” “小小铜豌豆”等花式变更之后,我知道蹭小学生朋友一顿大餐的机会成熟了,于是很愉快地约了一顿丰盛的晚饭。一向不胜酒力又闷骚的码农们碰到三观相近的同类,总是特别容易敞开心扉,觥筹交错间,关于奋斗、关于公司、关于互联网,当然,还有关于男男女女,让一次普通而平淡的饭局变得特别有记忆特质。尽管我的记忆力很难达到生活自理的标准,不过时至今日,还是经常想起与相声界的小学生朋友把酒言欢的许多细节,觉得有趣而温暖。
后来我们目睹了百度公司毅然启航进入人工智能的时代。其实对于搜索巨人百度公司,人工智能领域内常见的如最大熵、隐马尔科夫、卷积神经网络等数学模型,从第一天起就如血液一般,渗透进入分词、排序、分类、聚类等搜索业务的大部分领域,经过了十来年的高歌猛进,这些晦涩难懂的数学公式日益扩大了其应用范围,在安全领域也得到了越发深入的应用。
媒体评论
如今是一个人工智能兴起的年代,也是一个黑产猖獗的年代;是一个机器学习算法百花齐放的年代,也是一个隐私泄露、恶意代码传播、网络攻击肆虐的年代。AlphaGo碾压柯洁之后,不少人担心AI会抢了人类的工作,然而信息安全领域专业人才严重匮乏,极其需要AI来补充专业缺口。
兜哥的这本书展示了丰富多彩的机器学习算法在错综复杂的Web安全中的应用,是一本非常及时的人工智能在信息安全领域的入门读物。正如书中所述,没有最好的算法,只有最合适的算法。虽然这几年深度学习呼声很高,但各种机器学习算法依然在形形色色的应用场景中有着各自独特的价值,熟悉并用好这些算法在安全领域的实战中会起到重要的作用。
——Lenx,百度首席安全科学家,安全实验室负责人
存储和计算能力的爆发式增长,让我们获得了比以往更全面、实时地获取以及分析数据的潜在能力,但面对产生的海量信息如何快速准确地转化为业务需求则需要依赖一些非传统的手段。就安全领域来说,原先依赖于规则的问题解法过于受限于编写规则的安全专家自身知识领域的广度和深度,以及对于问题本质的理解能力。但我们都知道,安全漏洞层出不穷,攻击利用的方式多种多样,仅仅依赖于规则进行问题的发现在现阶段的威胁形势下慢慢变得捉襟见肘。面对威胁,企业安全人员需要打造这样一种能力,它能够让我们脱离单纯的点对点的竞争,case by case的对抗,转而从更高的维度上来审视业务,发现潜在的异常事件。这些异常事件可能会作为安全人员深入调查的起点,让我们具备找到原有安全能力盲区以及发现新威胁的能力,使我们的技能水平以及对威胁的响应速度能持续提升。同时这种能力和防御体系结合,也有可能让我们达到在面对某些未知威胁时,以不变应万变,获得天然免疫的理想状态。兜哥的这本书或许是开启我们这种能力的一把钥匙。本书通过介绍通俗易懂的机器学习原理,结合实际企业中的安全业务需求场景,让广大安全人员能够感受到这种“如日中天”的技术在传统安全领域内如何大放异彩。最后,May the force be with you。
——王宇,蚂蚁金服安全总监
百度是拥有海量互联网数据的几家公司之一,兜哥是百度前IT安全负责人,现Web安全产品负责人,研发的产品不仅应用于百度公司内部检测网络攻击,也应用在多个百度的商业安全产品中,服务于数万站长。兜哥的团队是国内最早一批将机器学习算法应用于网络安全场景的团队之一,本书聚集了兜哥及其团队多年的安全实践经验,覆盖了互联网公司可能会遇到的多个安全场景, 比如用图算法检测WebShell等,非常好地解决了百度商业安全客户被入侵留后门的问题。兜哥将自己的技术选型、算法、代码倾囊相授,我相信本书的出版将会大大降低安全研发工程师转型安全数据分析专家的难度,值得推荐。
——黄正,百度安全实验室X-Team负责人,MSRC 2016中国区第一
在大数据时代,犯罪分子作案的手段越来越高明,手动分析的成本越来越高,效率也越来越低;与此同时,人工智能技术越来越成熟,安全与人工智能技术相结合,才能适应新的环境,推荐安全从业者学习这本书。
——桑文峰,神策数据创始人&CEO
网络世界的攻击与防护对抗发展到今天,各种技术已经日趋专业和精细,通过古老的string-match的防御方式越来越不能适应新的攻击环境,对于想尝试着把机器学习和安全相结合的从业人员来说,阅读本书是个很好的开端。
——赵林林,微步在线技术合伙人,前美团、高德安全负责人
就我有限的了解,在很长一段时间里,安全技术和机器学习技术都是分别演进的。安全问题几乎会伴随着任何新生事物而来,并与之同生长,这也使得安全研究人员往往会把注意力局限于关注事物的个体特征而忽略其群体特征;而有的时候,即使有意于群体特征的研究,也可能会囿于工具和方法以致难于寸进,这对安全问题的解决形成了事实上的约束。机器学习作为一种可以从另一个维度来解决问题的技术,则对此约束进行了相当程度的突破。用新工具去解决老问题,这要求对这两者都有比较深入的了解(例如 AlphaGo),基于了解而进行实践,基于实践而予以总结分享,这样的知识分享和传递,正是刘焱这本书的价值所在。
——张宇平,数盟CTO
在安全分析中要想用好机器学习,需要精通算法、懂得攻防、理解数据,三方面的知识缺一不可。这样的人固然难找,兜哥却恰好是其中的一员。兜哥凭借在一线互联网企业多年的安全实战经验给读者奉上了这本满满都是干货的大作。书中没有烦琐的公式推演,一切用代码说话,特别适合了解算法原理、不知道如何在实际中应用的人学习。我个人读后深受启发,也推荐给身边每一个做安全数据分析的同行。
——周涛,启明星辰“鸿雁”计划首席研究员
在大数据时代潮流中,如何将大数据思想应用于网络安全技术是一个非常重要的主题。本书将Web安全与机器学习相结合,提出以数据驱动为基础,利用海量的数据资源分析Web恶意攻击,以通俗易懂的语言讲述了机器学习在Web安全领域多个方面的应用。对Web安全以及大数据安全感兴趣的人,这本书是一个很好的选择。
——李琦,清华大学副研究员
伴随着互联网的爆炸式发展,网络安全已上升到国家层面,按效果说话的安全能力建设得到高度重视。与此同时,安全团队却又不得不面对百花齐放的业务场景、大规模的数据中心,以及愈加剧烈、复杂和不确定性的网络攻击。如何在传统攻防对抗之外,寻找更有效、可落地的对抗方式,已成为各大企业安全团队思考的重点。所幸,近些年来,计算和存储资源已不是安全团队的瓶颈,安全团队自身在工程能力上也已非昔日吴下阿蒙。机器学习成为近些年来安全领域里第一批从学术走向工业的应用方向,并已有很多阶段性的实践成果。很欣喜地看到兜哥一直在推进机器学习系列的文章并编写了此书。此书重点讲解了常见机器学习算法在不同场景下的潜在应用和实践,非常适合初学者入门。希望此书能够启发更多的同行继续实践和深耕机器学习应用这个方向,并给安全行业带来更多的反馈和讨论。
——程岩,京东安全首席架构师