基本信息
- 作者: (美)杰·雅克布(Jay Jacobs) (美)鲍布·鲁迪斯(Bob Rudis)
- 译者: 薛杰 王占一 张卓等
- 丛书名: 信息安全技术丛书
- 出版社:机械工业出版社
- ISBN:9787111512677
- 上架时间:2015-9-9
- 出版日期:2015 年9月
- 开本:16开
- 页码:291
- 版次:1-1
- 所属分类:计算机 > 安全 > 数据安全

编辑推荐
世界顶级安全专家亲笔撰写,深入剖析安全领域中的数据分析及可视化方法,包含大量真实案例和数据
从安全数据收集、整理、分析、可视化过程,详细讲解如何设计有效的安全数据可视化,并走向数据驱动的安全研究
内容简介
计算机书籍
如今的信息安全人员担负了从保护企业数据到电子商务交易安全的重要任务,且数据庞大、责任重大,本书涉及三个重要话题:安全技术、数据分析和可视化。作者在书中深入探讨如何从安全的角度进行数据分析、大数据量的存储和处理,以及如何将正数据中发掘的信息通过可视化有效地呈现,并且书中包含安全数据分析及可视化的大量最佳实践,详细讲解如何用真实的数据驱动安全决策,如何应用安全原则。
通过阅读本书,你将学到:
·如何收集、准备数据并进行可视化。
·如何使用R和Python分析和可视化工具。
·如何追踪IP地址来发现恶意活动。
·如何通过安全数据可视化、统计分析技术来寻找可疑链接。
·深入学习可视化技术,并用于看清数据的含义,将数据清晰展示。
·如何开发有效的、信息丰富的安全数据仪表盘。
·如何设计分析模型来检测恶意代码。
·通过典型的实际数据和网络安全场景讲解实操方法。
作译者
Bob Rudis拥有超过20年的利用数据来帮助维护全球财富100强企业的经验。作为Liberty Mutual Insurance的企业信息安全及IT风险管理部门的主管,他负责协调与管理Advanced Cyber Security Center的多部门大范围安全分析计划。Bob是一名高级推特撰写人(@hrbrmster)、活跃的博主(rud.is)、作家、演讲者以及开源社区的投稿人(github.com/hrbrmstr)。他当前正任职于Society of Information Risk Analysts(SIRA)的董事会,是SANS Securing The Human方案的编委,同时,还是2014年Metricon安全指标/分析会议的联合主席。他拥有斯克兰顿大学的学士学位。
技术编辑
Russell Thomas是一名Zions Bancorporation的安全数据科学家,还是一名乔治梅森大学社会计算科学的在读博士研究生。他拥有在计算机行业超过30年的技术、管理以及咨询方面的经验。Thomas先生是Securitymetrics.org的长期社区会员和Society of Information Risk Analysts(SIRA)的创始成员之一。他的博客是:http://exploringpossibilityspace.blogspot.com/,他的推特是@MrMeritology。
目录
前言
作者介绍
第1章 通向数据驱动安全的旅程 1
1.1 数据分析简史 2
1.1.1 19世纪的数据分析 2
1.1.2 20世纪的数据分析 3
1.1.3 21世纪的数据分析 4
1.2 获取数据分析技能 5
1.2.1 领域专业知识 6
1.2.2 编程技能 8
1.2.3 数据管理 11
1.2.4 统计学 12
1.2.5 可视化 14
1.2.6 将这些技能组合起来 16
1.3 以问题为中心 16
1.3.1 创建一个好的研究问题 17
1.3.2 探索性数据分析 18
1.4 本章小结 19
推荐阅读 19
译者序
在计算机安全领域中,这种问题尤为突出—人们在各种网络行为(如网页浏览、上传下载、电子邮件、即时通信应用等)中收集数据的能力已经远远超过传统安全工具的分析能力。比如,大中型企业的内网每天都会产生数十万条的安全日志记录。为了对某一次网络攻击进行追查和溯源,安全分析人员可能要从数以亿计的日志记录中找到有用的线索并一点点追查下去。不仅如此,这些数据往往还存在着高维、多态、噪声、异构、异质等问题。因此,如果没有适当的工具和方法对分析过程进行简化和加速,那么这种安全分析工作将会是极其困难和耗时的。如何在海量的、纷繁复杂的数据中发现并解决潜在的安全问题是本书撰写的初衷。
在本书中,读者将围绕具体问题,学习如何从安全的角度进行数据分析,大数据量的存储和处理,以及非常重要的一点,如何将在数据中发掘的信息通过可视化有效地呈现。本书的内容还涉及用R和Python进行数据分析的基本编程技巧。
传统的安全厂商主要通过基于黑白名单以及行为特征来判断输入数据是否具有威胁,而本书则着眼于海量数据中的信息挖掘,试图从数据分析的角度来定位安全问题。不断增加的海量数据,驱动着学术界、业界从新的角度来做安全分析。
本书提供了大量实用的范例代码,对数据安全分析、可视化原理、可视化信息传递做了精彩的描述,方便读者实践检验,真切感受到学习的成果。通过寻找数据中的关联以及可视化的结果,恰到好处地向读者展示了通过数据分析发现的安全问题,跳出了传统的条条框框以及死板的展示,让人耳目一新。
应用统计分析、机器学习和数据挖掘算法来解决信息安全问题是大数据时代下的新方向,也是切实有效的方法,作用主要体现在两方面。其一,传统方法对人的工作量需求巨大,在当今海量数据环境中已经无法奏效。通过应用交叉领域的新方法,分析人员将从纷繁复杂的分析工作解放出来,用机器和算法解决一部分问题,将数据量降低到可控的范围,或为安全专家提供可量化的模型结果作为参考。其二,相比传统方法依赖于已知特征,具有滞后性,数据分析能够帮助安全专家应对新型威胁和预测未知风险,实现安全防御的效果也就更好。
本书第5章和第9章介绍了几种常见的有监督和无监督机器学习算法,如线性回归、随机森林、K均值聚类和主成分分析等。以此为基础,给出实例和范例代码,展现了自动化数据分析的结果。本书并没有陷于算法本身的繁杂介绍,而是将算法结合实际应用进行讲述,给读者更直观的感受,非常易于理解。
数据可视化技术是另一种可以在很大程度上缓解数据过载同时辅助数据分析的手段。数据可视化即是利用人眼的感知能力对数据进行交互的可视表达以增强认知的技术(唐泽圣,2011)。人眼和人脑的组合本质上就是一套天然的具有极高输入带宽的高效并行模式识别系统。这种特性使得安全分析人员通过可视化工具可以:
从整体上把握系统的安全状态。
快速理解日志数据细节。
高效识别海量数据中的异常和模式。
通过交互便捷地进行数据探索和发现。
向他人高效传达信息。
支持决策。
本书在第6、10、11章中分别讲述了安全数据的可视化、安全仪表盘的可视化设计以及交互式可视化应用的设计和开发。这三部分内容相辅相成,从概念、方法论、开发流程和开发工具等多个方面让读者全面理解数据可视化技术是如何简化并促进安全数据的分析过程的。
本书既适合新手入门,也可以帮助老手拓展加深对“数据驱动安全”的理解和实践,很好地引导读者尝试解决这些新的挑战。
本书由奇虎360公司天眼团队翻译,在此特别鸣谢韩永刚、汪列军、黄鑫、徐凤超等同事为本书校对所付出的辛勤劳动。在翻译过程中,我们得到了机械工业出版社华章公司吴怡编辑的帮助,在此我们深表感谢。同时也感谢所有参与翻译的人员,各位在繁忙的工作之余来做这件事情,着实不易。
本书每章最后都有推荐阅读,读者可以选择性阅读,拓展知识面和加深印象。附录中还有更多资料和工具可供读者参考借鉴。由于时间仓促,译者水平有限,错误与疏漏之处在所难免,敬请读者批评指正。
前言
—比尔博·巴金斯,《指环王》
近几年,网络安全在全球范围内成为了大众和专业领域的核心关注点。数据外泄的情况每天都在发生,聪明的对手把目标直指消费者、商业公司、政府,他们技巧熟练而且不怕被发现或者无视将会出现的后果。这些事件有它发生的背景,现今包含商业和关键基础设施的主干网的系统网络和应用,变得越来越复杂,臃肿得难以掌控。
凭借肉眼观察的直觉和所谓“最佳”实践的安全防护措施已经不足以保护我们。安全“巫
师”的时代已经过去,采用成熟的工具和技术、进入革命性的数据驱动安全的时代已经到来。
本书综述以及技术要点
本书的目的是带你遨游安全数据科学的世界。让我们先看一眼图1所展示的用本书每一章的关键词构成的这块云。这朵云涉及大量的信息,通过这朵云你或许可以从繁杂的信息中挑选出少量的有用信息,然而,这就像不用磁铁在一个大草垛中找出一颗钉子。
图1
图2
如果正确地使用了合适的分析工具,你将能区分出图中最重要的内容(见图2)。
本书不仅专注于用Python和R语言作为基础的数据分析工具,同时介绍了如何设计和创建现代风格的静态可视化以及使用HTML5、CSS和JavaScript的交互式可视化工作,还提供了相应的知识背景和现代NoSQL数据库的安全用例。
本书是如何组织的
本书的组织,不像令人狼吞虎咽的自助餐,却有点儿像各有特色的精致点心:每章都有不同的组织脉络。恰如“点心”一词的含义,每章包含安全数据科学中的一个基本主题,并且提供了大量的值得深入学习研究的知识点。
第1章展示了此次学习之旅的基础知识点,提供了一些数据驱动实践与其他学科的交叉实例,同时描绘了安全数据科学工作者需要掌握的技能的总体概览。
第2、3、4章分别涉及一些软件工具、技术知识、使用技巧,这些是每一个安全数据科学工作者都应该掌握的。你将接触到AlienVault的IP信誉库(是能公开获取的最全面的恶意节点资源之一)以及对ZeuS和ZeroAccess僵尸网络产生一个宏观的认识。我们在第2、3章介绍Python用于分析的一面,本书的其他部分将以R语言为主进行统计分析。与其他传统的有关R语言的介绍(或者一般统计类著作)不同,我们将用安全领域中的数据贯穿全书,以此来帮助信息安全专业人员建立起尽可能实用的技术概念。
第5章介绍一些创建图表的技术以及一些核心的统计学概念,同时为安全数据领域的门外汉提供了一两小节的入门知识。
第6章深入到有关可视化展示(数据可视化)的一些基础性生物学知识和认知科学知识,甚至向你展示如何让数据活灵活现起来。
第7章提供如何分析和可视化安全漏洞的基础知识,在本章,你将有机会接触到安全事件的真实数据。
第8章涵盖现代数据库的概念,包含传统数据库部署的新技巧,还有一系列NoSQL解决方案以及工具。本章将有助于回答“我们在自己的网络上看到这个IP了吗?”这样的问题。
第9章将带你进入到令人激动而又真实的机器学习领域。你将学到一些机器学习的核心概念,探索机器学习的实现技术,以及如何通过算法找到一些靠直觉无法发现的数据。