|
|
|
联系客服020-83701501

基于大数据分析的异常检测方法及其思路实例

联系在线客服,可以获得免费在线咨询服务。 QQ咨询 我要预约
基于大数据解析的迥殊检测步履及其思路实例

1 概述

跟着人类社会信息化程度的不断深刻,信息零碎发作的数据也在呈几何级数削减。对这些数据的深刻解析或者失掉良多有价值的信息。由于数据量太大以及数据属性的多样性,导致典范榜样的统计解析步履曾经无奈实用,必须采取以呆板进修实际为根蒂的大数据解析步履。目前,大数据解析的步履曾经被遍及用于商业智能(BI)范畴,并获得了使人颇为餍足的成绩。这种步履同样或者操纵在信息安全范畴,用于创作发明信息零碎的迥殊状况(入侵和打击、数据泄露等)。垄断大数据解析的步履创作发明迥殊事故,需要合意几个条件:1)举动日志在模式必须紧缺详细,或者从日志模式上分辨正常举动和迥殊举动。也即是要是迥殊举动非论在名义上看如许正常,总是在细节上与正常举动有分歧。2)针对差距的解析目标,选用得当的解析算法。3)对举动描画进行公允的建模。

2 基于DNS日志解析的僵尸网络检测

2.1 DNS剖析恳请日志的样式及阐明

差距的DNS零碎及配置参数,生成DNS剖析恳请日志也不尽雷同,这里仅用一种日志加以阐明。

Default
1 Jul 22 10:59:59201307221059 GSLZ-PS-DNS-SV07-YanT '17 75 1374461999.999790 1307221059218.203.160.194 53 218.203.199.90 5826 dns 0,0,4692,0|4|5 1 www.百度.com, 1,11 www.百度.com,1,1,3,111.11.184.114'

此中

1 2

此中,标志位各种取值的含义如下:

  • QR是1个bit位:0代表查询报文,1代表相应报文
  • opcode是4个bit位字段:0代表尺度查询,1代表反向查询,2代表管事器形状恳请
  • AA是1个bit位,是Authoritative Answer的缩写,指明名字管事器是受权于该域的
  • TC是1个bit位,是Truncated的缩写,意为可截断的,指明在UDP中应答报文超过512字节时,只返回512字节
  • RD是1个bit位,是Recursion Desired的缩写,意为期冀递归,期冀名字管事器必须处理这个查询,而不是给出一个迭代查询管事器的列表
  • RA是1个bit位,是Recursion Available的缩写,意为可用递归,要是名字管事器反对递归查询,这会将此位设置为1
  • zero是3个bit位,设置为0
  • rcode是4个bit位,表现名字不对,0为无不对,3为有不对。当查询中指定的域不具有的时辰,就返回3
  • 响应形状
  • “NOERROR” => 0, 无舛错条件.
  • “FORMERR” => 1, 由于一个样式舛错,域名管事器无奈评释这个恳请
  • “SERVFAIL” => 2, 在处理这个恳请时域名管事器碰着一个内部舛错。例如操纵零碎错或转发超时。
  • “NXDOMAIN” => 3, 某些域名应该具有而没有具有。
  • “NOTIMPL” => 4, 域名管事器不反对这种指定的 Opcode.
  • “REFUSED” => 5, 出于策略和安全缘故起因域名管事器回绝实验特定的操纵。
  • “YXDOMAIN” => 6, 某些域名不该该具有可是具有。
  • “YXRRSET” => 7, 某些RRset不该该具有可是具有。
  • “NXRRSET” => 8, 某些RRset应该具有可是不具有。
  • “NOTAUTH” => 9, 域名管事器对地区名没有被受权
  • “NOTZONE” => 10, 在预查询或更新段中一个域名没有在地区段中记载。

2.2正常与迥殊DNS剖析恳请的对比解析

大大都僵尸主机在扫尾感召的歹意步骤,只是一个下载器步骤,真正能实现无害操纵的歹意步骤要从歹意步骤分发管事器高低载。因此僵尸主机摆设下载器之后,主要的任务即是带动一系列域名剖析恳请,用来获知歹意步骤分发主机的IP地点以便实现歹意步骤实体的下载。在实现实体歹意步骤之后,僵尸主机还会发送域名查询恳请,以便获知管束管事器的IP地点并与之创立豆割,等候管束管事器发送指令。为了警觉分发管事器和管束管事器被网络扣留人员创作发明并摧毁,僵尸网络的管束者采取了良多技术手段才智对这两类症结管事器进行关怀,诸如动静域名、Fast Flux技术手段等。另有一类DNS查询恳请自己即是僵尸主机带动的打击,其特色也与正常的查询恳请有很大区别。总之,僵尸主机会发送少许的域名查询恳请,而且这些恳请与正常的域名恳请在诸多属性有领会打听的分歧。

表2-1迥殊查询恳请与正常查询恳请的分歧对比

3

2.3 相通性解析的一般历程

由于正常的域名查询恳请占绝大部分,且彼此之间具有领会打听的相通性,而僵尸主机的域名查询恳请日志则有领会打听的分歧,因此颇为得当采取相通性解析的步履进行分辨。相通性解析的突出步骤是:1)肯定被解析器材(源IP地点或域名)。2)肯定解析的属性。3)将属性量化成可解析的数值。4)将数据写入描画性矩阵。5)以描画性矩阵为输出数据,代入相通性合计公式,合计被解析器材的相通关连。

相通性解析个别把每个数据器材看作多维空间中的一个点,器材之间的相通性或者用相通性系数或某种距离来表现。相通系数接近1或距离较近的器材素质较相通,相通系数接近0或距离较远的器材则分歧较大。差距的数据榜样,实用差距的相通系数合计公式。常用的相通系数或距聚散计公式有:

4

(2-1)

5

(2-2)

6

 

(2-3)

公式(2-1)是变量Xi和Xj 的空间距聚散计公式。

公式(2-2)是相通系数合计公式。

公式(2-3)是Jaccard相通系数合计公式。个别杰卡德相通系数处理的但凡非对称2元变量。即要是A和B是两个n 维向量,而且部门维度的取值但凡0或1。非对称的意思是指形状的两个输出不是同等告急的,例如,疾病查抄的阳性和阴性前因。此中:

M11 表现A 与B 的对应维度但凡1 的维度的个数,

M10 表现A与B的对应维度分袂是1和0 的维度的个数

M01表现对应维度分袂是0和1 的维度的个数。

M00表现A与B的对应维度但凡0 的维度的个数。

风气大将较告急的输出前因也个别是出现概率较小的前因编码为1(例如HIV阳性),而将另一种前因编码为0。在某些范畴,认为正成家(M11)比负成家(M00)更成心义。负成家的数目M00 认为是不告急的,或者在合计时忽略。

在解析域名查询日志时,或者把发送查询恳请的主机IP地点作为器材,也或者把被查询的域名作为器材。或者针对某个属性进行解析,也或者针对一组属性进行解析。因此差距的器材和属性组合在一起或者失掉良多种描画性矩阵。下面以一个详细实例来阐明相通性解析的历程。在这个实例中,以域名为器材,以域名被各IP地点查询的次数作为属性,或者失掉一个描画性矩阵(如表2-2)。

表2-2域名恳请举动描画矩阵

7

为简单起见,将描画矩阵的数值代入公式(2-2),或者合计出各个域名之间的“距离”,从而失掉相通性矩阵(如表2-3)。观测创作发明,域名n与另外域名的相通度最低。根本或者断定查询域名n的主机为僵尸主机。

表2-3域名恳请举动的相通性解析前因

8

相通度解析的数据是一种器材-器材结构的矩阵,既或者纯粹操作域名或IP地点作为器材,也或者同时操作IP地点和域名来建立矩阵。

2.4聚类解析的突出历程

把每个域名剖析恳请的属性作为一个变量,则这些属性形成一个多维向量,如表2-4,每一行是一个多维向量。对这些多维向量进行聚类解析,或者创作发明那些游离于聚合之外的那些向量所对应的域名,即是迥殊域名。这些域名剖析恳请很大要即是僵尸步骤或WebShell发出的。或者思忖采取的属性囊括:域名长度、域名相通性、TTL、域名层级数、恳请发送韶华隔绝距离、恳请源IP地点数、响应形状、域名对应的IP地点数目、域名查询榜样。

表2-4域名属性多维向量

9

或者思忖采取分区法或K-均值算法对域名属性多维向量进行聚类解析。由于迥殊域名的属性值个别都与正常域名的属性有领会打听的分歧,因此采取聚类步履个别或者获得较高的聚类品质,将迥殊域名从正常域名的聚类中说合开来。

聚类解析的数据是一组器材-属性结构的多维向量,以域名为器材,以其查询恳请的属性为属性。

3 基于大数据解析的内部迥殊举动检测

3.1 内部信息零碎举动概述

业内将内部信息零碎的举动(如下简称内部举动)分为主机(囊括管事器和终端)举动和网络举动两大类:一是主机举动,即主机本地的举动,例如确立帐号、确立文件、批改注册表、内存属性(读写、实验)刷新、历程刷新(动员、截至)等等。要是物理主机上运行着多个编造主机,主机举动还应囊括一些编造化零碎的举动。2是网络举动,即与网络拜访干系的举动,例如域名剖析恳请、HTTP拜访恳请、ARP广播、收发邮件、立即动静、文件上传和下载、数据库拜访等等。

3.2 对内部举动进行大数据解析的原理根蒂

初期的信息安全程序偏重对内部打击的防护,而对内部的迥殊举动常常不敷重视也短少检测才智。少许信息安全实际使得内部迥殊举动检测的告急性在业内达成为了共识。非常是近年被流露的浩繁APT打击事故,次要的打击历程是发作在内部网络和信息零碎上。个别内部迥殊举动但凡颇为窜伏的,打击者会或者隐藏自己的打击举动,个别单个举动看上来但凡正常的,可是一些举动关联在一起之后,这种关联的组合颇为少,且举动主体不具有其余非凡性,则这种举动很大要是迥殊。或许某些内部举动曾经被断定为迥殊,那末与之关联的举动也是迥殊的概率就会大大增加。

3.3 关联解析的突出历程

对内部举动的解析也实用相通性解析,但为了警觉一再,这里采取关联解析算法对内部举动进行解析,来举例阐明该步履的现实把持。关联解析的突出步骤是:1)以举动主体作为被解析器材(个别为IP地点或身份标识)对内部举动日志进行剖析,将描画各种举动的异构日志转换成得当解析比拟的举动链(如图2-4所示)。2)将举动链数据代入关联解析算法,合计出各种大要的关联关连。3)依照定然的果决规则,从合计出的多个关联关连中找出迥殊举动的组合。

10

图3-1 举动链的建立

关联解析的目标是从数据中找到关联规则。所谓关联规则是形如 X → Y 的蕴涵式,表现经过 X 或者推导“失掉”Y,此中 X 和 Y 分袂称为关联规则的条件和前因。在合意最小反对度和最小相信度的条件下才具认为“经过 X 或者推导‘失掉’Y”确立。在体味算法畴前,首先需要体味几个根本概念:

  • 反对度: 指的是事故X和事故Y同时发作的概率,即反对度=P(XY)
  • 相信度: 指的是发作事故X的根蒂上发作事故Y的概率,相信度= P(Y|X) = P(XY)/P(X)
  • 项集: B={B1, B2,……, Bm}是项的汇合。
  • 举动链记载库: D={t1, t2,……, tn}
  • 举动链: 举动链t由多个项形成,t是B的非空子集
  • TID: 每个举动链都与一个唯一的标识符对应。
  • 多次项集:合意最小反对度阈值的项集

为了更好的体味上面的概念,图1-1给出了更形象的描画。圆角矩形表现部门项的汇合I,椭圆中蓝圆点表现X事故,菱形中绿3角表现Y事故。

11

图3-2 关联解析的几个根本概念

表3-1内部举动记载库

12

为叙说简单但又不失突出性,这里用9个举动主体和5种举动(记作B1~B5)形成的项集作为实例来阐明关联解析算法的原理。如表3-1,举动记载库中有9条举动链记载,波及了B1~B5等5种举动。有过某种举动,记作1,没有记作0。首先扫描记载库,得当多次项集C1(表3-2)

表3-2多次项集C1

13

要是最小反对度苦求为2,则部门多次项集都当选成为一阶最大项集。以B1~B5的排列组分工为2阶多次项,扫描记载库,失掉2阶多次项集C2(表3-3)

表3-3 2阶多次项集C2

14

去掉反对度小于2的项集,失掉2阶最大项集L2(表3-4)

表3-4 2阶最大项集L2

15

对L2的项集元素排列组合来生成3阶的多次项汇合,由于多次项集的子集也必须是多次的,以是要从划去那些子集不多次的组合,末端只剩下两个反对度大于2的最大多次项集{B1,B2,B3}和{B1,B2,B5}(表3-5)。

表3-5 合意最小反对度的最大多次项集

16

对每个多次项集B生成其部门的非空真子集S(见表3-5),而后对每个非空真子集组合的关联规则合计相信度,即反对度(B)/反对度(S),若比值大于要是的最小相信度值,则输出S(B-S),即认为S 与(B-S)关联。

表3-5 多次项集的非空子集

18

表3-6关联规则

17

至此我们失掉了3个关联规则,即{B1,B5}à{B2}、{B2,B5}à{B1}和{B1}à{B2,B5}。同样对最大多次项集{B1,B2,B5}也进行雷同的合计,还或者失掉相应的一组关联规则。

3.4关联解析步履操纵举例

一个信息零碎中,正常拜访举动应该是绝大大都,因此迥殊举动的占比颇为低,以是在关联解析的算法中,我们对反对度的苦求不是大于某个数值,而是大于0且小于某个数值。

例如,一个平庸的客户端主机对另外IP地点的扫描明晰是一种迥殊举动,要是垄断关联解析的步履,创作发明这些有扫描举动的主机都查询过雷同或高度相通的域名,那末这个域名查询恳请也是一种迥殊举动,很大要是终端主机感召木马步骤后的回联举动。

再例如,一个平庸的客户端主机具有高频并发域名查询的举动,要是垄断关联解析的步履,创作发明这些终端的主机的零碎函数调用举动特色颇为接近,或许这些终端主机都有拜访本地飞快文件(明码文件、配置文件等)的举动。则这些零碎函数调用或本地飞快文件拜访也是迥殊举动。

4 完毕语

基于互联网的B/S架构的信息零碎在运行历程中会发作少许各种榜样的日志,如安全设备告警、操纵零碎日志、数据库日志、终端举动日志、网络流量日志、Web拜访日志、DNS恳请日志、外网拜访日志等等。这些日志具有丰富的信息,只要采获得当的解析算法,定然或者获得很有价值的解析前因。除了本文描画的两个操纵场景之外,大数据解析还或者用于回绝管事打击检测、安全谍报解析、态势感知、网页改动创作发明、操纵层打击检测、歹意文件检测等安全解析的场景。

成功的大数据解析依赖于3个次要成分:数据、思路和算法。面向安全的大数据解析所操作的数据次要是各种零碎日志和举动。本文试图用比拟接近现实的案例来先容面向安全的大数据解析思路。可供大数据解析操作的算法有良多,但不是都实用于面向安全的操纵场景。缘故起因是零碎日志和举动日志都属于低维度数据,面向高维度数据的算法根本不实用。因此只需相通性解析、关联解析、聚类等。分类算法在有紧缺训练数据的状况下也或者操作,但个别训练数据比拟难获得,以是操作分类算法大要会受定然限定。

除体味析算法之外,可视化也是一种颇为告急且有效的解析才智。可视化既或者作为解析东西,间接以图形编制出现数据之间的关连,提高数据可读性,又或者作为解析前因的出现东西,使解析前因更加直观。受篇幅的限定,本文没有对可视化出现给出描画,渴想后续有机会做出补救。

[via@安恒信息技术手段专家]

数安新闻+更多

证书相关+更多