当前位置:首页 > 网络黑客 > 正文内容

基于域名图谱嵌入的恶意域名挖掘

访客55年前 (1970-01-01)网络黑客502

感谢腾讯御见威胁情报中心来稿!

原文链接:https://mp.weixin.qq.com/s/LeK6QYHwd3k3UlyAuSkcZA

一、导语

恶意域名的挖掘检测一直是威胁情报生产的核心内容。在庞大的互联网体量下,以域名为节点的访问、下载、解析等关系够成了一张无比庞大的“图”,黑客的每一次访问、请求或下载,都构成了其中具有独特结构的可疑子图,由此出发,图关系天然适用于挖掘恶意域名。本文主要讲解了图嵌入(GraphEmbedding)相关技术在腾讯安全威胁情报生产中的运用。

二、应用背景

一般的恶意域名检测(Malicious Domains Detection)[1]任务是基于特征工程和机器学习来进行恶意域名的判定,但从 *** 图谱的角度上来看,域名是整个图中的一个节点,它在 *** 图谱中,与不同的节点,如IP、md5等有不同的相邻关系,如访问、下载、解析等。如下图是腾讯安图对域名节点的 *** 关系展示。

对于恶意域名而言,基于其 *** 图谱关系,能够有效获取实锤线索。而图嵌入技术让 *** 关系能够进行有效的数值化表达。

三、相关技术

图嵌入往往作为一些图神经 *** (GraphNeural Networks,GNN[2])的输入特征,与词嵌入[3]类似,图嵌入基本理念是基于(非)相邻节点关系,将目的节点映射为稠密向量,这样就将图谱上的多边关系和实物节点进行了数值化,以便在下游任务中进行运用[4]。

在获取相应图嵌入后,围绕图嵌入的下游任务主要有四类:节点分类、链路预测、聚类分析和可视化分析。节点分类指对节点的类型进行分类,如判定域名节点是否为恶意;链路预测是为了判定两个节点之间是否有边相连;聚类分析是在无监督学习场景下的节点簇分析;可视化分析通常会对节点进行降维并可视化。

此外,需要注意的是, *** 有同构(homogeneous networks)与异构(heterogeneous networks)之分,如用户作为节点构成的社交 *** 是同构 *** ,而如 *** 图谱这样,节点包括域名、IP等多种类型的是异构 *** [5]。

基于同构 *** 进行图嵌入的代表是node2vec[6]。它的嵌入过程主要分两步:二阶随机游走(2ndorder random walk)获得节点序列和基于Skip-gram[3]训练节点嵌入。在二阶随机游走中,算法通过p、q两个超参数来控制游走到不同类型图节点的概率,如下图:

是未归一化概率,其取值由超参数p、q确定,其中代表了出发节点v的下一步节点x跟上一个节点t的三种相邻关系:相邻、不相邻和自身,如下图:

不同的p、q值,实现了对图节点两种相似性的偏好控制:同构性(homophily)和结构对等性(structural equivalence)。通过p、q的值,控制Breadth-first Sampling和Depth-first Sampling,进而将同构性和结构对等性采样到节点序列中。

此后,使用skip-gram对游走的序列结果进行训练,得到关于每个节点的稠密向量。

四、基于图嵌入的恶意域名挖掘

4.1 基于图嵌入的域名情报挖掘架构

腾讯安全威胁情报中心基于海量安全大数据,在知识图谱、图计算等方面有深入的研究。在图神经 *** 的应用方面,实现了基于多种类型图结构的域名节点的嵌入与判定。

下图是目前在域名情报图嵌入构建的主要架构。首先根据域名与其他实体的关联关系,构建域名的同构关系图,然后基于图嵌入技术训练域名的图嵌入表示,最后根据具体的需求,结合其他维度的数据,实现相应任务。

下面对其中基于样本下载关系的同构域名图嵌入实现进行详述。

4.2 基于样本下载关系的同构域名图嵌入实现

域名图嵌入的其中一部分是从md5与域名的下载关系出发,来构建同构域名图,如下图。其主要构建过程包括:

  • 抽取种子域名
  • 黑白样本md5采样
  • 获取下载边关系
  • 关联域名
  • 构建域名带权无向图
  • node2vec训练
  • 特征融合与建模

4.2.1 抽取种子域名

为了构建域名下载关系同构图,需要一批种子域名,这批种子域名用以关联下载相同黑白样本md5的其他域名,以构成一张关于域名同构的图。

目前,种子域名主要由域名情报和高危域名组成,记为domains_seed。

4.2.2 黑白样本md5采样

腾讯安全多年黑灰产对抗过程中累积了海量样本的相关信息,包括样本本身的黑白灰属性,为了构建域名下载关系 *** ,对活跃期内的样本md5进行采样,去除低广和高广的白样本和低广的黑样本。这样可以避免低广高广样本将域名 *** 连接成一个完全图,让不同类型域名在图上的结构具有更大的差异性,同时,降低同构 *** 构建过程中的内存压力,这个黑白md5 *** 分别记为md5_black和md5_white。

4.2.3 获取下载边关系

选取一定时间段内的从域名下载样本md5的关系数据(md5-downloaded-domain),这个数据表明了,在一定时间段内,某md5从哪些域名上下载。同时,移除md5不在md5_black和md5_white中的对应关系数据。

4.2.4 关联域名

种子域名分别与黑白样本md5关联非种子域名。

以黑样本md5为例。在md5-downloaded-domain中抽取域名在domains_seed中,而md5在md5_black中的的md5和域名的下载关系数据,记为md5 -domain-black。从md5 -domain-black获得对应的所有域名作为黑关联域名,记为domain_black_corr。

同理可得domain_white_corr。

4.2.5 构建域名带权无向图

在获得的黑白关联域名和种子域名上,通过md5-downloaded-domain构建带权无向同构域名黑白 *** 。

以黑关联域名为例。在md5-downloaded-domain上抽取域名为黑关联域名或种子域名、md5为黑的域名md5下载关系,并假定下载相同md5的域名是互连的,这样去掉md5,就得到了仅域名连接的多个无向边。

假设这些无向边的权重为一个基本权重单位,则假定边无向的前提下,相同边的数量作为这条边的权重。由此构建起关于黑md5的域名同构带权无向图。同理可得关于白md5的域名同构带权无向图。

4.2.6  node2vec训练

这里选取node2vec对构建的黑白带权无向图进行域名图嵌入进行训练,node2vec在节点分类上具有明显优势,适用于下游域名相关挖掘任务,如下图。

node2vec在多种评测数据上均获得了更优或近似更优的结果。

通过node2vec,分别训练获得了关于域名下载关系的黑白图嵌入。下图是通过t-SNE降维后,黑白两类域名图嵌入的散点图示。

4.2.7 特征融合与建模

在获得关于域名下载关系的黑白图嵌入后,针对具体下游任务,可以结合域名其他维度特征进行进一步分析。

在恶意域名检测任务中,结合了域名的多种嵌入和其他属性特征,构建前馈神经 *** (feedforwardneural network,FNN)进行建模和域名检测。通过对图嵌入的运用,在召回相近的情况下,恶意域名检测的精确率(precise)提升了1.7个百分点,达到了93.1%。

五、总结与展望

基于图嵌入的恶意域名挖掘从域名 *** 关联的角度,为域名的检测提供了新的线索及其数值化方案,丰富了域名的特征的维度和检测精度。

目前,域名的各种图嵌入的构建主要基于同构 *** ,接下来,会继续研究异构 *** 在域名检测上的应用。此外,除了域名,图嵌入技术和图神经 *** 在IP等情报上,同样具有应用和探索的价值。

六、参考文献

[1] Zhauniarovich Y,Khalil I, Yu T, et al. A survey on malicious domains detection through DNS data *** ysis[J]. ACM Computing Surveys (CSUR), 2018, 51(4): 1-36.

[2] Scarselli F,Gori M, Tsoi A C, et al. The graph neural network model[J]. IEEE Transactionson Neural Networks, 2008, 20(1): 61-80.

[3] Mikolov T, ChenK, Corrado G, et al. Efficient estimation of word representations in vectorspace[J]. arXiv preprint arXiv:1301.3781, 2013.

[4] Goyal P, FerraraE. Graph embedding techniques, applications, and performance: A survey[J].Knowledge-Based Systems, 2018, 151: 78-94.

[5] Zhang F, Liu X, Tang J, et al. Oag: Towardlinking large-scale heterogeneous entity graphs[C]//Proceedings of the 25th ACMSIGKDD International Conference on Knowledge Discovery & Data Mining. 2019:2585-2595.

[6] Grover A,Leskovec J. node2vec: Scalable feature learning for networks[C]//Proceedings ofthe 22nd ACM SIGKDD international conference on Knowledge discovery and datamining. 2016: 855-864.

扫描二维码推送至手机访问。

版权声明:本文由黑客技术发布,如需转载请注明出处。

本文链接:http://w-123.com/32849.html

“基于域名图谱嵌入的恶意域名挖掘” 的相关文章

Cloudflare 成功阻止针对其客户最大规模的 HTTPS DDoS 攻击

Cloudflare 透露公司已经阻止了来自多个国家的大规模 HTTPS DDoS 攻击。该公司表示,该僵尸网络每秒发出 1530 万个请求(rps),使其成为针对其客户的最大 HTTPS DDoS 攻击。 Cloudflare 表示本次攻击的目标是针对一家 The Crypto Launchp...

脸书被欧盟罚款 1.2 亿:大规模数据泄露

Facebook母公司Meta被欧盟罚款1700万欧元(约合1900万美元),原因是它未能阻止Facebook平台在2018年发生的一系列数据泄露事件,违反了欧盟的隐私规则。 Meta在欧盟的主要隐私监管机构爱尔兰数据保护委员会表示,他们发现Facebook“未能采取适当的技术和组织措施”。 20...

以色列政府数个网站遭遇网络攻击:现正从瘫痪中恢复

以色列似乎正在从一场大规模的网络攻击中恢复过来。据Haaretz和Kan的Amichai Stein报道,攻击者在周一晚上攻陷了几个以色列政府网站,其中包括卫生部、内政部、司法部和福利部网站。总理办公室的网站也受到了影响。以色列国家网络管理局在一份声明中称,现在所有的网站都已重新上线。 虽然以色列政...

红十字国际委员会称“国家支持的”黑客利用未修复的漏洞发起攻击

据TechCrunch报道,红十字国际委员会(ICRC)最近遭到网络攻击,超过51.5万名“高危人群”的数据被泄露,这很可能是国家支持的黑客所为。在周三发布的更新中,红十字国际委员会证实,最初的入侵可以追溯到2021年11月9日,即在1月18日攻击被披露之前的两个月,并补充说,其分析表明,入侵是对其...

FritzFrog P2P 僵尸网络攻击医疗、教育和政府部门

Hackernews 编译,转载请注明出处: 一个P2P的Golang僵尸网络在一年多后重新浮出水面,在一个月内侵入了医疗、教育和政府部门实体的服务器,感染了总共1500台主机。 Akamai 的研究人员在与 The Hacker News 共享的一份报告中称,这种名为 FritzFrog 的“分...

Clearview AI 被指违反澳大利亚隐私法 已收集至少 30 亿人面部数据

澳大利亚信息专员发现,Clearview AI 在许多方面违反了澳大利亚的隐私法。在此前的双边调查中发现,该公司的面部识别工具未经同意并以不公平的方式收集澳大利亚人的敏感信息。由澳大利亚信息专员办公室(OAIC)和英国信息专员办公室(ICO)进行的调查发现,Clearview AI 的面部识别工具不...

评论列表

语酌池木
2年前 (2022-07-30)

(CSUR), 2018, 51(4): 1-36.[2] Scarselli F,Gori M, Tsoi A C, et al. The graph neural network mo

拥嬉北渚
2年前 (2022-07-30)

据,记为md5 -domain-black。从md5 -domain-black获得对应的所有域名作为黑关联域名,记为domain_black_corr。同理可得domain_white_corr

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。