dgl图神经网络,对抗生成神经网络

基于deep DGA :高级细节

再现(Python ):GitHub地址

研究背景由DGA引发的一系列…

DGA是一种逃避域名黑名单检测的技术手段。 DGA接收种子的输入，产生大量伪随机域名，其中一部分作为CC服务器域名(称为恶意域名或DGA域名)注册的僵尸网络和恶意软件，直到找到注册的域名防御者可以选择所有可能的域名黑名单Example：Cryptolocker

这是DGA域名生成算法。

不同算法的字符分布

首先，Alexa是实际数据集(全球网络排名)。

Cryptolocker和ramnit在同一范围内基本一致(单种子计算)通过连接Suppobox )英语词典的随机单词，反映Alexa Top 1M分布以前的DGA检测模型更难正确分类正文的目标是

这是一种数据压缩算法。模型由编码器、解码器和损失函数组成。

编码器：将输入转换为低维嵌入式(有损压缩)解码器：重建(解压缩)编码器的原始输入(目标)最小化重建原始输出和输入之间的失真特性)易于训练，无需标记)自编码器

这是两个模型之间的对抗。

生成器：根据实际数据分布样本建立合成数据识别器。必须接收样本并确定它是合成数据样本还是实际数据样本的目标。找到平衡类似于纳什均衡模型。 (两种模型由于相互对抗而难以进步的特点)训练困难，回顾了在没有监控架构的情况下论文实现的生成自编码器和对抗网络的架构。

自编码器

生成对抗网络

目标：学习显示正确的Alexa域名。

编码器体系结构来自[Kim et al，2015]，通过嵌入并学习在字符级语言建模中有效的每域名字符线性映射(20维空间)卷积内核来生成字符组合(二维/三维语法) max-Poole

首先，首先处理数据。 (dga_reader.py )。接受输入时，每一行都是域名。在接受了输入后，取得了DGA域名的最大长度为actual_max_word_length (为了便于后面的说明，这里假设取得的DGA域名的最大长度为60 )。调用以下函数：

此函数

左图：自编码器中的编码器

目标：学习显示正确的Alexa域名。解码器：与编码器相反，删除maxpool的过程重复传递域名嵌入的最大长度域名长度(时间步长)序列。 LSTM- Highway Network -在卷积过滤器的最后一层激活Softmax时，将在域名字符中生成多个分布式示例，并在输入域名后生成建模的新域名