一种基于改进的字符特征的恶意域名检测技术研

【摘要】:域名解析系统已经发展成了一个不可忽视的网络基础设施和信息枢纽,在人们进行日常网络活动中是不可缺少的一环。但是网络恶意域名出现越来越频繁,对域名解析系统造成恶意影响,同时也对国家、社会和人们的生活带来了各个方面的损失。因此,恶意域名检测也显得越发重要。目前恶意域名检测的方法多是基于黑名单匹配和机器学习方法来进行。黑名单匹配的方法依赖于已经检测完成的恶意域名黑名单,时效性弱,更新慢;基于机器学习的方法比较流行,目前一般以域名字符特征作为特征来训练模型,进行分类。但是随着恶意域名生成算法的更新,目前越来越多恶意域名与正常域名差异性变小,通过更改单词中的部分字符来模仿正常域名,故以字符作为特征分类变得不具备明显区分度。本文提出了一种基于改进的字符特征作为分类依据的检测方法。同时本文根据恶意域名网站的恶意诱导内容将恶意域名分划分了具体的类别和比例。具体内容如下:(1)本文首先分析了恶意DGA域名与正常域名在字符组成和分布上的区别,以此为依据选取了域名九个字符基本特征来进行模型训练进行实验,为本文基于改进字符特征的后续域名分类提供了依据。随后分析了研究域名字符的改进特征即词法特征,使用支持向量机算法训练分类模型,然后进行测试得到域名检测结果,并与使用原始字符特征的分类方法进行比较,准确率提高0.7%,精确度提高0.6%。(2)在上述分类检测的基础上研究了短域名分类的效果,提出在SVM模型中增加了隐马尔可夫特征进行训练的分类方法,并对训练后的模型进行了验证,发现该方法对于长域名和短域名均有较好的效果,最终结果准确率超过95.4%,召回率超过96.4%,精确度超过94.4%,准确率、精确度与原始字符特征相比均提高1%以上。(3)本文对恶意域名进行了进一步分类,使用网页请求过滤、网页title关键词与词典库相匹配,子链接信息等对未标记域名做聚类分析的方式将本文恶意域名数据集分成15个类别,并得出了每个类别的分布比例,可满足海量域名数据的分类。本文中对恶意域名进行检测时将原始字符特征改为分词特征能显著提升对新型的DGA域名检测效果,而且HMM系数的添加使得对检测困难的字符较短的DGA域名也能起到好的检测效果。而对恶意域名网站的聚类分析使得种类繁多的恶意域名被划分为特定类别,实现了对海量数据和多种类别恶意域名的分类。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zzxxdg.html