webshell检测方式深度剖析 ---统计学特征检测_neopi-程序员宅基地

技术标签：恶意脚本检测

概论

该篇文章讲述了NeoPI如何利用统计学特征来检测webshell，笔者认为NeoPI选择的这些统计学方法在webshell检测上有些鸡肋，没有太大的实用效果。

反而其中的各种统计学方法值得学习一下，因此文章会重点讲解这些统计学特征的原理，以求可以举一反三，并应用在其他领域。

统计学特征

NeoPi使用以下五种统计学特征检测方法，下面分别来分析各种方法的原理和代码实现（代码部分只选择了核心代码并附加了注释，方便大家阅读。）：

重合指数

重合指数法是密码分析学的一种工具，主要用于多表代换的密码破译。
以纯英文文本为例，它的基本原理可以定义如下：

设 $X=x_1x_2...x_n$ 是一个长度为 $n$ 的英文字符串， $X$ 的重合指数定义为 $X$ 中的两个随机元素相同的概率，记为 $I_c(X)$ 。假设英文字母 $A$ ， $B$ ， $C$ ，…在X中的出现次数分别为 $f_1$ ， $f_2$ ，…， $f_{25}$ 。显然，从X中任意选择两个元素共有 $C^{2}_{25}$ 种组合，选取的元素同时为第 $i$ 个英文字母的情况有 $C^{2}_{f_i}$ 种组合， $0 < = i < = 25$ 。因此，有
$I{_c}(X) =\sum_{i=0}^{25}(C_f^2/C_n^2) = \sum_{i=0}^{25}(f_i(f_i-1)/n(n-1))$

根据统计，在英文中各个字母出现的频率是特定的，如下表 :

字母	概率	字母	概率
A	0.082	N	0.067
B	0.015	O	0.075
C	0.028	P	0.019
D	0.043	Q	0.001
E	0.127	R	0.060
F	0.022	S	0.063
G	0.020	T	0.091
H	0.061	U	0.028
I	0.070	V	0.010
J	0.002	W	0.002
K	0.008	X	0.001
L	0.040	Y	0.020
M	0.024	Z	0.001

将英文字母A，B，C，…，Z的期望概率分别记为 $p_0，p_1，p_2，...，p_{25}$ ，则有一段正常英文文本的期望重合指数为 $I_c(X)\approx \sum_{i=0}^{25}(p_i^2) = 0.065$

如上所述，一个纯英文的且编码风格良好（一般在软件开发时，会采用统一的函数及有意义的变量名编写）的源代码计算出的重合指数会趋近于0.065。考虑到文件中的中文注释，虽然计算出的重合指数会偏离0,065，但同样会趋于相似，呈现正态分布。

而加密或者混淆后的webshell 与原 web 应用不相关，其字符的排列通常没有特征可言，计算出的重合指数与正常文件的重合指数相差较大（混淆后的重合指数通常较小），一定程度上，可以作为webshell判定的依据。

重合指数的计算比较简单，代码如下：

# @param data 从文件中取出的全部内容数据
 # @return ic 返回计算好的重合指数
 def index_of_coincidence(data):
       """计算文件内容的重合指数"""
       if not data:
           return 0
       char_count = 0       # 保存在data中任意选择两个字符，这两个字符相同的情形的数量
       total_char_count = 0 # 保存在data所有字符的数量

        # 遍历单字节代表的256字符
       for x in range(256):
           char = chr(x)
           charcount = data.count(char)              # 计算当前字符在data中的数量
           char_count += charcount * (charcount - 1) # 计算在data中任意选择两个字符，这两个字符都为当前字符的情形的数量，并累加
           total_char_count += charcount             # 计算当前字符在data中的数量，并累加
       
       # 按照重合指数的计算方法进行计算
       ic = float(char_count)/(total_char_count * (total_char_count - 1))
       return ic

信息熵

熵，是一个热力学的概念，用来度量封闭系统的混乱程度。但在历史的发展中，造就了它非常丰富的内涵，进入了很多学科的视野。

1948年，香农提出了“信息熵”的概念，解决了对信息的量化度量问题。信息量是对信息的度量，就跟时间的度量是秒一样，当我们考虑一个离散的随机变量x的时候，当我们观察到的这个变量的一个具体值的时候，我们接收到了多少信息呢？

多少信息用信息量来衡量，而我们接受到的信息量跟具体发生的事件有关。

信息的大小跟随机事件的概率有关。越小概率的事情发生了产生的信息量越大，如太阳从西边升起来了；越大概率的事情发生了产生的信息量越小，如太阳从东边升起来了（肯定发生，没什么信息量）。
信息熵的公式定义如下：

$\sum_{i=1}^{N}p(x_i)log(p(x_i))$
其中， $p(x_i)代表随机事件$ $x_i$ 的概率，对数一般以2为底。对应到文件熵上，一般使 $p(x_i)$ 为字符 $x_i$ 在文件内容中出现的概率。

那么类似于重合指数，加密混淆后的webshell通常通篇都是没有任何意义和规律的字符，其通过计算公式得出的信息熵值会偏离平均值较大。

计算信息熵的代码如下：

# @param data 从文件中取出的全部内容数据
 # @return entropy 返回计算出的文件熵
def calculate(self,data):
       """计算文件信息熵."""

       if not data:
           return 0
           
       entropy = 0 # 保存最终熵值
       self.stripped_data =data.replace(' ', '') # 去掉文件内容中的空格
       
       # 遍历所有asci 256个字符
       for x in range(256):
           p_x = float(self.stripped_data.count(chr(x)))/len(self.stripped_data) # 计算单个字符出现的概率
           if p_x > 0:
               entropy += - p_x * math.log(p_x, 2) # 计算该字符的熵值并累加
       return entropy

最长单词

一般在软件开发时，其使用的字符串、函数名、变量名都会尽可能有规律和简短，但是，通过变形和加密往往会构造;超长的字符串，通过检测代码中的最长字符串，并把最有可能是 webshell 的文件提供给管理员判断。

代码如下：

# @param data 从文件中取出的全部内容数据
# @return longest_word, longest 返回最长单词的内容和长度
def LongestWord(self,data):
       """查找文件内容中长度最长的单词"""
       if not data:
           return "", 0

       longest = 0 # 保存最长单词的长度
       longest_word = "" # 保存最长单词的内容
       
       words = re.split("[\s,\n,\r]", data) # 将文件内容按照空格和换行进行分词
       if words:
           for word in words:
               length = len(word)
               if length > longest: # 循环查找最长单词
                   longest = length
                   longest_word = word
       return longest_word，longest

恶意特征

在文件中搜索已知的恶意代码字符串片段，通过正则表达式，在文件内查找预定义的恶意特征。
这部分其实是静态检测，但是NeoPI也扩展添加了这部分的能力。

代码如下：

# @param data 从文件中取出的全部内容数据
# @return len(matches) 返回匹配的数量
def signature_nasty(self, data): 
       """查找文件的恶意特征"""
       if not data:
           return "", 0
       
       # 查找文件内下面所列的恶意函数 
       valid_regex = re.compile('(eval\(|file_put_contents|base64_decode|python_eval|exec\(|passthru|popen|proc_open|pcntl|assert\(|system\(|shell)', re.I)
       matches = re.findall(valid_regex, data)
       return len(matches)

压缩比

正常的代码通常编码风格良好，并且文件内有一定的空行和空格作为分隔，进行压缩时能有较大的压缩比。但是经过混淆后的代码通常没有空格和空行，而且字符顺序混乱，进行压缩时压缩比较小。

代码如下：

# @param data 从文件中取出的全部内容数据
# @return ratio 返回计算出的压缩比
def calculate(self, data):
       if not data:
           return "", 0
       compressed = zlib.compress(data)
       ratio =  float(len(data)) / float(len(compressed))
       self.results.append({
    "filename":filename, "value":ratio})
       return ratio

检测结果评测

NeoPI本身不给出一个文件是不是webshell的判断，它只是计算各种统计特征值，然后针对每一个特征值做出一个排名。在实际应用中，可以选择任意特征值的排名组合来判断。

为了让测试更有代表性，笔者采用如下策略：

首先进行如下形式化定义：

$W_{min}(x) = WordPress中相应特征最小的x个文件的平均值$
$W_{max}(x) = WordPress中相应特征最大的x个文件的平均值$
$B_{min}(x) = 300个黑样本中相应特征最小的x个文件的平均值$
$B_{max}(x) = 300个黑样本中相应特征最大的x个文件的平均值$

1、重合指数判断策略

2、信息熵判断策略

3、最长单词判断策略
同信息熵的判断策略

4、恶意特征
存在恶意特征则判定为webshell

5、压缩比
同信息熵的判断策略

实际测试结果如下：

统计特征	检出率	误报率
重合指数	94%	0%
信息熵	58%	0.5%
最长单词	42%	0%
恶意特征	79%	4%
压缩比	10%	0%

notes：由于NeoPI主要用来检测混淆webshell，所以笔者的阈值选择优先于黑样本和白样本中的混淆文件的特征值。

总结

NeoPi的检测重心在于识别混淆代码，它常常在识别模糊代码或者混淆编排的木马方面表现良好，但是也依赖于检测阈值的选取。同时，NeoPi的检测机制对未经模糊处理的代码检测能力较弱。

本文链接：https://blog.csdn.net/qq_31032141/article/details/107207911

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

linux里面ping www.baidu.com ping不通的问题_linux桥接ping不通baidu-程序员宅基地

文章浏览阅读3.2w次，点赞16次，收藏90次。对于这个问题我也是从网上找了很久，终于解决了这个问题。首先遇到这个问题，应该确认虚拟机能不能正常的上网，就需要ping 网关，如果能ping通说明能正常上网，不过首先要用命令route -n来查看自己的网关，如下图：第一行就是默认网关。现在用命令ping 192.168.1.1来看一下结果：然后可以看一下电脑上面百度的ip是多少可以在linux里面ping 这个IP，结果如下：..._linux桥接ping不通baidu

android 横幅弹出权限,有关 android studio notification 横幅弹出的功能没有反应-程序员宅基地

文章浏览阅读512次。小妹在这里已经卡了2-3天了，研究了很多人的文章，除了低版本api 17有成功外，其他的不是channel null 就是没反应 (channel null已解决)拜托各位大大，帮小妹一下，以下是我的程式跟 gradle, 我在这里卡好久又没有人可问(哭)![image](/img/bVcL0Qo)public class MainActivity extends AppCompatActivit..._android 权限申请弹窗横屏

CNN中padding参数分类_cnn “相同填充”(same padding)-程序员宅基地

文章浏览阅读1.4k次，点赞4次，收藏6次。valid padding（有效填充）：完全不使用填充。half/same padding（半填充/相同填充）：保证输入和输出的feature map尺寸相同。full padding（全填充）：在卷积操作过程中，每个像素在每个方向上被访问的次数相同。arbitrary padding（任意填充）：人为设定填充。..._cnn “相同填充”(same padding)

Maven的基础知识，java技术栈-程序员宅基地

文章浏览阅读790次，点赞29次，收藏28次。手绘了下图所示的kafka知识大纲流程图（xmind文件不能上传，导出图片展现），但都可提供源文件给每位爱学习的朋友一个人可以走的很快，但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎扫码加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！[外链图片转存中…(img-Qpoc4gOu-1712656009273)][外链图片转存中…(img-bSWbNeGN-1712656009274)]

getFullYear()和getYear()有什么区别_getyear和getfullyear-程序员宅基地

文章浏览阅读469次。Date对象取得年份有getYear和getFullYear两种方法经测试var d=new Date;alert(d.getYear())在IE中返回 2009，在Firefox中会返回109。经查询手册，getYear在Firefox下返回的是距1900年1月1日的年份，这是一个过时而不被推荐的方法。而alert(d.getFullYear())在IE和FF中都会返回2009。因此，无论何时都应使用getFullYear来替代getYear方法。例如：2016年用 getFullYea_getyear和getfullyear

Unix传奇（上篇）_unix传奇pdf-程序员宅基地

文章浏览阅读182次。Unix传奇(上篇) 陈皓了解过去，我们才能知其然，更知所以然。总结过去，我们才会知道我们明天该如何去规划，该如何去走。在时间的滚轮中，许许多的东西就像流星一样一闪而逝，而有些东西却能经受着时间的考验散发着经久的魅力，让人津津乐道，流传至今。要知道明天怎么去选择，怎么去做，不是盲目地跟从今天各种各样琳琅满目前沿技术，而应该是去 —— 认认真真地了解和回顾历史。 Unix是目前还在存活的操作系_unix传奇pdf

随便推点

ACwing 哈希算法入门：_ac算法哈希-程序员宅基地

文章浏览阅读308次。哈希算法：将字符串映射为数字形式，十分巧妙，一般运用为进制数，进制据前人经验，一般为131，1331时重复率很低，由于字符串的数字和会很大，所以一般为了方便，一般定义为unsigned long long,爆掉时，即为对 2^64 取模，可以对于任意子序列的值进行映射为数字进而进行判断入门题目链接：AC代码：#include<bits/stdc++.h>using na..._ac算法哈希

VS配置Qt和MySQL_在vs中如何装qt5sqlmysql模块-程序员宅基地

文章浏览阅读952次，点赞13次，收藏27次。由于觉得Qt的编辑界面比较丑，所以想用vs2022的编辑器写Qt加MySQL的项目。_在vs中如何装qt5sqlmysql模块

【渝粤题库】广东开放大学互联网营销形成性考核_画中画广告之所以能有较高的点击率,主要由于它具有以下特点-程序员宅基地

文章浏览阅读1k次。选择题题目：下面的哪个调研内容属于经济环境调研？（）题目：（）的目的就是加强与客户的沟通，它是是网络媒体也是网络营销的最重要特性。题目：4Ps策略中4P是指产品、价格、顾客和促销。题目：网络市场调研是目前最为先进的市场调研手段，没有任何的缺点或不足之处。题目：市场定位的基本参数有题目：市场需求调研可以掌握（）等信息。题目：在开展企业网站建设时应做好以下哪几个工作。（）题目：对企业网站首页的优化中，一定要注意下面哪几个方面的优化。（）题目：（）的主要作用是增进顾客关系，提供顾客服务，提升企业_画中画广告之所以能有较高的点击率,主要由于它具有以下特点

爬虫学习（1）：urlopen库使用_urlopen the read operation timed out-程序员宅基地

文章浏览阅读1k次，点赞2次，收藏5次。以爬取CSDN为例子：第一步：导入请求库第二步：打开请求网址第三步：打印源码import urllib.requestresponse=urllib.request.urlopen("https://www.csdn.net/?spm=1011.2124.3001.5359")print(response.read().decode('utf-8'))结果大概就是这个样子：好的，继续，看看打印的是什么类型的：import urllib.requestresponse=urllib.r_urlopen the read operation timed out

分享读取各大主流邮箱通讯录(联系人)、MSN好友列表的的功能【升级版(3.0)】-程序员宅基地

文章浏览阅读304次。修正sina.com/sina.cn邮箱获取不到联系人，并精简修改了其他邮箱代码，以下就是升级版版本的介绍：完整版本，整合了包括读取邮箱通讯录、MSN好友列表的的功能，目前读取邮箱通讯录支持如下邮箱：gmail(Y)、hotmail(Y)、 live(Y)、tom(Y)、yahoo(Y)(有点慢)、 sina(Y)、163(Y)、126(Y)、yeah(Y)、sohu(Y) 读取后可以发送邮件(完..._通讯录应用读取邮件的相关

云计算及虚拟化教程_云计算与虚拟化技术教改-程序员宅基地

文章浏览阅读213次。云计算及虚拟化教程学习云计算、虚拟化和计算机网络的基本概念。此视频教程共2.0小时，中英双语字幕，画质清晰无水印，源码附件全课程英文名：Cloud Computing and Virtualization An Introduction百度网盘地址：https://pan.baidu.com/s/1lrak60XOGEqMOI6lXYf6TQ?pwd=ns0j课程介绍：https://www.aihorizon.cn/72云计算：概念、定义、云类型和服务部署模型。虚拟化的概念使用 Type-2 Hyperv_云计算与虚拟化技术教改