2017年10月我们上线了一版机器学习https://ml.shellpub.com, 之后长期处于“试验阶段”,当时的模型召回率始终无法达到理想状态。机缘巧合,我们加入了微步在线;有微步专业的机器学习团队支持,我们决定再战机器学习。
河马在线旧版机器学习查杀
引擎 | 特征选择 | 检出 |
神经网络 | opcode序列 | 96.74% |
xgboost | AST特征序列 | 98.78% |
预训练大模型 | 文本序列 | 98.21% |
yara引擎 | - | 90.32% |
某最新公开引擎 | - | 95.57% |
神经网络 | 多维特征整合 | 99.37% |
检出测试结果表
一般的AI技术会提取恶意样本中的敏感函数、信息熵、文件重合指数、标签数等等特征,通过传统的机器学习或者简单深度学习进行训练得到检测模型。这样做的确有一定效果,但在抽取特征的时候丢失了大量文件信息,这些信息在某些情况下会影响模型的判断。微步的WebShell检测引擎在大量实验后,细化了常规的特征提取,确保信息的抽取更准确;此外从多个维度抽取文件信息,确保信息的抽取更加全面。
例如我们也会抽取敏感函数,我们会细化函数分类,精准确定函数执行位置和执行情况;我们舍弃传统的信息熵和文件重合指数作为混乱度指标,采用深度学习方法更精准的计算代码混乱度;我们不仅从语法树AST角度抽取信息,我们还从文本、字符、字节码维度共同抽取文本信息,让深度学习从多维度视角理解代码,做出更准确判断。
如今机器学习已经完全合并到在线查杀https://n.shellpub.com的正式环境中,作为河马WebShell检测的重要引擎,同时ml.shellpub.com也正式下线。
福利抽奖活动
SHELLPUB出新版本啦!还有福利抽奖活动!详情请戳 ↓↓↓
点击下方名片,关注我们
如果不想错过消息,可以星标 哦~