(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211015410.4
(22)申请日 2022.08.24
(71)申请人 浙江大学
地址 310058 浙江省杭州市西湖区余杭塘
路866号
(72)发明人 杨强 汪金明 杨涛 阮伟
王文海
(74)专利代理 机构 杭州求是专利事务所有限公
司 33200
专利代理师 郑海峰
(51)Int.Cl.
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06N 20/20(2019.01)H04L 9/40(2022.01)
(54)发明名称
基于集成学习器的恶意程序 API调用序列检
测方法
(57)摘要
本发明提出了一种基于集成学习器的恶意
程序API调用序列检测方法。 本发明使用多个基
分类器作为集成学习器第一层内容, 对训练集样
本打标签进行有监督学习; 模型训练完成后得到
基分类器组, 基 分类器组中每个基 分类器对验证
集样本进行打标签, 从而最终得到一个由N个基
标签组成的基标签向量集; 将基标签向量集作为
训练集输入到元分类模型进行训练, 得到元分类
器; 实践应用中, 在基分类器组和元分类器都完
成训练后, 经过数据处理的API调用序列被输出
到基分类器组得到基标签向量, 再将基标签向量
输入到元分类器, 由元分类器给出此API序列的
最终标签 。
权利要求书2页 说明书6页 附图1页
CN 115545091 A
2022.12.30
CN 115545091 A
1.一种基于集成学习器的恶意程序API调用序列检测方法, 其特征在于, 包括以下步
骤:
(1)获取恶意API序列样本和良性API序列样本;
(2)提取恶意API序列样本和良性API序列样本的特征向量, 形成数据集, 并按比例分成
训练集和验证集, 用训练集对数量为N个的基分类模型进行训练, 即得到训练好的基分类
器;
(3)用训练完成的基分类器对验证集数据进行分类, 对于每个样本的特征向量, 都会输
出一个基标签向量, 组成基标签向量集, 用基标签向量集对元分类模 型进行训练, 即得到训
练好的元分类 器; 结合基分类 器和元分类 器, 得到完整的集成学习器;
(4)将待检测的可执行程序放入沙箱中运行获得可执行程序API调用序列, 并提取可执
行程序API调用序列的特 征向量在所述 集成学习器上进行检测。
2.根据权利要求1所述的基于集成学习器的恶意程序API调用序列检测方法, 其特征在
于, 所述步骤(1)具体为:
将恶意样本和良性样本放入Cuckoo沙箱中运行分别得到恶意API序列样本和良性API
序列样本 。
3.根据权利要求1所述的基于集成学习器的恶意程序API调用序列检测方法, 其特征在
于, 所述步骤(2)具体为:
(2.1)对恶意API序列样本和良性API序列样本进行特征提取, 每一个API序列样本对应
一个1×q维特征向量, 形成特征向量数据集, 并按照一定的比例分成训练集和验证集, 公式
如下:
Mal'i=Feature_ext raction(Mali)
Benign'i=Feature_ext raction(Benigni)
式中Feature_extraction( ·)为特征提取算法, Mali为第i个恶意API序列样本; Mal'i
为Mali经过特征提取后得到的1 ×q维特征向量; Benigni为第i个良性API序列样本;
Benign'i为Benigni经过特征提取后得到的1 ×q维特征向量; API_sequence为恶意和良性
API序列的特 征向量总和集 合, m为恶意样本的数量, n 为良性样本的数量;
(2.2)利用训练集对N个基分类模型进行训练, 得到训练好的基分类器; 选择每一个基
分类器输出标签为Probability或者Pre dict value, Probability即该样本为恶意样本的
可能性, 值在0~1内波动, 当值越靠近1则说明某基分类器越倾向于判定该样本为恶意样
本, 反之越靠近0则越倾向于判定其为良性样 本, 而Predict value即基分类器预测值, 值为
0或1, 当值 为1则说明某基分类 器将此样本判定为恶意样本, 值 为0则说明判定为良性样本 。
4.根据权利要求1所述的基于集成学习器的恶意程序API调用序列检测方法, 其特征在
于, 所述步骤(3)具体为:
(3.1)在完成对(2.2)中N个基分类模型的训练后, 得到N个对应的基分类器; 再用验证
集作为输入, 得到基分类 器对验证集的基标签向量 集, 公式如下:
Vi=[Pi,1,Pi,2,Pi,3,…,Pi,N,Li]权 利 要 求 书 1/2 页
2
CN 115545091 A
2式中, Vi为第i个特征向量得到的基 标签向量, Pi,1,Pi,2,Pi,3,…,Pi,N分别为N个基分类器
对验证集中第i个特征向量的输出值, Li为第i个特征向量样本的真实标签; V为由验证集得
到基标签向量 集, l为验证集中的样本数量;
(3.2)将基标签向量集作为元分类模型的训练集, 对元分类器进行训练, 训练完成后,
结合基分类 器和元分类 器, 即得到 完整的集成学习器。
5.根据权利要求3所述的基于集成学习器的恶意程序API调用序列检测方法, 其特征在
于, 所述步骤(2.1)中训练集和验证集的比例为6:4。
6.根据权利要求1所述的基于集成学习器的恶意程序API调用序列检测方法, 其特征在
于, 步骤(2)中基分类模型的数量 N≥5。
7.根据权利要求2所述的基于集成学习器的恶意程序API调用序列检测方法, 其特征在
于, 所述恶意样本和良性样本均为已知标签的可 执行程序样本 。权 利 要 求 书 2/2 页
3
CN 115545091 A
3
专利 基于集成学习器的恶意程序API调用序列检测方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:05:59上传分享