全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211015410.4 (22)申请日 2022.08.24 (71)申请人 浙江大学 地址 310058 浙江省杭州市西湖区余杭塘 路866号 (72)发明人 杨强 汪金明 杨涛 阮伟  王文海  (74)专利代理 机构 杭州求是专利事务所有限公 司 33200 专利代理师 郑海峰 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/20(2019.01)H04L 9/40(2022.01) (54)发明名称 基于集成学习器的恶意程序 API调用序列检 测方法 (57)摘要 本发明提出了一种基于集成学习器的恶意 程序API调用序列检测方法。 本发明使用多个基 分类器作为集成学习器第一层内容, 对训练集样 本打标签进行有监督学习; 模型训练完成后得到 基分类器组, 基 分类器组中每个基 分类器对验证 集样本进行打标签, 从而最终得到一个由N个基 标签组成的基标签向量集; 将基标签向量集作为 训练集输入到元分类模型进行训练, 得到元分类 器; 实践应用中, 在基分类器组和元分类器都完 成训练后, 经过数据处理的API调用序列被输出 到基分类器组得到基标签向量, 再将基标签向量 输入到元分类器, 由元分类器给出此API序列的 最终标签 。 权利要求书2页 说明书6页 附图1页 CN 115545091 A 2022.12.30 CN 115545091 A 1.一种基于集成学习器的恶意程序API调用序列检测方法, 其特征在于, 包括以下步 骤: (1)获取恶意API序列样本和良性API序列样本; (2)提取恶意API序列样本和良性API序列样本的特征向量, 形成数据集, 并按比例分成 训练集和验证集, 用训练集对数量为N个的基分类模型进行训练, 即得到训练好的基分类 器; (3)用训练完成的基分类器对验证集数据进行分类, 对于每个样本的特征向量, 都会输 出一个基标签向量, 组成基标签向量集, 用基标签向量集对元分类模 型进行训练, 即得到训 练好的元分类 器; 结合基分类 器和元分类 器, 得到完整的集成学习器; (4)将待检测的可执行程序放入沙箱中运行获得可执行程序API调用序列, 并提取可执 行程序API调用序列的特 征向量在所述 集成学习器上进行检测。 2.根据权利要求1所述的基于集成学习器的恶意程序API调用序列检测方法, 其特征在 于, 所述步骤(1)具体为: 将恶意样本和良性样本放入Cuckoo沙箱中运行分别得到恶意API序列样本和良性API 序列样本 。 3.根据权利要求1所述的基于集成学习器的恶意程序API调用序列检测方法, 其特征在 于, 所述步骤(2)具体为: (2.1)对恶意API序列样本和良性API序列样本进行特征提取, 每一个API序列样本对应 一个1×q维特征向量, 形成特征向量数据集, 并按照一定的比例分成训练集和验证集, 公式 如下: Mal'i=Feature_ext raction(Mali) Benign'i=Feature_ext raction(Benigni) 式中Feature_extraction( ·)为特征提取算法, Mali为第i个恶意API序列样本; Mal'i 为Mali经过特征提取后得到的1 ×q维特征向量; Benigni为第i个良性API序列样本; Benign'i为Benigni经过特征提取后得到的1 ×q维特征向量; API_sequence为恶意和良性 API序列的特 征向量总和集 合, m为恶意样本的数量, n 为良性样本的数量; (2.2)利用训练集对N个基分类模型进行训练, 得到训练好的基分类器; 选择每一个基 分类器输出标签为Probability或者Pre dict value, Probability即该样本为恶意样本的 可能性, 值在0~1内波动, 当值越靠近1则说明某基分类器越倾向于判定该样本为恶意样 本, 反之越靠近0则越倾向于判定其为良性样 本, 而Predict  value即基分类器预测值, 值为 0或1, 当值 为1则说明某基分类 器将此样本判定为恶意样本, 值 为0则说明判定为良性样本 。 4.根据权利要求1所述的基于集成学习器的恶意程序API调用序列检测方法, 其特征在 于, 所述步骤(3)具体为: (3.1)在完成对(2.2)中N个基分类模型的训练后, 得到N个对应的基分类器; 再用验证 集作为输入, 得到基分类 器对验证集的基标签向量 集, 公式如下: Vi=[Pi,1,Pi,2,Pi,3,…,Pi,N,Li]权 利 要 求 书 1/2 页 2 CN 115545091 A 2式中, Vi为第i个特征向量得到的基 标签向量, Pi,1,Pi,2,Pi,3,…,Pi,N分别为N个基分类器 对验证集中第i个特征向量的输出值, Li为第i个特征向量样本的真实标签; V为由验证集得 到基标签向量 集, l为验证集中的样本数量; (3.2)将基标签向量集作为元分类模型的训练集, 对元分类器进行训练, 训练完成后, 结合基分类 器和元分类 器, 即得到 完整的集成学习器。 5.根据权利要求3所述的基于集成学习器的恶意程序API调用序列检测方法, 其特征在 于, 所述步骤(2.1)中训练集和验证集的比例为6:4。 6.根据权利要求1所述的基于集成学习器的恶意程序API调用序列检测方法, 其特征在 于, 步骤(2)中基分类模型的数量 N≥5。 7.根据权利要求2所述的基于集成学习器的恶意程序API调用序列检测方法, 其特征在 于, 所述恶意样本和良性样本均为已知标签的可 执行程序样本 。权 利 要 求 书 2/2 页 3 CN 115545091 A 3

PDF文档 专利 基于集成学习器的恶意程序API调用序列检测方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于集成学习器的恶意程序API调用序列检测方法 第 1 页 专利 基于集成学习器的恶意程序API调用序列检测方法 第 2 页 专利 基于集成学习器的恶意程序API调用序列检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:05:59上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。