专利基于集成学习器的恶意程序API调用序列检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211015410.4 (22)申请日 2022.08.24 (71)申请人浙江大学地址 310058 浙江省杭州市西湖区余杭塘路866号 (72)发明人杨强　汪金明　杨涛　阮伟　王文海　 (74)专利代理机构杭州求是专利事务所有限公司 33200 专利代理师郑海峰 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/20(2019.01)H04L 9/40(2022.01) (54)发明名称基于集成学习器的恶意程序 API调用序列检测方法 (57)摘要本发明提出了一种基于集成学习器的恶意程序API调用序列检测方法。本发明使用多个基分类器作为集成学习器第一层内容，对训练集样本打标签进行有监督学习；模型训练完成后得到基分类器组，基分类器组中每个基分类器对验证集样本进行打标签，从而最终得到一个由N个基标签组成的基标签向量集；将基标签向量集作为训练集输入到元分类模型进行训练，得到元分类器；实践应用中，在基分类器组和元分类器都完成训练后，经过数据处理的API调用序列被输出到基分类器组得到基标签向量，再将基标签向量输入到元分类器，由元分类器给出此API序列的最终标签。权利要求书2页说明书6页附图1页 CN 115545091 A 2022.12.30 CN 115545091 A 1.一种基于集成学习器的恶意程序API调用序列检测方法，其特征在于，包括以下步骤： (1)获取恶意API序列样本和良性API序列样本； (2)提取恶意API序列样本和良性API序列样本的特征向量，形成数据集，并按比例分成训练集和验证集，用训练集对数量为N个的基分类模型进行训练，即得到训练好的基分类器； (3)用训练完成的基分类器对验证集数据进行分类，对于每个样本的特征向量，都会输出一个基标签向量，组成基标签向量集，用基标签向量集对元分类模型进行训练，即得到训练好的元分类器；结合基分类器和元分类器，得到完整的集成学习器； (4)将待检测的可执行程序放入沙箱中运行获得可执行程序API调用序列，并提取可执行程序API调用序列的特征向量在所述集成学习器上进行检测。 2.根据权利要求1所述的基于集成学习器的恶意程序API调用序列检测方法，其特征在于，所述步骤(1)具体为：将恶意样本和良性样本放入Cuckoo沙箱中运行分别得到恶意API序列样本和良性API 序列样本。 3.根据权利要求1所述的基于集成学习器的恶意程序API调用序列检测方法，其特征在于，所述步骤(2)具体为： (2.1)对恶意API序列样本和良性API序列样本进行特征提取，每一个API序列样本对应一个1×q维特征向量，形成特征向量数据集，并按照一定的比例分成训练集和验证集，公式如下： Mal'i＝Feature_ext raction(Mali) Benign'i＝Feature_ext raction(Benigni) 式中Feature_extraction( ·)为特征提取算法， Mali为第i个恶意API序列样本； Mal'i 为Mali经过特征提取后得到的1 ×q维特征向量； Benigni为第i个良性API序列样本； Benign'i为Benigni经过特征提取后得到的1 ×q维特征向量； API_sequence为恶意和良性 API序列的特征向量总和集合， m为恶意样本的数量， n 为良性样本的数量； (2.2)利用训练集对N个基分类模型进行训练，得到训练好的基分类器；选择每一个基分类器输出标签为Probability或者Pre dict value， Probability即该样本为恶意样本的可能性，值在0～1内波动，当值越靠近1则说明某基分类器越倾向于判定该样本为恶意样本，反之越靠近0则越倾向于判定其为良性样本，而Predict value即基分类器预测值，值为 0或1，当值为1则说明某基分类器将此样本判定为恶意样本，值为0则说明判定为良性样本。 4.根据权利要求1所述的基于集成学习器的恶意程序API调用序列检测方法，其特征在于，所述步骤(3)具体为： (3.1)在完成对(2.2)中N个基分类模型的训练后，得到N个对应的基分类器；再用验证集作为输入，得到基分类器对验证集的基标签向量集，公式如下： Vi＝[Pi,1,Pi,2,Pi,3,…,Pi,N,Li]权　利　要　求　书 1/2 页 2 CN 115545091 A 2式中， Vi为第i个特征向量得到的基标签向量， Pi,1,Pi,2,Pi,3,…,Pi,N分别为N个基分类器对验证集中第i个特征向量的输出值， Li为第i个特征向量样本的真实标签； V为由验证集得到基标签向量集， l为验证集中的样本数量； (3.2)将基标签向量集作为元分类模型的训练集，对元分类器进行训练，训练完成后，结合基分类器和元分类器，即得到完整的集成学习器。 5.根据权利要求3所述的基于集成学习器的恶意程序API调用序列检测方法，其特征在于，所述步骤(2.1)中训练集和验证集的比例为6:4。 6.根据权利要求1所述的基于集成学习器的恶意程序API调用序列检测方法，其特征在于，步骤(2)中基分类模型的数量 N≥5。 7.根据权利要求2所述的基于集成学习器的恶意程序API调用序列检测方法，其特征在于，所述恶意样本和良性样本均为已知标签的可执行程序样本。权　利　要　求　书 2/2 页 3 CN 115545091 A 3

专利 基于集成学习器的恶意程序API调用序列检测方法

专利基于集成学习器的恶意程序API调用序列检测方法