全网唯一标准王
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202211068208.8 (22)申请日 2022.09.02 (65)同一申请的已公布的文献号 申请公布号 CN 115134176 A (43)申请公布日 2022.09.30 (73)专利权人 南京航空航天大 学 地址 211106 江苏省南京市江宁区将军大 道29号 (72)发明人 胥帅 黄钰 许建秋 关东海  (74)专利代理 机构 青岛锦佳专利代理事务所 (普通合伙) 37283 专利代理师 朱玉建 (51)Int.Cl. H04L 9/40(2022.01) H04L 47/2441(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)(56)对比文件 CN 114124463 A,2022.03.01 CN 112148955 A,2020.12.2 9 CN 112202782 A,2021.01.08 CN 114257428 A,202 2.03.29 CN 112235264 A,2021.01.15 CN 111277578 A,2020.0 6.12 WO 2022041394 A1,202 2.03.03 US 202023 6131 A1,2020.07.23 潘逸涵等.基 于深度学习的Tor流 量识别方 法. 《通信技 术》 .2019,(第12期), 邹源等. 《基 于LSTM循环神经网络的恶意加 密流量检测》 . 《计算机 应用与软件》 .2020, Ola Salman et al. . 《A review o n machine learn ing-based ap proaches for Internet traf fic clas sificati on》 . 《Annals of Telecom munications》 .2020, (续) 审查员 陈燕 (54)发明名称 一种基于不完全监督的暗网加密流量分类 方法 (57)摘要 本发明公开了一种基于不完全监督的暗网 加密流量分类方法, 其包括如下步骤: 对暗网加 密流量数据预处理获得多个单独的流量会话数 据; 为少量流量会话数据打上分类标签获得初始 训练数据集; 对 预处理后的流量会话数据进行特 征选取; 利用已标注的初始训练数据集预训练 LSTM分类模型; 利用预训练完成的LS TM对未标注 的流量会话数据进行分类; 将LS TM最后一个隐藏 层的状态输入DBSCAN进行聚类; 将LS TM的分类 结 果与DBSCAN聚类 结果进行双重校验; 利用训练好 的LSTM对类别标签未知的暗网加密流量进行分 类。 本发明在不对加密流量进行解密的前提下, 实现了针对暗网加密流 量的细粒度分类 。 [转续页] 权利要求书3页 说明书5页 附图2页 CN 115134176 B 2022.11.29 CN 115134176 B (56)对比文件 Xun Liu et al. . 《Attention-based bidirecti onal GRU netw orks for ef ficient HTTPS traffic clas sificati on》 . 《Informati on Sciences》 .2020,2/2 页 2[接上页] CN 115134176 B1.一种基于不完全监 督的暗网加密流 量分类方法, 其特 征在于, 包括如下步骤: 步骤1. 对暗网加密流 量数据进行 预处理, 获得多个单独的流 量会话数据; 步骤2. 为部分流 量会话数据打上分类标签, 获得初始训练数据集; 步骤3. 对步骤1预处 理后的流 量会话数据进行 特征选取; 步骤4. 利用步骤2已标注的初始训练数据集, 预训练LSTM分类模型; 步骤5. 针对未标注的流 量会话数据利用步骤4预训练完成的LSTM分类模型进行分类; 步骤6. 将LSTM分类模型最后一个隐藏层的状态输入DBSCAN进行聚类; 步骤7. 将步骤5中LSTM的分类结果与步骤6中DBSCAN聚类结果进行双重校验; 所述步骤7具体为: 设定阈值δ, 根据步骤5和步骤6对于流量会话数据 d’的分类结果即类别 c和类别c’, 分 别选取类别 c和类别c’中置信度最高的样本, 记为样本 m和m’; 若样本m和m’之间的欧式距离dist( m,m’)≤ δ, 欧式距离的计算方式为: ; 其中,m1、m2…mk分别表示样本 m的k维坐标,m’1、m’2…m’k分别表示样本 m’的k维坐标, 则 认为类别 c和类别c’属于同一类别; 此时, 流 量会话数据 d’的所属类别标记为 c; 将该流量会话数据 d’加入步骤2已标记类别的流量会话样本集合中, 扩充初始训练数 据集, 用于LSTM分类模型和DBSCAN聚类算法的重新训练; 若样本m和m’之间的欧式距离dist( m,m’)>δ, 则认为类别 c和类别c’不属于同一类别, 此时, 将流 量会话数据 d’送回未标注的会话样本集 合; 重复上述 步骤5至步骤7, 直到所有未 标注的流 量会话样本均被打上 标签; 步骤8. 利用训练好的LSTM分类模型对类别标签未知的暗网加密流 量进行分类。 2.根据权利要求1所述的基于不完全监 督的暗网加密流 量分类方法, 其特 征在于, 所述步骤1具体为: 利用网络抓包工具收集暗网通信工具TOR的加密流量数据, 收集到的原始文件格式为 pcap; 对格式为pcap的加密流量数据进行预处理, 包括将pcap文件中的重复、 冗余以及空白 噪声删除, 然后将加密流 量按会话层的形式进行切分, 获得一条 条单独的流 量会话数据。 3.根据权利要求1所述的基于不完全监 督的暗网加密流 量分类方法, 其特 征在于, 所述步骤2具体为: 对预处理后的流量会话数据, 采用人工识别并标记分类标签的方式, 获得部分训练数 据。 4.根据权利要求1所述的基于不完全监 督的暗网加密流 量分类方法, 其特 征在于, 所述步骤3具体为: 步骤3.1. 提取每一条流 量会话数据的统计特 征, 共计M个数值 化的统计特 征; 步骤3.2.  针对每一条流量会话数据, 截取加密后的流量荷载, 即每条会话传输的有效 数据, 这些有效数据由一系列大小在0 ‑255的字节组成; 截取每一条会话中密文形式的有效荷载前N个字节; 对于有 效荷载长度不满N个字节的 会话, 填充到N个字节, 填充的内容是传输包中不会出现的异常值;权 利 要 求 书 1/3 页 2 CN 115134176 B 3

PDF文档 专利 一种基于不完全监督的暗网加密流量分类方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于不完全监督的暗网加密流量分类方法 第 1 页 专利 一种基于不完全监督的暗网加密流量分类方法 第 2 页 专利 一种基于不完全监督的暗网加密流量分类方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:05:24上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。