全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211061308.8 (22)申请日 2022.09.01 (71)申请人 全知科技 (杭州) 有限责任公司 地址 310000 浙江省杭州市余杭区仓前街 道仓兴路1号2幢204B室 (72)发明人 杨梦月 栾尚聪  (74)专利代理 机构 杭州奇炬知识产权代理事务 所(特殊普通 合伙) 33393 专利代理师 贺心韬 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/216(2020.01) G06N 3/04(2006.01) H04L 9/40(2022.01) (54)发明名称 一种基于深度自编码器的HTTP流量异常检 测方法 (57)摘要 本发明公开了一种基于深度自编码器的 HTTP流量异常检测方法, 具体涉及网络通信安全 领域, 包括: S1、 数据采 集; S2、 数据处理; S3、 向量 化表示; S4、 异常样本剔除; S5、 训练异常流量识 别模型和S6、 异常流量检测。 本发明通过将HTTP 流量事件视为包含语义信息的文本, 经过自然语 言处理相关技术的预处理操作后, 使用词袋模型 进行向量化表 示, 并在使用聚类算法剔除异常样 本后, 输入深度自编码器模型进行训练, 得到异 常流量识别模型, 用于HTTP流量异常检测, 借助 自然语言处理领域算法进行分析和处理, 提出应 用深度自编码器模型对HTTP流量事件进行分析 和处理, 并实现了深度自编码器模型在HTTP流量 事件数据集上的训练技术方法及异常检测技术 方法。 权利要求书2页 说明书5页 附图2页 CN 115525759 A 2022.12.27 CN 115525759 A 1.一种基于深度自编码器的HT TP流量异常检测方法, 其特 征在于, 具体 检测步骤如下: S1、 数据采集: 接入流量采集或解析设备, 解析流量获得HTTP流量事件; 对最终得到的 HTTP流量事件进行下一步处理; S2、 数据处理: HTTP流量事件包括请求部分和响应部分; 抽取请求部分和响应部分中 HTTP协议所涵盖的各类文本内容, 进行文本组合, 得到语义不变文本; 然后对HTTP流量事件 的语义不变文本进行随机形态字符串检测替换、 字符泛化和多自然语言词汇拆分的相关文 本变换操作后, 得到标准 化文本; S3、 向量化表示: 对经过上述步骤S1 ‑S2过程处理后的得到的标准化文本, 统计所有单 词的出现次数, 将出现次数较多的词 作为特征, 使用词袋模型, 对每条文本数据进 行向量化 表示, 每条数据表示成一维向量; 特征值计算方法参考自然语言处理技术领域的经验或根 据需求自定义; S4、 异常样本剔除: 将向量化表示的数据输入聚类模型进行训练; 用训练好的聚类模型 对数据进行聚类, 通过从类簇中抽样的方式, 对聚类结果进行验证; 剔除包含异常数据 的 簇, 将剩余数据作为训练数据; S5、 训练异常流量识别模型: 将训练数据输入深度自编码器模型进行训练; 深度自编码 器基于正常数据, 通过自监督的方式对输入变量进 行重构; 预测时, 通过计算重构 变量和输 入变量的误差是否超过阈值, 阈值的设定可 结合训练数据的异常 分数, 采取多种方式制定; S6、 异常流 量检测: 用训练好的异常流 量识别模型对新 流量进行检测, 识别异常流 量。 2.根据权利要求1所述的一种基于深度自编码器的HTTP流量异常检测方法, 其特征在 于: 所述步骤S1数据采集中根据自定义策略对HTTP流量事件进 行采样、 过滤、 剔除以降低整 个模型构建过程的内存占用或时间消耗; 采样策略围绕以保证HT TP流量事件内容多样性 为目标进行设计。 3.根据权利要求1所述的一种基于深度自编码器的HTTP流量异常检测方法, 其特征在 于: 所述步骤S2中具体流 程如下: S2.1: 对每条HTTP流量事件, 从请求部分中抽取Path, Query和 Body位置的文本内容, 从 响应部分中抽取Body位置的文本内容; 将抽取的各文本内容按照统一的顺序组合 成一条文 本, 得到语义 不变文本; 经 过多类通用实验数据场景验证; S2.2、 字符泛化: 对每条HTTP流量事件对应的语义不变文本中的特殊字符进行泛化, 消 除特殊字符的对文本语义的影响; 其中特殊字符包 含数字、 中文或特殊符号的类型字符; S2.3、 随机形态字符串检测替换: 在准备好的数据集上训练马尔可夫模型, 用训练好的 马尔可夫模型进行随机 字符串识别, 对识别到的随机形态字符串 进行标准字符串替换; S2.4、 自然语言词汇拆分: 对经过上述步骤S2.1 ‑S2.3的过程处理后得到的文本, 进行 字符串语义识别、 拆分和转换; S2.5、 其他文本处理操作: 对经过上述过程处理后得到的文本, 选择进行其他文本处理 操作以满足性能和效果目标。 4.根据权利要求1所述的一种基于深度自编码器的HTTP流量异常检测方法, 其特征在 于: 所述步骤S3的具体流 程如下: S3.1: 从数据集中统计不同单词出现的次数, 将出现次数较高的单词作为特 征词典; S3.2: 将每条 数据表示成词典长度的向量。权 利 要 求 书 1/2 页 2 CN 115525759 A 25.根据权利要求1所述的一种基于深度自编码器的HTTP流量异常检测方法, 其特征在 于: 所述步骤S4中聚类算法从Kmeans或DBSCAN的成熟算法中选择。 6.根据权利要求1所述的一种基于深度自编码器的HTTP流量异常检测方法, 其特征在 于: 所述步骤S 5中深度自编码 器有多层神经网络结构, 由编 码器和解码 器组成; 编 码器将输 入变量编码x为包含重要信 息的低维中间变量z, 解码器将中间变量z还原为重构变量 公 式如下: 权 利 要 求 书 2/2 页 3 CN 115525759 A 3

PDF文档 专利 一种基于深度自编码器的HTTP流量异常检测方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度自编码器的HTTP流量异常检测方法 第 1 页 专利 一种基于深度自编码器的HTTP流量异常检测方法 第 2 页 专利 一种基于深度自编码器的HTTP流量异常检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:05:24上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。