全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211054379.5 (22)申请日 2022.08.31 (71)申请人 哈尔滨工业大 学 (威海) 地址 264209 山 东省威海市文化西路2号 申请人 威海天之卫网络空间安全科技有限 公司 (72)发明人 刘杨 朱静宇 孙云霄 魏玉良  王孝朋 王佰玲  (74)专利代理 机构 威海恒誉润达专利代理事务 所(普通合伙) 3726 0 专利代理师 林楠 (51)Int.Cl. H04L 9/40(2022.01) G06K 9/62(2022.01) (54)发明名称 一种基于高斯混合模型的通信数据异常检 测方法 (57)摘要 本申请提供了一种基于高斯混合模型的通 信数据异常检测方法, 解决了现有的基于统计方 法的异常检测预测效果不理想、 计算复杂 度高的 技术问题。 其包括以下步骤: 输入数据集: 输入网 络通信行为数据集, 数据集为若干条通信在各个 阶段的时间成本集合; 确定隐变量: 每个阶段的 数据均来自高斯混合模型, 设定隐变量为链路编 号Z, 且取值范围为[1,K]; 构成每个高斯混合模 型的高斯 分布的数量等于链路条数K; 参数求解: 通过EM算法, 进行迭代求解, 对该隐变量确定的 高斯混合模型进行参数求解; 异常检测: 新通信 行为出现时, 通过计算该通信行为的数据点来自 高斯混合模型的概率, 来预测是否存在异常攻 击。 本申请广泛应用于通信数据异常检测技术领 域。 权利要求书1页 说明书7页 附图1页 CN 115442107 A 2022.12.06 CN 115442107 A 1.一种基于高斯混合模型的通信数据异常检测方法, 其特 征在于, 包括以下步骤: 输入数据集: 输入网络通信行为数据集, 数据集为若干条通信在各个阶段的时间成本 集合; 确定隐变量: 每个阶段的数据均来自高斯混合模型, 设定隐变量为链路编号Z, 且取值 范围为[1,K]; 构成每 个高斯混合模型的高斯分布的数量 等于链路条 数K; 参数求解: 通过EM算法, 进行迭代求解, 对该隐变量确定的高斯混合模型进行参数求 解; 异常检测: 新通信行为出现时, 通过计算该通信行为的数据点来自高斯混合模型的概 率, 来预测是否存在异常攻击 。 2.如权利要求1所述的基于 高斯混合模型的通信数据异常检测方法, 其特征在于: 所述 输入数据集中, 所述数据集还需要经过预处理, 将数据集划分为训练集、 测试集, 所述训练 集包含未受到攻击的数据, 所述测试 数据集包 含未受到攻击的数据、 受到攻击的数据。 3.如权利要求2所述的基于 高斯混合模型的通信数据异常检测方法, 其特征在于: 所述 参数求解的公式如下: 其中, Y为观测变量, Z为隐变量, 取值范围设置为[1,K], K为链路条数, 下标k代表第k个 高斯分布, 下标i代表第i轮迭代, 则Zik为该数据点使用第Z条链路进行通信; μ, σ, α 分别为高 斯分布的均值、 标准差和权 重系数; 将所述训练集代入其中的Y, 进行迭代求解; 得到各个高斯混合模型的均值矩阵μ、 标准 差σ 和权重系数α 。 4.如权利要求1所述的基于 高斯混合模型的通信数据异常检测方法, 其特征在于: 所述 异常检测中, 设定阈值, 若所述概率小于阈值, 认为该数据点来自高斯混合模型的概率太 小, 判定所述通信行为存在异常, 可能受到了攻击; 否则, 判定所述通信行为正常, 不会受到 攻击。 5.如权利要求3所述的基于 高斯混合模型的通信数据异常检测方法, 其特征在于: 所述 K值根据经验值设定; 或, 为K设置1~100的循环, 使用 测试集并记录不同K值下的预测准确 率, 并选择准确率 最高的K值。 6.如权利要求2所述的基于 高斯混合模型的通信数据异常检测方法, 其特征在于: 所述 预处理还包括, 将数据集中相同加密算法的不同阶段 数据列进行合并。 7.如权利要求1 ‑6任一所述的基于高斯混合模型的通信数据异常检测方法, 其特征在 于: 所述异常检测中, 所述概率计算具体是, 将新数据点在所述高斯混合模型中每一分布的 概率密度函数值归一 化后, 取最大值作为 概率。权 利 要 求 书 1/1 页 2 CN 115442107 A 2一种基于高斯混合模型的通信数据异常检测方 法 技术领域 [0001]本申请涉及通信数据异常检测技术领域, 更具体地说, 是涉及一种基于高斯混合 模型的通信数据异常检测方法。 背景技术 [0002]异常检测是指在数据 中寻找不符合预期行为的数据的问题。 数十年来, 异常检测 一直是一个活跃的研究领域, 早期探索可以追溯到1960年代。 由于在广泛领域的需求和 应 用不断增加, 例如风险管理, 合规性, 安全性, 金融监视, 健康和医疗风险以及AI安全性。 大 多数异常检测技术可以分类为基于 分类的, 基于最近邻的, 基于聚类的, 基于统计技术的和 基于深度学习的。 [0003]分类方法从训练数据 中学习得到分类器, 然后使用分类器将测试样本分类。 基于 分类的异常检测技术以类似的两阶段方式运行, 培训阶段使用标记的训练数据学习分类 器, 测试阶段使用分类器将测试样 本分类为正常或异常。 基于可用于训练阶段的标签, 基于 分类的异常检测技术可以分为两个主要类别: 多类和Oneclass异常检测技术。 多类的异常 检测技术假设训练数据包含属于多个正常类的标记样本这样的异常检测 技术教分类器来 区分每个正常类和其他类别。 如果任何分类器都不将测试样本分类为正常, 则将其视为异 常。 基于单级分类的异常检测技术假设所有训练样本都只有一个类标签。 这样的技术使用 一级分类算法在正常样 本周围学习一个边界。 构建分类器的各种异常检测技术包括基于神 经网络的异常检测技术, 基于贝叶斯网络的异常检测 技术, 基于支持向量机的异常检测技 术, 基于规则的异常检测技 术。 基于分类的技 术依赖于标签的准确度。 [0004]基于最近邻的异常检测技术需要在两个数据样本之间定义的距离或相似性度量。 可以以不同的方式计算两个数据样本之间的距离或相似性, 可以广泛分为两类: 使用数据 样本与其K个最近的样 本作为异常得分的技术和计算每个数据样本的相对密度以计算其异 常得分的技术。 最近基于邻居的技术的关键优势是它们在本质上是无监督的, 并且对数据 的生成分布没有任何假设。 但是测试阶段的计算复杂性是一个重大 的挑战, 因为它 涉及计 算每个测试样本的距离以及属于测试数据本身或训练数据的所有样本来计算最近的邻居。 同时, 当数据复杂时, 定义样本之间的距离度量可能具有挑战性。 [0005]基于聚类 的异常检测技术主要基于以下三个假设: (1)正常数据样本属于数据 中 的类, 而异常样本不属于任何类; (2)正常的数据样本位于其最接近的类的质心附近, 而异 常远离其最接近的类的质心; (3)正常的数据样 本属于大型和密集的簇, 而异常属于小或稀 疏的簇。 几种基于聚类的技术需要两个样本点之间的距离计算, 因此, 在这方面, 它们类似 于最近的基于邻居的技术, 距离度量的选择对于技术的性能至 关重要。 但是, 这两种技术之 间的关键区别在于, 基于聚类的技术在类中对每个样本进行评估, 而基于最近邻的技术在 邻域中对每个样本点进行评估。 该方法也是无监督的, 但其性能高度取决于聚类算法在该 样本集结构 中的有效性。 且只有在异常中不形成重要的簇的情况下, 几种基于聚类的技术 才有效。 该技 术中计算复杂度也常 常给解决问题带来困难。说 明 书 1/7 页 3 CN 115442107 A 3

PDF文档 专利 一种基于高斯混合模型的通信数据异常检测方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于高斯混合模型的通信数据异常检测方法 第 1 页 专利 一种基于高斯混合模型的通信数据异常检测方法 第 2 页 专利 一种基于高斯混合模型的通信数据异常检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:05:33上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。