全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211035333.9 (22)申请日 2022.08.26 (71)申请人 中国电信股份有限公司 地址 100033 北京市西城区金融大街31号 (72)发明人 谢泳 邓博仁 汪来富  (74)专利代理 机构 北京律智知识产权代理有限 公司 11438 专利代理师 孙宝海 (51)Int.Cl. H04L 9/40(2022.01) H04L 43/08(2022.01) H04L 61/30(2022.01) H04L 61/4511(2022.01) (54)发明名称 域名检测方法、 系统及相关 设备 (57)摘要 本公开提供了一种域名检测方法, 涉及通信 技术领域, 该方法包括: 提取域名系统流量中待 检测域名的高级别域名; 将高级别域名与目标字 符列表进行匹配得到匹配结果; 根据高级别域 名, 通过文本分类计算得到文本正例概率; 根据 匹配结果和文本正例概率计算得到待检测域名 的分类概率; 以及根据分类概率确定待检测域名 的预测类别。 本公开方法通过提取高级别域名部 分, 尽可能多地保留有效字符信息, 从而增加了 检测结果的泛化能力, 提高了检测结果的准确 率。 进一步地, 结合字符匹配和文本分类的方法, 增加了域名分析的解释性 以及域名分析的可靠 性。 权利要求书2页 说明书12页 附图6页 CN 115333850 A 2022.11.11 CN 115333850 A 1.一种域名检测方法, 其特 征在于, 所述方法包括: 提取域名系统流 量中待检测域名的高级别域名; 将所述高级别域名与目标字符列表进行匹配得到匹配结果; 根据所述高级别域名, 通过文本分类 计算得到文本正例概 率; 根据所述匹配结果和所述文本正例概 率计算得到所述待检测域名的分类概 率; 以及 根据所述分类概 率确定所述待检测域名的预测类别。 2.根据权利要求1所述的域名检测方法, 其特征在于, 提取域名系统流量中待检测域名 的高级别域名的步骤 包括: 按照所述待检测域名中的点 号检测所述待检测域名的字符段 数量; 若所述字符段 数量不大于2, 则将所述待检测域名作为高级别域名; 若所述字符段数量大于2, 则提取所述待测域名的一级域名和二级域名作为所述高级 别域名。 3.根据权利要求2所述的域名检测方法, 其特征在于, 根据所述高级别域名, 通过文本 分类计算得到文本正例概 率的步骤 包括: 从搜索服 务器中获取 所述高级别域名的文本数据; 以及 将所述文本数据输入至训练好的所述目标文本描述模型, 得到所述待检测域名的所述 文本正例概 率。 4.根据权利要求3所述的域名检测方法, 其特征在于, 将所述文本数据输入至训练好的 所述目标文本描述模型, 得到所述待检测域名的所述文本正例概 率的步骤之前包括: 从所述搜索服 务器中获取目标类别域名的文本数据和非目标类别域名的文本数据; 将所述目标类别域名的文本数据标记为正例和非目标类别域名的文本数据标记为反 例; 以及 使用标记为所述正例的文本数据和所述反例的文本数据, 对基于变换器的双向编码器 表征模型进行训练得到目标文本描述模型。 5.根据权利要求4所述的域名检测方法, 其特征在于, 根据 所述匹配结果和所述文本正 例概率计算得到所述待检测域名的分类概 率的步骤 包括: 根据所述分类概率f(m,p)和匹配结果m∈{0,1}以及文本正例概率p∈[0,1]的关系计 算得到所述分类概 率, 所述关系表示 为: 其中, λ∈[0,1]为超参数。 6.根据权利要求5所述的域名检测方法, 其特征在于, 将所述高级别域名与目标字符列 表进行匹配得到匹配结果的步骤 包括: 将所述高级别域名与目标地址库进行匹配, 若所述高级别域名与所述目标地址库中的 目标类别域名匹配成功, 则将所述待检测域名的类别确认为目标类别; 将所述高级别域名与白名单进行匹配, 若所述高级别域名与所述 白名单匹配成功, 则权 利 要 求 书 1/2 页 2 CN 115333850 A 2将所述待检测域名的类别确认为非目标类别; 若所述待检测域名与 所述目标地址库和白名单均匹配失败, 则将所述高级别域名与目 标字符列表进行匹配得到匹配结果。 7.根据权利要求6所述的域名检测方法, 其特征在于, 根据 所述分类概率确定待检测域 名的预测类别的步骤之后包括: 若预测类别为目标类别域名, 则将所述待检测域名添加到所述目标地址库; 若预测类别为非目标类别域名, 则将所述待检测域名添加到所述白名单。 8.一种域名检测系统, 其特征在于, 所述系统包括: 分布式消息队列系统、 流数据计算 引擎、 模型计算 服务器和搜索服 务器, 其中, 所述分布式消息队列系统, 用于传递 域名系统流 量; 所述流数据计算引擎, 用于从所述分布式消息队列系统中实时读取所述域名系统流量 中待检测域名的高级别域名; 以及将所述高级别域名与目标字符列 表进行匹配得到匹配结 果; 所述搜索服 务器, 用于 搜索所述高级别域名的文本数据; 所述模型计算服务器, 用于从搜索服务器中获取所述高级别域名的文本数据; 将所述 文本数据输入至训练好的所述目标文本描述模型, 得到所述待检测域名的所述文本正例概 率; 以及 所述流数据计算引擎, 根据 所述匹配结果和所述文本正例概率计算得到所述待检测域 名的分类概 率; 以及根据所述分类概 率确定待检测域名的预测类别。 9.一种域名检测装置, 其特 征在于, 所述装置包括: 高级别域名提取模块, 用于提取域名系统流 量中待检测域名的高级别域名; 匹配模块, 用于将所述高级别域名与目标字符列表进行匹配得到匹配结果; 文本正例计算模块, 用于根据所述高级别域名, 通过文本分类 计算得到文本正例概 率; 分类计算模块, 用于根据所述匹配结果和所述文本正例概率计算得到所述待检测域名 的分类概 率; 以及 类别预测模块, 用于根据所述分类概 率确定所述待检测域名的预测类别。 10.一种电子设备, 其特 征在于, 包括: 处理器; 以及 存储器, 用于存 储所述处 理器的可 执行指令; 其中, 所述处理器配置为经由执行所述可执行指令来执行权利要求1~7中任意一项所 述的域名检测方法。 11.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1~7中任意 一项所述的域名检测方法。权 利 要 求 书 2/2 页 3 CN 115333850 A 3

PDF文档 专利 域名检测方法、系统及相关设备

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 域名检测方法、系统及相关设备 第 1 页 专利 域名检测方法、系统及相关设备 第 2 页 专利 域名检测方法、系统及相关设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:05:51上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。