全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211045603.4 (22)申请日 2022.08.30 (71)申请人 珠海高凌信息科技股份有限公司 地址 519060 广东省珠海市南屏科技工业 园屏东一路1号 (72)发明人 刘立峰 王坤 李丽 王文重  李振华 张建军  (74)专利代理 机构 广州嘉权专利商标事务所有 限公司 4 4205 专利代理师 张芬 (51)Int.Cl. G06F 21/56(2013.01) G06N 3/04(2006.01) G06N 3/08(2006.01) H04L 9/40(2022.01) (54)发明名称 目标风险网站检测方法、 装置及存 储介质 (57)摘要 本发明公开了一种目标风险网站检测方法、 装置及存储介质, 其中该方法包括: 爬取待检测 网站的第一信息, 其中, 第一信息包括网页快照、 网站源码和网站文本; 通过预先训练的BERT模型 对网站源码和网站文本进行特征提取, 得到网站 源码特征信息和网站文本特征信息; 通过预先训 练的ResNet模型对网页快照进行特征提取, 得到 网页快照特征信息; 基于网站源码特征信息、 网 站文本特征信息、 网页快照特征信息, 通过预先 训练的目标风险网站检测模型判断待检测网站 是否为目标风险网站。 以实现以数据为主导的对 目标风险网站的检测功能。 本发 明可广泛应用于 风险网站检测领域。 权利要求书2页 说明书9页 附图2页 CN 115470488 A 2022.12.13 CN 115470488 A 1.一种目标风险网站检测方法, 其特 征在于, 包括: 爬取待检测网站的第一信息, 其中, 所述第一信息包括网页快照、 网站源码和网站文 本; 通过预先训练的BERT模型对所述网站源码和所述网站文本进行特征提取, 得到网站源 码特征信息和网站文本特 征信息; 通过预先训练的ResNet模型对所述网页快照进行 特征提取, 得到网页快照特 征信息; 基于所述网站源码特征信 息、 所述网站文本特征信息、 所述网页 快照特征信息, 通过预 先训练的目标风险网站检测模型判断所述待检测网站是否为目标风险网站。 2.根据权利要求1所述的目标风险网站检测方法, 其特征在于, 所述基于所述网站源码 特征信息、 所述网站文本特征信息和所述网页快照特征信息, 通过预先训练的目标风险网 站检测模型判断所述待检测网站是否为目标风险网站, 包括: 将所述网站源码特征信 息、 所述网站文本特征信 息和所述网页 快照特征信 息输入预先 训练的目标风险网站检测模型; 将所述网站源码特 征信息与目标风险网站的网站源码进行相似度匹配; 将所述网站文本特 征信息与目标风险网站的网站文本进行相似度匹配; 将所述网页快照特 征信息与目标风险网站的网页快照进行相似度匹配; 根据相似度匹配结果, 对待检测网站进行评分; 根据评分结果, 输出对所述待检测网站的检测结果。 3.根据权利要求2所述的目标风险网站检测方法, 其特征在于, 所述根据评分结果, 输 出对所述待检测网站的检测结果, 包括: 当所述评分结果大于第一阈值, 则输出 所述待检测网站为目标风险网站的检测结果; 当所述评分结果小于或等于所述第 一阈值, 则 输出所述待检测网站为正常网站的检测 结果。 4.根据权利要求1所述的目标风险网站检测方法, 其特 征在于, 所述方法还 包括: 获取所述待检测网站的网址; 将所述待检测网站的网址输入预先训练的目标风险网站检测模型, 以检测所述待检测 网站的网址是否与目标风险网站的网址相同; 若所述待检测网站的网址与目标风险网站的网址相同, 输出所述待检测网站为目标风 险网站的检测结果; 若所述待检测网站的网址与目标风险网站的网址不相同, 输出所述待检测网站为正常 网站的检测结果。 5.根据权利要求1所述的目标风险网站检测方法, 其特征在于, 所述方法还包括预先训 练BERT模型的步骤, 该步骤 包括: 通过复制第一源模型的网络层层创建第一目标模型的网络层, 其中, 所述第一源模型 为预训练好的BERT模型, 所述网络层为模型中除了 输出层以外的层; 将具有随机 权重的第一目标输出层作为所述第一目标模型的输出层; 冻结所述第一目标模型中的网络层, 通过随机初始化所述第一目标输出层的模型参 数, 调整所述网络层的参数; 通过调整 网络层的参数训练所述第 一目标输出层, 确定所述第 一目标输出层的参数训权 利 要 求 书 1/2 页 2 CN 115470488 A 2练完成后, 则解冻所述第一目标模型中的网络层, 训练整个所述第一目标模型作为BERT模 型。 6.根据权利要求1所述的目标风险网站检测方法, 所述方法还包括预先训练ResNet模 型的步骤, 该步骤 包括: 通过复制第二源模型的网络层层创建第二目标模型的网络层, 其中, 所述第二源模型 为预训练好的BERT模型, 所述网络层为模型中除了 输出层以外的层; 将具有随机 权重的第二目标输出层作为所述第二目标模型的输出层; 冻结所述第二目标模型中的网络层, 通过随机初始化所述第二目标输出层的模型参 数, 调整所述网络层的参数; 通过调整 网络层的参数训练所述第 二目标输出层, 确定所述第 二目标输出层的参数训 练完成后, 则解冻所述第二目标模型中的网络层, 训练整个所述第二目标模型作为ResNet 模型。 7.根据权利要求1所述的目标风险网站检测方法, 得到网站源码特征信 息、 网站文本特 征信息和网页快照特 征信息后, 还 包括: 将网站源码特征信 息、 所述网站文本特征信 息、 所述网页快照特征信 息进行融合处理, 其中, 所述融合处 理包括拼接和加权求和。 8.一种目标风险网站检测装置, 其特 征在于, 所述装置包括: 爬取模块, 用于爬取待检测网站的第一信息, 其中, 所述第一信息包括网页快照、 网站 源码和网站文本; 第一提取模块, 用于通过预先训练的BERT模型对所述网站源码和所述网站文本进行特 征提取, 得到网站源码特 征信息和网站文本特 征信息; 第二提取模块, 用于通过预先训练的ResNet模型对所述网页快照进行特征提取, 得到 网页快照特 征信息; 检测模块, 用于基于所述网站源码特征信 息、 所述网站文本特征信 息、 所述网页 快照特 征信息, 通过预先训练的目标风险网站检测模型判断所述待检测网站是否为目标风险网 站。 9.一种电子设备, 其特 征在于, 包括处 理器以及存 储器; 所述存储器用于存 储程序; 所述处理器执行所述程序实现如权利要求1至7中任一项所述的方法。 10.一种计算机可读存储介质, 其特征在于, 所述存储介质存储有程序, 所述程序被处 理器执行实现如权利要求1至7中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115470488 A 3

PDF文档 专利 目标风险网站检测方法、装置及存储介质

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 目标风险网站检测方法、装置及存储介质 第 1 页 专利 目标风险网站检测方法、装置及存储介质 第 2 页 专利 目标风险网站检测方法、装置及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:05:38上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。