全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210295039.5 (22)申请日 2022.03.24 (71)申请人 国网山东省电力公司莱芜供电公司 地址 250000 山东省济南市莱芜区凤 城街 道鲁中西大街21号 申请人 国家电网有限公司 (72)发明人 李保生 亓鹏 谭冲 张伟  鲁威志 康乾 王建 高立强  程远 段瑞杰 张建平 王通通  (74)专利代理 机构 济南圣达知识产权代理有限 公司 372 21 专利代理师 黄海丽 (51)Int.Cl. G06V 10/44(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于多尺度特征的跨模态目标检测方法及 系统 (57)摘要 本发明公开了基于多尺度特征的跨模态目 标检测方法及系统, 包括: 获取待目标检测的图 像和待检测目标的文本描述; 将待目标检测的 图 像和待检测目标的文本描述, 输入到训练后的跨 模态目标检测模型; 输出目标检测结果; 其中, 所 述跨模态目标检测模型, 通过在 多个尺度的视觉 特征上融合文本特征进行目标检测, 以提升对目 标实体的感知能力。 针对 “跨模态目标检测 ”任 务, 通过在多个尺度的视觉特征上融合文本特征 进行目标检测, 提升了算法对于目标实体的感知 能力, 从而进 一步提升模 型在“跨模态目标检索 ” 任务中的效果。 权利要求书2页 说明书5页 附图1页 CN 114743019 A 2022.07.12 CN 114743019 A 1.基于多尺度特 征的跨模态目标检测方法, 其特 征是, 包括: 获取待目标检测的图像和待检测目标的文本描述; 将待目标检测的图像和待检测目标的文本描述, 输入到训练后的跨模态目标检测模 型; 输出目标检测结果; 其中, 所述跨模态目标检测模型, 通过在多个尺度的视觉特征上融 合文本特 征进行目标检测, 以提升对目标实体的感知能力。 2.如权利要求1所述的基于多尺度特征的跨模态目标检测方法, 其特征是, 所述跨模态 目标检测模型, 包括: 特征编码模块, 用于对输入的待目标检测的图像进行特征提取, 提取出第 一、 第二和第 三尺度的特 征图; 特征拉平模块, 用于对第一、 第二和第三尺度的特 征图分别进行拉平处 理; 空间位置添加模块, 用于向拉平处理后的第一、 第二和第三尺度的特征图添加 空间位 置信息, 分别得到添加空间位置信息的第一、 第二和第三尺度特 征; 拼接模块, 用于将添加空间位置信 息的第一尺度特征与添加空间位置信 息的第三尺度 特征进行特征拼接, 得到第一尺度特 征和第三尺度特 征拼接后的特 征; Transformer  Decoder模块, 用于将添加空间位置信息的第二尺度特征作为 Transformer  Decoder的Query, 把第一尺度特征和第三尺度特征拼接后的特征作为 Transformer Decoder的Key和Value, Tran sformer Decoder输出融合多尺度信息的视觉 特 征序列; 特征融合模块, 用于将文本特征与融合多尺度信息的视觉特征序列进行拼接融合, 得 到视觉文本特 征序列; 目标检测模块, 用于根据视 觉文本特 征序列得到目标检测框 。 3.如权利要求2所述的基于多尺度特征的跨模态目标检测方法, 其特征是, 所述特征编 码模块, 采用Dar tnet‑53作为特征提取网络 。 4.如权利要求2所述的基于多尺度特征的跨模态目标检测方法, 其特征是, 所述空间位 置信息, 设定为随机初始化的参数, 由Transformer网络自适应的学习得到 。 5.如权利要求2所述的基于多尺度特征的跨模态目标检测方法, 其特征是, 所述目标检 测模块, 用于根据视 觉文本特 征序列得到目标检测框; 具体工作过程包括: 将视觉文本特征序列调整为2D特征图; 在每个2D特征图的方格中, 分配9个锚框; 在锚 框的基础上, 回归自然语言所描述的目标的位置和是否包含目标 的置信度; 以置信度最大 的预测框为目标检测框 。 6.如权利要求1所述的基于多尺度特征的跨模态目标检测方法, 其特征是, 所述文本特 征, 是采用预训练的BERT模型对输入的文本进行 特征提取得到的。 7.如权利要求2所述的基于多尺度特征的跨模态目标检测方法, 其特征是, 所述特征拉 平模块, 用于对第一、 第二和第三尺度的特征图进行拉平处理; 将第一、 第二和第三尺度的 特征图在空间维度进行 Flatten展开得到三个一维特 征序列。 8.基于多尺度特 征的跨模态目标检测系统, 其特 征是, 包括: 获取模块, 其被 配置为: 获取待目标检测的图像和待检测目标的文本描述; 检测模块, 其被配置为: 将待目标检测的图像和待检测目标的文本描述, 输入到训练后 的跨模态目标检测模型; 输出目标检测结果; 其中, 所述跨模态目标检测模型, 通过在多个权 利 要 求 书 1/2 页 2 CN 114743019 A 2尺度的视 觉特征上融合文本特 征进行目标检测, 以提升对目标实体的感知能力。 9.一种电子设备, 其特 征是, 包括: 存储器, 用于非暂时性存 储计算机可读指令; 以及 处理器, 用于运行 所述计算机可读指令, 其中, 所述计算机可读指令被所述处理器运行时, 执行上述权利要求1 ‑7任一项所述的 方法。 10.一种存储介质, 其特征是, 非暂时性地存储计算机可读指令, 其中, 当所述非暂时性 计算机可读指令由计算机执 行时, 执行权利要求1 ‑7任一项所述方法的指令 。权 利 要 求 书 2/2 页 3 CN 114743019 A 3

PDF文档 专利 基于多尺度特征的跨模态目标检测方法及系统

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多尺度特征的跨模态目标检测方法及系统 第 1 页 专利 基于多尺度特征的跨模态目标检测方法及系统 第 2 页 专利 基于多尺度特征的跨模态目标检测方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:06:55上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。