全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210590826.2 (22)申请日 2022.05.27 (71)申请人 辛米尔科技(苏州)有限公司 地址 215000 江苏省苏州市高新区科灵路 78号软件园3号楼 211室 (72)发明人 程远 杨明伦 王胤睿  (74)专利代理 机构 上海宏京知识产权代理事务 所(普通合伙) 31297 专利代理师 乔建 (51)Int.Cl. G06V 20/56(2022.01) G06V 10/26(2022.01) G06V 10/44(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) (54)发明名称 一种单步实时视频图像分割算法 (57)摘要 本发明提供一种单步实时视频图像分割算 法, 包括以下步骤: S1: 获取视频帧F; S2: 使用网 络主干的几个卷积层作为网络头部来提取整个 帧的原始特征E; S3: 实例 感知模块, 从原始特征 中学习实例信息I; S4: 通过 实例信息在若干金字 塔分割层上定位感兴趣的区域, 通过ROI特征融 合模块, 获得最终融合后的ROI特征R; S5: 将R送 至小尺寸卷积层中, 获得最终实例分割结果S。 如 上, 本发明的一种单步实时视频图像分割算法, 解决目前像素级方法由于对每个像素都进行计 算以及复杂的后处理模型, 其精度和速度都不能 令人满意的问题。 权利要求书1页 说明书5页 附图3页 CN 114998854 A 2022.09.02 CN 114998854 A 1.一种单步实时视频图像分割算法, 其特 征在于, 包括以下步骤: S1: 获取视频帧F; S2: 使用网络主干Network  Backbone的几个卷积层作为 网络头部Network  Head来提取 整个帧的原 始特征E; S3: 通过实例感知模块Instance  Attention  Module, IAM, 从原始特征 中学习实例信息 I; S4: 依据实例信息在若干金字塔分割层Pyramid  Mask Layers上定位感兴趣的区域 Region Of Interests, ROI, 通过ROI特征融合模 块ROI Feature Fusion, RFF 获得最终融合 后的ROI特 征R; S5: 将R送至小尺寸卷积层中, 获得最终 实例分割结果S。 2.如权利要求1所述的一种单步实时视频图像分割算法, 其特征在于, 在步骤S3中, 实 例信息I包括实例坐标和类别概 率。 3.如权利要求1所述的一种单步实时视频图像分割算法, 其特征在于, 在步骤S4中, R融 合后可以同时包 含局部和全局的实例特 征。 4.如权利要求1所述的一种单步实时视频图像分割算法, 其特征在于, 在步骤S4中, 应 用上采样和ReLU操作来聚合R1、 R2和R3, 其中R2的尺寸是R3的两倍, R1是R2的两倍。 我们通 过双线性插值(BilinearInterpolation)对R3和R2执行上采样, 采样率为2, 最终将R1、 R2和 R3融合为特征R。 5.如权利要求1所述的一种单步实时视频图像分割算法, 其特征在于, 在步骤S5中, 小 尺寸卷积层包括5层卷积层和1层反卷积层。权 利 要 求 书 1/1 页 2 CN 114998854 A 2一种单步实时视频图像分割算法 技术领域 [0001]本发明涉及视频处 理技术领域, 特别是 涉及一种单步实时视频图像分割算法。 背景技术 [0002]针对视频中的实时分割和场景理解至关重要, 尤其是在自动驾驶、 机器人视觉等 大规模应用中。 以自动驾驶场景为例, 视觉环境感知是自动驾驶辅助系统(Advanced   Driver Assistance  System, ADAS)的关键, 它要求实时分割和理解驾驶场景, 如判断自由 空间区域和周围目标行为等。 与激光雷达(LIDARs)、 雷达(RADARs)等解决方案相比, 基于计 算机视觉的深度学习方案能够通过语义和实例分割(Se ‑mantic Segmentation)充分提取 场景信息。 然而, 这些像素级分割方法被 设计为处理视频帧中的所有像素, 这导致了不必 要 的计算复杂度和低处理速度。 后来, 候选目标级分割方法避免处理所有像素, 仅通过学习提 出候选区域来缩小处理的数据量, 但这其中的多步骤确定候选区域的方法依然耗费了很多 计算资源, 大量的处理 时间被浪费在未采用的候选区域或重叠区域上。 除此之外, 现有方法 大多没有考虑视频流中的目标在时序上 的信息, 但这对于紧急制动、 碰撞避免和行为预判 等决策是必不可少的。 在真实的驾驶环境中, 行人和车辆都可能会在时序上进行大量的活 动, 然而, 利用现有的分割网络无法实现这 一必须的快速 视频场景理解任务。 [0003]现在主流的语义和实例分割的方法主 要可以被归为2类。 [0004]像素级分割: 现有的基于像素级的分割方法被设计用于预测每个像素的分类标 签, 通常由完全卷积网络(Fully  Convolutional  Networks, FCNs)实现; 随后, 多种改进方 法例如扩展卷积(Dil ated Convolutions)、 条件化随机域(Condition al Random Fields) 和Two‑stream FCNs被提出以提高性能; 此外, 最近的工作提出了一种判据损失函数, 通过 分离属于不同实例的像素并聚拢属于同一实例的像素来学习像素之间的关系; 后来, SSAP 提出使用一个像素对相似函数, 每次对两个像素进 行分组; SGN将实例分割问题重构为一系 列子分组问题。 [0005]候选目标级分割: 在目标检测网络 发展的推动下, 近年来一些研究利用R ‑CNN进行 实例分割, 其首先提出候选目标区域, 然后对所有候选目标区域进行分割。 近来, 有工作提 出了在分割层中候选目标区域之间的共享卷积特征; Deep ‑Mask基于Fast  R‑CNN开发提出 候选目标区域的工 具; 多任务级联网络(Multi ‑task Cascaded Networks)开发了一种基于 实例感知的候选目标区域方法; Mask  R‑CNN采用了R ‑CNN的扩展作为支路以对目标区域快 速进行分割。 [0006]本申请发明人在实现本申请实施例中发明技术方案的过程中, 发现上述技术至少 存在如下技术问题: 1.像素级方法由于对每个像素都进行计算以及复杂的后处理模型, 其 精度和速度都不能令人满意。 2.候选目标级分割 方法需要多个步骤: 首先生成候选目标区 域, 然后分割所有候选目标区域, 最后检测并识别出正确的目标区域。 这种候选目标区域的 确定步骤导 致了对未采用的候选区域和重 叠区域的不必要计算。说 明 书 1/5 页 3 CN 114998854 A 3

PDF文档 专利 一种单步实时视频图像分割算法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种单步实时视频图像分割算法 第 1 页 专利 一种单步实时视频图像分割算法 第 2 页 专利 一种单步实时视频图像分割算法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:06:39上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。