全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210429576.4 (22)申请日 2022.04.22 (71)申请人 南京三百云信息科技有限公司 地址 210000 江苏省南京市 鼓楼区古平岗4 号C座6层 (72)发明人 周源赣 章水鑫  (74)专利代理 机构 北京品源专利代理有限公司 11332 专利代理师 郭德霞 (51)Int.Cl. G06V 30/412(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/25(2022.01) G06V 10/44(2022.01)G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称 一种文本 检测方法、 装置、 设备及存 储介质 (57)摘要 本发明公开了一种文本检测方法、 装置、 设 备及存储介质。 该方法包括: 获取待检测图像; 将 待检测图像输入至预先构建的内缩偏移文本检 测模型, 确定目标语义分割特征图和目标偏移量 特征图; 根据目标语义分割特征图和目标偏移量 特征图确定目标外扩距离和待外扩矩形框; 将待 外扩矩形框外扩目标外扩距离, 确定目标文本检 测框; 其中, 预先构建的内缩偏移文本检测模型 包括语义分割子模型和偏移量回归子模 型。 本发 明实施例的技术方案, 解决了 现有依据内缩文本 实例训练所得的文本检测模型不考虑文本内缩 过程偏移量, 导致对密集文本区域进行检测时, 检测速度慢且效果较差的问题, 减少了目标文本 检测框的确定 计算量, 提升了文本检测效率。 权利要求书3页 说明书19页 附图5页 CN 114926849 A 2022.08.19 CN 114926849 A 1.一种文本检测方法, 其特 征在于, 包括: 获取待检测图像; 将所述待检测图像输入至预先构建的内缩偏移文本检测模型, 确定目标语义分割特征 图和目标偏移量特 征图; 根据所述目标语义分割特征图和所述目标偏移量特征图确定目标外扩距离和待外扩 矩形框; 将所述待外扩矩形框 外扩所述目标外扩距离, 确定目标文本检测框; 其中, 所述预先构建的内缩偏移文本检测模型包括语义分割子模型和偏移量 回归子模 型。 2.根据权利要求1所述的方法, 其特征在于, 所述内缩偏移文本检测模型的训练步骤包 括: 将内缩偏移文本训练样本集中的图像样本集进行基础特征提取, 确定基础特征样本 集; 其中, 所述内缩偏移文本训练样本集中包括图像样本集以及与所述图像样本集对应的 标定样本集, 所述标定样本集中包括与各图像样本对应的内缩分割标签和偏移量标签; 将所述基础特 征样本集输入至初始语义分割子模型, 提取语义分割中间结果; 将所述基础特 征样本集输入至初始偏移量回归子模型, 提取偏移量中间结果; 根据所述语义分割中间结果和对应的内缩分割标签, 确定对应的第一损失函数; 根据所述偏移量中间结果和对应的偏移量标签, 确定对应的第二损失函数; 根据所述第 一损失函数和所述第 二损失函数确定总损失函数, 并基于所述总损失函数 对所述初始语义分割子模型和所述初始偏移 量回归子模型进 行训练, 直到满足预设收敛条 件获得内缩偏移文本检测模型。 3.根据权利要求2所述的方法, 其特征在于, 所述将内缩偏移文本训练样本集中的图像 样本集进行基础特 征提取, 确定基础特 征样本集, 包括: 将所述内缩偏移文本训练样本集中的图像样本集输入至特征提取骨干网络, 确定第 一 特征图集; 其中, 所述第一特征图集中包括由所述图像样本集提取 的多个不同分辨率的特 征图; 对所述第一特 征图集进行多尺度特 征提取, 确定第二特 征图集; 对所述第二特征图集进行多特征融合, 并将融合后的各特征图的集合确定为基础特征 样本集。 4.根据权利要求2所述的方法, 其特 征在于, 所述内缩分割标签的确定步骤 包括: 针对每个图像样本, 根据所述图像样本的大小构建与 所述图像样本对应的第 一二维矩 阵, 并确定所述图像样本中标注文本的最短边长; 若所述最短边长小于或等于预设最小边框长度, 则将所述第 一二维矩阵中与 所述标注 文本的位置对应的各像素设置为第一预设数值; 若所述最短边长大于预设最小边框长度, 则根据 所述标注文本的大小确定第 一内缩距 离, 根据所述第一内缩距离更新所述标注文本的位置, 并将更新后所述标注文本的位置对 应的各像素设置为第一预设数值。 5.根据权利要求2所述的方法, 其特 征在于, 所述偏移量标签的确定步骤 包括: 针对每个图像样本, 根据所述图像样本的大小构建与 所述图像样本对应的第 二二维矩权 利 要 求 书 1/3 页 2 CN 114926849 A 2阵, 并确定所述图像样本中标注文本的最短边长; 若所述最短边长小于或等于预设最小边框长度, 则将所述第 二二维矩阵中与 所述标注 文本的位置对应的各像素设置为第一预设数值; 若所述最短边长大于预设最小边框长度, 则根据 所述标注文本的大小确定第 二内缩距 离, 通过所述第二内缩距离和所述 最短边长对所述第二 二维矩阵进行 更新并赋值。 6.根据权利要求5所述的方法, 其特征在于, 所述通过所述第 二内缩距离和所述最短边 长对所述第二 二维矩阵进行 更新并赋值, 包括: 若所述第二内缩距离小于所述最短边长, 根据所述第 二内缩距离和预设基准数值确定 偏移强度值, 根据所述第二内缩距离更新所述标注文本的位置, 并将更新后所述标注文本 的位置对应的各像素设置为所述偏移强度值; 若所述第二内缩距离大于或等于所述最短边长, 则将所述第 二二维矩阵中与 所述标注 文本的位置对应的各像素设置为第一预设数值。 7.根据权利要求2所述的方法, 其特征在于, 所述根据所述语义分割中间结果和对应的 内缩分割标签, 确定对应的第一损失函数, 包括: 将所述语义分割中间结果中各像素对应数值, 与对应的内缩分割标签中各像素对应数 值进行比对; 根据比对结果确定第一损失函数。 8.根据权利要求2所述的方法, 其特征在于, 所述根据所述偏移量中间结果和对应的偏 移量标签, 确定对应的第二损失函数, 包括: 将所述偏移量中间结果中各像素对应数值, 与对应的偏移量标签中各像素对应数值进 行比对; 根据比对结果确定第二损失函数。 9.根据权利要求2所述的方法, 其特征在于, 所述根据所述第 一损失函数和所述第 二损 失函数确定总损失函数, 并基于所述总损失函数对所述初始语义分割子模 型和所述初始偏 移量回归子模型进行训练, 直到满足预设收敛 条件获得内缩偏移文本检测模型, 包括: 根据预设权重值对所述第一损失函数和所述第二损失函数加权求和, 确定总损失函 数; 基于所述总损失函数对所述初始语义分割子模型和所述初始偏移量回归子模型中的 权重参数进行调整, 直到满足预设收敛 条件获得内缩偏移文本检测模型。 10.根据权利要求1所述的方法, 其特征在于, 所述根据所述目标语义分割特征图和所 述目标偏移量特 征图确定目标外扩距离和待外扩矩形框, 包括: 对所述目标语义分割特 征图进行阈值 化, 并根据连通组件标记算法确定标记图; 将所述标记图与所述目标偏移量特 征图求交, 对所述目标偏移量特 征图进行 更新; 遍历求交后标记图中不同标记值, 将同一标记值对应标记对象的外接矩形框确定为待 外扩矩形框; 将各所述标记对象在更新后的所述目标偏移量特征图内像素值的平均值确定为所述 标记对象的预测偏移量; 根据所述预测偏移量和预设基准数值确定目标外扩距离 。 11.根据权利要求10所述的方法, 其特 征在于, 还 包括:权 利 要 求 书 2/3 页 3 CN 114926849 A 3

PDF文档 专利 一种文本检测方法、装置、设备及存储介质

文档预览
中文文档 28 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本检测方法、装置、设备及存储介质 第 1 页 专利 一种文本检测方法、装置、设备及存储介质 第 2 页 专利 一种文本检测方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:06:47上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。