全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210475607.X (22)申请日 2022.04.29 (71)申请人 北京智通 东方软件科技有限公司 地址 102101 北京市延庆区中关村延庆园 东环路2号楼 294室 (72)发明人 杨明坤  (74)专利代理 机构 北京英创嘉友知识产权代理 事务所(普通 合伙) 11447 专利代理师 卢夏子 (51)Int.Cl. G06V 30/162(2022.01) G06V 30/18(2022.01) G06V 30/19(2022.01) G06V 30/22(2022.01) G06V 10/28(2022.01)G06V 10/44(2022.01) G06V 10/762(2022.01) G06V 10/80(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 文本识别方法、 装置、 存 储介质及电子设备 (57)摘要 本公开涉及一种文本识别方法、 装置、 存储 介质及电子设备, 该方法获取待检测图像对应的 初始文本区域; 在确定所述初始文本区域为非水 平状态的情况下, 对所述初始文本区域进行形变 处理, 得到所述初始文本区域对应的水平文本区 域; 根据所述水平文本区域, 确定所述待检测图 像中的文本。 也就是说, 本公开在确定待检测图 像对应的初始文本区域为非水平状态的情况下, 先对该初始文本区域进行形变处理, 之后, 再基 于形变处理后的水平文本区域进行文本识别, 由 于该水平文本区域的形状比较规则, 其轮廓不会 与文本行过于贴合, 使 得根据该水平文本区域识 别得到的文本行中的文本不会被截断, 文本行更 加完整, 从而提高了文本识别的准确率。 权利要求书2页 说明书12页 附图5页 CN 114973268 A 2022.08.30 CN 114973268 A 1.一种文本识别方法, 其特 征在于, 所述方法包括: 获取待检测图像对应的初始文本区域; 在确定所述初始文本区域为非水平状态的情况下, 对所述初始文本区域进行形变处 理, 得到所述初始文本区域对应的水平文本区域; 根据所述水平文本区域, 确定所述待检测图像中的文本 。 2.根据权利要求1所述的方法, 其特征在于, 所述确定所述初始文本区域为非水平状态 包括: 确定所述初始文本区域对应的最小外 接矩形; 确定所述初始文本区域的区域 面积与所述 最小外接矩形的矩形面积之间的面积比值; 在所述面积比值小于或等于预设比值阈值的情况下, 确定所述初始文本区域为非水平 状态。 3.根据权利要求2所述的方法, 其特征在于, 在所述确定所述初始文本区域对应的最小 外接矩形前, 所述方法还 包括: 针对所述初始文本区域的每个像素点, 根据所述像素点的位置, 确定所述像素点对应 的移动方向, 并根据所述移动方向和预设移动距离, 确定所述像素点对应的目标位置; 根据每个所述像素点对应的目标位置, 确定所述初始文本区域对应的扩展 文本区域; 所述确定所述初始文本区域对应的最小外 接矩形包括: 确定所述扩展 文本区域对应的最小外 接矩形。 4.根据权利要求1所述的方法, 其特征在于, 所述获取待检测图像对应的初始文本区域 包括: 将所述待检测图像输入预先训练的文本区域检测模型, 以获取所述文本区域检测模型 输出的所述初始文本区域。 5.根据权利要求4所述的方法, 其特征在于, 所述文本区域检测模型包括特征获取子模 型、 特征增强子模型以及轮廓检测子模型, 所述特征获取子模型 的输出端与所述特征增强 子模型的输入端耦合, 所述特征增强子模型的输出端与所述轮廓检测子模型的输入端耦 合; 所述将所述待检测图像输入预先训练的文本区域检测模型, 以获取所述文本区域检测 模型输出的所述初始文本区域包括: 将所述待检测图像输入所述特征获取子模型, 以获取所述特征获取子模型输出的多个 特征图, 不同特 征图对应的尺寸 不同; 将多个所述特征图输入所述特征增强子模型, 通过所述特征增强子模型对多个所述特 征图进行扩大增强处理和缩小增强处理, 以获取所述特征增强子模型输出的多个目标特征 图; 根据多个所述目标 特征图, 通过 所述轮廓检测子模型, 获取 所述初始文本区域。 6.根据权利要求5所述的方法, 其特征在于, 所述根据多个所述目标特征图, 通过所述 轮廓检测子模型, 获取 所述初始文本轮廓包括: 对多个所述目标 特征图进行拼接处 理, 得到目标拼接特 征图; 将所述目标拼接特征图输入所述轮廓检测子模型, 以获取所述轮廓检测子模型输出的 所述初始文本区域。 7.根据权利要求4所述的方法, 其特征在于, 所述文本区域检测模型通过以下方式训练权 利 要 求 书 1/2 页 2 CN 114973268 A 2得到: 获取多个样本集, 所述样本集包括样本 图像和所述样本 图像对应的真值二值图, 所述 二值图用于表征 所述样本图像中的文本区域; 通过多个所述样本集对目标神经网络模型进行训练, 得到所述文本区域检测模型。 8.根据权利要求7 所述的方法, 其特 征在于, 所述获取多个样本集包括: 获取多个所述样本图像和每 个所述样本图像对应的文本边界; 针对每个所述样本图像, 根据 预设调整系数和所述样本图像对应的文本边界的面积周 长比, 确定边界距离, 根据所述边界距离确定所述样本图像对应的真值阈值图, 根据所述文 本边界确定所述样本图像对应的真值概率图, 并根据所述真值阈值图和所述真值概率图, 确定所述样本图像对应的所述真值 二值图。 9.根据权利要求7所述的方法, 其特征在于, 所述通过多个所述样本集对目标神经网络 模型进行训练, 得到所述文本区域检测模型包括: 循环执行模型训练步骤, 直至根据 所述真值二值图和样本二值图确定训练后的目标神 经网络模型满足预设停止迭代条件, 将训练后的目标神经网络模型作为所述文本区域检测 模型; 所述样本二值图根据样本阈值图和样本概率图确定, 所述样本阈值图和所述样本概 率图为所述样本图像输入训练后的目标神经网络模型后输出的图像; 所述模型训练步骤 包括: 将多个所述样本图像输入所述目标神经网络模型, 以获取所述目标神经网络模型输出 的每个所述样本图像对应的所述样本阈值图和所述样本概 率图; 根据所述样本阈值图和所述样本概 率图, 确定所述样本二 值图; 在根据所述真值二值图和所述样本二值图确定训练后的目标神经网络模型不满足所 述预设停止迭代条件的情况下, 根据所述真值二值图和所述样本二值图确定目标损失值, 根据所述目标损失值更新所述目标神经网络模型的参数, 得到训练后的目标神经网络模 型, 并将该训练后的目标神经网络模型作为 新的目标神经网络模型。 10.一种文本识别装置, 其特 征在于, 所述装置包括: 区域获取模块, 用于获取待检测图像对应的初始文本区域; 状态确定模块, 用于在确定所述初始文本区域为非水平状态的情况下, 对所述初始文 本区域进行 形变处理, 得到所述初始文本区域对应的水平文本区域; 文本识别模块, 用于根据所述水平文本区域, 确定所述待检测图像中的文本 。 11.一种非临时性计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序 被处理器执行时实现权利要求1 ‑9中任一项所述方法的步骤。 12.一种电子设备, 其特 征在于, 包括: 存储器, 其上存 储有计算机程序; 处理器, 用于执行所述存储器 中的所述计算机程序, 以实现权利要求1 ‑9中任一项所述 方法的步骤。权 利 要 求 书 2/2 页 3 CN 114973268 A 3

PDF文档 专利 文本识别方法、装置、存储介质及电子设备

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本识别方法、装置、存储介质及电子设备 第 1 页 专利 文本识别方法、装置、存储介质及电子设备 第 2 页 专利 文本识别方法、装置、存储介质及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:06:45上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。