全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211122276.8 (22)申请日 2022.09.15 (71)申请人 北京大学深圳医院 地址 518000 广东省深圳市福田莲 花路 1120号 申请人 智汇元宇 (深圳) 医学 科技有限公司 (72)发明人 吴雅林 石宇 蔡翔宇 闫林杨  尉明华  (74)专利代理 机构 深圳市合道英联专利事务所 (普通合伙) 44309 专利代理师 廉红果 (51)Int.Cl. G10L 15/00(2013.01) G10L 15/02(2006.01) G10L 21/10(2013.01)G10L 25/24(2013.01) G06V 10/764(2022.01) G06V 10/82(2022.01) (54)发明名称 一种语言识别方法及装置 (57)摘要 本发明提供一种语 言识别方法及装置, 该识 别方法包括: 从待识别语音信号中分别提取第一 倒谱系数特征及第二倒谱系数特征; 基于所提取 的第一倒谱系数特征及第二倒谱系数特征生成 图像特征, 并转为彩色视觉图像; 将所述彩色视 觉图像的特征输入深度学习模型进行语言分类 识别, 输出识别结果。 通过上述方式, 可以提高识 别效果及精度。 权利要求书2页 说明书7页 附图2页 CN 115472147 A 2022.12.13 CN 115472147 A 1.一种语言识别方法, 其特 征在于, 所述方法包括: 从待识别语音信号中分别提取第一倒谱系数 特征及第二倒谱系数 特征; 基于所提取的第一倒谱系数特征及第 二倒谱系数特征生成图像特征, 并转为彩色视觉 图像; 将所述彩色视 觉图像的特 征输入深度学习模型进行语言 分类识别, 输出识别结果。 2.根据权利要求1所述的语言识别方法, 其特征在于, 所述从待识别语音信号中分别提 取第一倒谱系数 特征及第二倒谱系数 特征, 包括: 从所述待识别语音信号中提取梅尔频率倒谱系数 特征及伽马倒谱系数 特征。 3.根据权利要求2所述的语言识别方法, 其特征在于, 所述基于所提取的第 一系数特征 及第二系数 特征生成图像特 征, 并转为彩色视 觉图像, 包括: 将所述梅尔频率倒谱系数 特征及伽马倒谱系数 特征进行合并; 将合并的特 征进行可视化处 理, 得到彩色视 觉图像。 4.根据权利要求3所述的语言识别方法, 其特征在于, 所述将所述梅尔频率倒谱系数特 征及伽马倒谱系数 特征进行合并, 具体包括: 基于预设公式将所述梅尔频率倒谱系数特征及伽马倒谱系数特征进行合并, 所述预设 公式: IGMCC=α IMFCC+β IGTCC, 其中, 所述IGMCC为合并系数特征, 所述IMFCC为梅尔频率倒谱系数特 征, 所述IGTCC为伽马倒谱系数 特征, 所述α 为第一 参数, β 为第二 参数, 所述α =β 。 5.根据权利要求4所述的语言识别方法, 其特征在于, 所述将合并的特征进行可视化处 理, 得到彩色视 觉图像, 包括: 将所述合并的特 征设置为目标尺寸, 得到对应的彩色视 觉图像。 6.根据权利要求1所述的语言识别方法, 其特征在于, 所述从待识别语音信号中分别提 取第一倒谱系数 特征及第二倒谱系数 特征之前, 还 包括: 对采集的目标语音信号进行 预处理; 将经过预处理的目标语音信号进行分帧处 理; 将经过分帧处 理的语音信号进行加窗处 理, 形成待识别语音信号。 7.根据权利要求4所述的语言识别方法, 其特征在于, 所述对采集的目标语音信号进行 预处理, 包括: 对所采集的目标语音信号进行 预加重处 理; 基于加工公式对预加重处理后的语音信号进行加工处理, 所述加工公式为: 其中, 大于或等于0.9, 且小于或等于1, x[n]表示第n个采样点的语音信号, y[n]表示加工 后的第n个采样点的语音信号, n表示大于1的自然数。 8.一种语言识别装置, 其特 征在于, 包括: 提取模块, 用于从待识别语音信号中分别提取第一倒谱系数特征及第二倒谱系数特 征; 转化模块, 用于基于所提取的第一倒谱系数特征及第二倒谱系数特征生成图像特征, 并转为彩色视 觉图像; 识别模块, 用于将所述彩色视觉 图像的特征输入深度学习模型进行语言分类识别, 输 出识别结果。 9.一种计算设备, 其特征在于, 包括: 处理器、 存储器、 通信接口和通信总线, 所述处理权 利 要 求 书 1/2 页 2 CN 115472147 A 2器、 所述存 储器和所述 通信接口通过 所述通信总线完成相互间的通信; 所述存储器用于存放至少一可执行指令, 所述可执行指令使所述处理器执行根据 所述 权利要求1 ‑7任一项所述的语言识别方法的步骤。 10.一种计算机存储介质, 其特征在于, 所述存储介质中存储有至少一可执行指令, 所 述可执行指令使处 理器执行根据所述权利要求1 ‑7任一项所述的语言识别方法的步骤。权 利 要 求 书 2/2 页 3 CN 115472147 A 3

PDF文档 专利 一种语言识别方法及装置

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种语言识别方法及装置 第 1 页 专利 一种语言识别方法及装置 第 2 页 专利 一种语言识别方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:04:46上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。