全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210980402.7 (22)申请日 2022.08.16 (71)申请人 安徽金海迪尔信息技 术有限责任公 司 地址 230088 安徽省合肥市高新区望江西 路539号鲲鹏产业园2#研发办公楼101 室 (72)发明人 鲍娜娜 闫星廷 汪可燃 傅振扬  李秀安 李家耀 曹卫星 耿勇  (74)专利代理 机构 合肥天明专利事务所(普通 合伙) 34115 专利代理师 娄岳 (51)Int.Cl. G06F 40/284(2020.01) G06F 40/295(2020.01)G06F 40/30(2020.01) G06F 40/126(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06Q 50/06(2012.01) (54)发明名称 一种融合注意力机制的BLSTM-CRF水利水电 行业命名实体识别方法 (57)摘要 本发明公开了一种融合注意力机制的 BLSTM‑CRF水利水电行业命名实体识别方法, 包 括获取历史数据进行文本分词得到原始文本语 料库; 利用BI O标记法进行原始标记序列, 得到 预 处理后的文本 数据, 并保存; 载入文本语料库后, 利用One‑Hot独热编码表示法将文本向量化, 得 到表达文本语义的向量; 利用构建模型的BLSTM 层, 融合注意力机制, 进行特征提取, 得到语义编 码矩阵; 利用构建模型的CRF层计算语义编码矩 阵的状态 转移矩阵, 以及标签得分进行文本数据 修正, 得到最终的文本数据。 本发明通过构建的 实体识别模 型, 从而实现准确识别文本中水利水 电行业领域的命名实体, 有助于提升水利行业中 专业信息提取, 是水利工程领域的问答系统及知 识图谱可视化的构建等问题的重要基础。 权利要求书2页 说明书6页 附图4页 CN 115358225 A 2022.11.18 CN 115358225 A 1.一种融合注意力机制的BLSTM ‑CRF水利水电行业命名实体识别方法, 其特征在于, 包 括: S1、 获取水利水电领域的历史数据, 并进行文本分词处 理, 得到原 始文本语料库; S2、 利用BIO标记法对得到的原始文本语料进行原始标记序列, 得到预处理后的文本数 据, 并保存为水利水电文本语料库; S3、 载入文本语料库后, 利用One ‑Hot独热编码表示法将文本向量化, 从而将文本表示 成能够表达文本语义的向量; S4、 利用构 建模型的BLSTM层, 融合注意力机制, 对向量化后的输入序列进行特征提取, 得到正逆序的语义编码矩阵; S5、 利用构建模型的CRF层计算语义编码矩阵的状态转移矩阵, 以及标签得分进行文本 数据修正, 得到最终的文本数据。 2.根据权利要求1所述一种融合注意力机制的BLSTM ‑CRF水利水电行业命名实体识别 方法, 其特 征在于, 所述S1中的具体步骤 包括: 获取水利领域的历史数据库中的电子文献文本, 并进行初步整理得到原 始文本语料; 首先通过利用jieba分词工具 结合HMM模型处理未录入的新词, 以及 及连续的单字; 所述HMM模型包含因变量的概 率模型为: 式中, O={O1,O2,O3,...,ON}表示已知的观测序列, I表示标注序列, λ是模型参数; 对得到的原 始文本语料根据已存字典对文本进行划分和词性标记。 3.根据权利要求1所述一种融合注意力机制的BLSTM ‑CRF水利水电行业命名实体识别 方法, 其特 征在于, 所述S2中的具体步骤 包括: 根据得到的原 始文本语料进行初步标签标记, 标 出与水利水电相关的文本; 基于BIO标记法的规范对初步标签标记的文本进行区别标记。 4.根据权利要求1所述一种融合注意力机制的BLSTM ‑CRF水利水电行业命名实体识别 方法, 其特 征在于, 所述S3中的具体步骤 包括: 载入文本语料库后, 利用One ‑Hot独热编码表示法将文本向量 化; 所述One‑hot独热编码是经典的词(或字)特征表示方法, 具体过程是根据语料库创建 词典, 从而确定 了词典中词(或字)及其索引; 接着将句子中每 个词(或字)与唯一的整数索引相关联; 其中索引用i表示, 则该词向量中第i个元素是1, 其余元素是0, 词向量长度与词典长度 相同; 通过One‑Hot独热编码实现文本向量 化, 将自然 文本语言形式映射 为计算机语言形式。 5.根据权利要求1所述一种融合注意力机制的BLSTM ‑CRF水利水电行业命名实体识别 方法, 其特 征在于, 所述S4中的具体步骤 包括: 将文本向量作为BLSTM模型的输入, 其中BLSTM模型表示双向LSTM; 根据S3步骤得到的词表示矩阵作为模型输入层, 接着将输入序列分别以双向分别传给 两个单独的LSTM神经网络模型进行自动的特征提取, 随后将提取的特征向量, 即正逆向特 征向量进行拼接, 从而得到最终特 征向量;权 利 要 求 书 1/2 页 2 CN 115358225 A 2接着在BLSTM模型中加入注意力机制, 融合注意力机制的BLSTM模型通过赋予不同权重 从而提取出关键特征, 在考虑实体上下文的语境前提下, 忽略水利水电文本中无关的信息, 关注实体的关键信息, 以提升特 征表达的效率。 6.根据权利要求1所述一种融合注意力机制的BLSTM ‑CRF水利水电行业命名实体识别 方法, 其特 征在于, 所述S5中的具体步骤 包括: 利用CRF模型对最优序列标注进行预测,其中CRF模型是一种条件概率分布模型, 在标 记数据时考虑相邻数据的标记信息; 利用CRF模型对语义编码矩阵的状态转移矩阵以及序列标注的最优结果进行预测, 其 中每个单词的预测标签分数Score是根据S4步骤中融合注意力机制的BLSTM模型的输出概 率Score_Emis sion与条件转移 矩阵数值Score_Transiti on之和, 公式为: Score=Score_Emis sion+Score_Transiti on; 根据得到的状态转移矩阵以及标签得分修正文本数据内容, 得到最终的文本数据的结 果。权 利 要 求 书 2/2 页 3 CN 115358225 A 3

PDF文档 专利 一种融合注意力机制的BLSTM-CRF水利水电行业命名实体识别方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种融合注意力机制的BLSTM-CRF水利水电行业命名实体识别方法 第 1 页 专利 一种融合注意力机制的BLSTM-CRF水利水电行业命名实体识别方法 第 2 页 专利 一种融合注意力机制的BLSTM-CRF水利水电行业命名实体识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:06:27上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。