全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211030120.7 (22)申请日 2022.08.26 (71)申请人 广西师范大学 地址 541004 广西壮 族自治区桂林市七 星 区育才路15号 (72)发明人 张鑫瑞 罗旭东 朱俊霖  (74)专利代理 机构 桂林市华杰 专利商标事务所 有限责任公司 451 12 专利代理师 周雯 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/247(2020.01) G06F 40/30(2020.01) G06F 16/33(2019.01) G06F 17/16(2006.01)G06N 20/00(2019.01) (54)发明名称 基于平衡归一化和度量学习的法律命名实 体识别方法 (57)摘要 本发明公开基于平衡归一化和度量学习的 法律命名实体识别方法, 通过引入目标实体和近 义词实体来解决高阶向量空间中存在的语义漂 移问题, 利用交互注意力能够 进行全局分配权重 参数的良好机制来捕获重要信息, 并生成实体交 互权重矩阵, 同时, 利用平衡归一化实现对法律 文本中存在的嵌套实体和非嵌套实体的统一识 别, 并且平衡了高阶语义空间中的向量分布以生 成更高质量的文本向量表示, 此外, 将平衡归一 化与度量学习结合, 能够进一步学习目标实体类 别之间在语义空间分布的距离或差异, 从而提高 对细粒度实体识别的准确度。 权利要求书3页 说明书8页 附图2页 CN 115409037 A 2022.11.29 CN 115409037 A 1.基于平衡归一 化和度量学习的法律命名实体识别方法, 其特 征在于, 包括 步骤如下: 步骤1、 利用法律文书构建法律命名实体识别数据集, 并划分为训练集、 验证集和测试 集; 步骤2、 根据目标实体类型构建一个大规模近义词实体库, 该实体库包含了法律领域中 的各类专业 术语; 步骤3、 通过相似度匹配技术从实体库中检索 出每个目标实体的Top ‑k个最相似的近义 词, 对于目标实体集P={p1,p2,…,pn},得到近义词实体集T={t1,t2,…,tn},其中ti∈T是 包含Top‑k个与目标实体 类型i最相似的近义词实体集 合; 步骤4、 设计一个多头注意力编码器, 称为MultiHeadEncoder, 该编码器由多个堆叠的 多头注意力层组成, 具体过程如下: (a)首先利用词嵌入技术将输入文本转换成词向量表示, 然后利用不同的线性变换技 术将词向量表示映射到三个不同的向量子空间, 最后得到三个不同的特 征表示, 即Q、 K和V; 式中, W1、 W2和W3分别是可学习的权 重参数矩阵, X 是输入文本的词向量表示; (b)将Q、 K和V作为多头注意力层的特征输入, 多头注意力层采用标准注意力机制模块 来捕获文本的关键特征, 并且通过堆叠多个多头注意力层捕获到文本的高阶语义特征表 示; MultiHeadA ttention(Q,K,V)=Co ncat(head1,…,headh), headi=Attention(Qi,Ki,Vi), (Q1,K1,V1),…,(Qh,Kh,Vh)=Split(Q,K,V), 式中, MultiHe adAttention( ·)表示多头注意力计算函数, Concat( ·)表示拼接函数, Attention( ·)是一个二维情形下的内部注意力计算公式, 每个头都经过了内部注意力计 算, l=1, …,L, L表示文本序列长度,i=1, …,h, h表示注意力头的个数,Split( ·)表示切 割函数; 步骤5、 利用多头注意力编码器MultiHeadEncoder获得目标实体和近义词实体集的高 阶特征表示, 并将目标实体和近义词实体的特征表示进行平均池化变换以生成目标实体词 的特征表示, 将近义词的语义融入到目标实体中解决高阶向量空间中存在的语义漂移的问 题, 同时产生更加丰富的目标实体的特 征表示, 具体包括以下子步骤: (a)将每种实体类型的目标实体集P和近义词实体集T输入目标多头注意力编码器分别 得到特征编码: 和 EP=Encodertarget(P), ET=Encodertarget(T); ( b) 将 EP和 ET进 行 平 均 池 化 变 换 得 到 目 标 实 体 词的 特 征 表 示 权 利 要 求 书 1/3 页 2 CN 115409037 A 2式中, k表示近义词实体集中ti所包含的实体 个数; 步骤6、 将法律文本C={c1,c2,…,cm}输入到MultiHe adEncoder中得到对应的文本特征 表示 然后利用交 互注意力生成一个实体交 互权重矩阵S, 该矩阵的每 个元素代表文本序列的每个子序列的注意力分数; 最后通过平衡归一化操作在实体交互权 重矩阵中识别出所有的目标实体和非目标实体分别作为候选目标实体集Upos和候选非目标 实体集Uneg; 平衡归一化通过拉近候选目标实体和真实目标实体在高阶语义空间中的向量 分布来提高识别的准确度; A; B=EC·WA,; EC·WB, Upos={sx,y|sx,y∈S; sx,y>0; x,y∈[1,m ]}, Uneg={sx,y|sx,y∈S; sx,y≤0; x,y∈[1,m ]}, 式中, WA和WB表示可学习的权重参数矩阵, A和B表示经过线性变换的待交互的文本特征 表示, ax表示A的第x个词向量表示, by表示B的第y个词向量表示, sx,y表示S的第x行和第y列 的元素; Upos是实体交互权重矩阵S中所有 大于0的元素所对应的子序列集合, 即候选目标实 体集; Uneg是实体交互权重矩阵S中所有小于等于0的元素所对应的子序列集合, 即候选非目 标实体集; si和sj分别表示实体S和实体j所对应的分数; Ωpos和Ωneg分别表示真 实目标实体 集合和真实 非目标实体集 合; 步骤7、 在步骤5中, 获得目标实体词的特征表示Epool, 在步骤6中获得待交互的文本 特征 表示A和B; 利用A、 B与Epool进行交互以产生一个用于度量学习的目标类排序矩阵R; 度量学 习能够学习目标实体类别之间在语义空间分布的距离或差异, 使得相似实体间的距离变 小, 不相似实体间的距离变大, 以描述样本之间的相似度; 在步骤6中通过平衡归一化操作 后, 获得一组候选目标实体集Upos, 但是并没有识别出候选目标实体属于 哪种类型; 因此, 在 步骤6中的平衡归一化操作的基础上结合度量学习, 在候选目标实体集Upos中为每个候选实 体分配一个实体类型; 换言之, 计算 目标实体集合中的每一个实体与所有的实体类型 的相 似度分数, 并选取相似度分数最大的类型作为 候选目标实体的类型; 权 利 要 求 书 2/3 页 3 CN 115409037 A 3

PDF文档 专利 基于平衡归一化和度量学习的法律命名实体识别方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于平衡归一化和度量学习的法律命名实体识别方法 第 1 页 专利 基于平衡归一化和度量学习的法律命名实体识别方法 第 2 页 专利 基于平衡归一化和度量学习的法律命名实体识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:07:06上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。