全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211029783.7 (22)申请日 2022.08.25 (71)申请人 昆明理工大 学 地址 650500 云南省昆明市呈贡区景明南 路727号 (72)发明人 余正涛 吴少扬 朱恩昌 线岩团  黄于欣  (74)专利代理 机构 昆明隆合知识产权代理事务 所(普通合伙) 53220 专利代理师 何娇 (51)Int.Cl. G06F 16/951(2019.01) G06F 16/953(2019.01) G06F 40/211(2020.01) G06F 40/30(2020.01)G06F 40/58(2020.01) G06N 20/00(2019.01) (54)发明名称 面向汉越跨语言事件检索的事件预训练方 法 (57)摘要 本发明涉及面向汉越跨语言事件检索的事 件预训练方法, 属于自然语言处理技术领域。 本 发明利用两个预训练方法对mBERT进行额外的预 训练, 首先利用事件要素掩码预训练将事件知识 融入模型, 改善模型对于极低资源的事件表征, 接着利用跨语 言对比学习, 使不同语 言之间具有 相似含义的句子在表征空间中具有更近的距离, 然后得到汉越跨语 言事件预训练模 型, 对其进行 微调以使得下游任务获得更好的性能。 本发明提 出的面向汉越跨语言事件检索 的事件预训练方 法在自建的汉越双语新闻事件检索数据集上的 实验证明了 本发明方法的有效性。 权利要求书2页 说明书6页 附图2页 CN 115470393 A 2022.12.13 CN 115470393 A 1.面向汉越跨语言事件检索的事件预训练方法, 其特征在于: 所述面向汉越跨语言事 件检索的事 件预训练方法的具体步骤如下: Step1、 实验数据集构建: 利用爬虫技术从维基百科新闻页面爬取汉越双语新闻数据, 并通过人工标注构建实验所需要的数据集, 数据集包含事件要素掩码预训数据集、 跨语言 对比学习数据集和汉越跨语言事 件检索数据集; Step2、 汉越跨语言事件预训练模型构建: 利用事件要素掩码预训练和跨语言对比学习 训练了一个汉越跨语言事件预训练模型, 改善多语言预训练模型 的汉越双语对齐表征, 并 将事件知识融入 模型; Step3、 跨语言事件检索模型构 建: 在Step2的基础 上, 对汉越跨语言事件预训练模型进 行微调, 获得汉越跨语言事 件检索结果。 2.根据权利要求1所述的面向汉越跨语言事件检索的事件预训练方法, 其特征在于: 所 述Step1的具体步骤为: Step1.1、 通过爬虫技术从维基百科新 闻页面爬取汉越双语新 闻数据, 将每条新闻样本 与其对应日期进拼接, 同时把样本中的超链接作为事件要素加入事件要素集, 然后使用谷 歌在线翻译将每条新闻翻译为对应目标语 言, 利用fasttext 提供的对齐词向量 获得跨语言 词嵌入, 最后将cosi ne相似度大于 0.4的加入 事件要素掩码预训练数据集; Step1.2、 在Wikidata中找到事件要素集 中的每个事件要素所对应的页面, 然后判断对 应目标语言的同一事件要 素是否存在, 若存在, 则将源语言的事件要 素描述作为查询, 对应 目标语言的链接到的页面的第一个段落作为查询的正例, 构成跨语言对比学习事件要 素数 据集, 同时, 选取部分数据对齐标注相关性用于微调。 3.根据权利要求1所述的面向汉越跨语言事件检索的事件预训练方法, 其特征在于: 所 述Step2包括, 利用事件要素掩码预训练emlm和跨语言对比学习 ccl对mBERT继续进行预训 练, 具体为: Step2.1、 给定一个中文事件句Sentencezh, 句子中的事件要素为ell(l=1, 2, 3...), 首 先用[MASK]标记符将ell进行替换, 然后与越南语伪平行事件句Sentencevi进行拼接, 最后 的输入是一个包含特殊标记符的序列inputemlm=[CLS]+Sentencezh+[SEP]+Sentencevi+ [SEP]; 然后经过嵌入层以及k层Transformer将 其转换为对应的上下文表 征H(k)∈RN×dim, 其 中N表示最大序列长度, dim表示隐藏层维度; 将得到的最后一层输出的序列表示送至随后 的线性层, 得到每个被掩码的事件要素的概率; 对 于在Sentencezh中每一个被[MASK ]标记替 换的位置ell, 最后对应的表示 为Hl, 具体计算过程如下: H(0)=Embedding(inputemlm) H(k)=Transformers(H(k‑1)) 在事件要素掩码预训练中, 只对Sentencezh中的事件要素进行替换, 这样做的原因是鼓 励模型利用越南语伪平行句的语义信息来还原被替换 的部分, 同时学习跨语言特征, 事件 要素掩码预训练的损失函数如下: Step2.2、 给定一个中文查询短语Qzh, 其对应的相关文档为 不相关文档为权 利 要 求 书 1/2 页 2 CN 115470393 A 2通过编码器分别获得查询和文档的对应表征 模型的训练目标 为最大化 与 的相似性, 最小化 的相似性, 具体 计算过程如下: 其中, sim( ·)是任何相似度算法, 将这一训练目标扩展到了查询和文档属于与 不同语 言的情况。 4.根据权利要求1所述的面向汉越跨语言事件检索的事件预训练方法, 其特征在于: 所 述Step3的具体步骤为: Step3.1、 给定一个中文查询短语Qzh, 首先基于跨语言事件预训练模型emBERT将查询切 分为{q1, q2, ...qt}序列, 其中n代表查询的长度, qt(t=1, 2, 3...)表示查询中的每个词, 与 ColBERT不同, 不添加标识查询的特殊 标记符, 而是直接在查询Qzh前添加特殊 标记符[C LS], 使模型学习区分不同语言的查询 和文档, 然后使用emBERT对查询序列Qzh={q1, q2, ...qt}进 行上下文表征, 最后把输出的[CLS]作为查询的上下文表示eq, 具体对查询的编码公式如 下: eq=Normalize(emBer t([CLS]q1q2...qt)) Step3.2、 与查询编 码器类似, 将越南语的新闻文档表示为Dvi={d1, d2, ...dm}, m代表文 档长度, dj(j=1, 2, 3...)表示文档中的词, 通 过emBERT获得文档的上下文表示ed, 具体对文 档的编码公式如下: ed=Normalize(emBer t([CLS]d1d2...dm)) Step3.2、 在给定的查询的文档 经过emBERT编码得到对应表示eq和ed后, 通过后期交互 机制计算查询和文档的相关性分数, 使用MaxSim操作符获得得分的总和计为Scoreq, d, 具体 计算过程如下 所示: 权 利 要 求 书 2/2 页 3 CN 115470393 A 3

PDF文档 专利 面向汉越跨语言事件检索的事件预训练方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 面向汉越跨语言事件检索的事件预训练方法 第 1 页 专利 面向汉越跨语言事件检索的事件预训练方法 第 2 页 专利 面向汉越跨语言事件检索的事件预训练方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:07:06上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。