全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211133233.X (22)申请日 2022.09.16 (71)申请人 哈尔滨工业大 学 (深圳) 地址 518063 广东省深圳市南 山区桃源街 道深圳大 学城哈尔滨工业大 学校区 (72)发明人 徐睿峰 鲍建竹 孙婧伊 杨敏  梁斌  (74)专利代理 机构 深圳市威世博知识产权代理 事务所(普通 合伙) 44280 专利代理师 张庆玲 (51)Int.Cl. G06F 40/226(2020.01) G06F 40/30(2020.01) G06F 40/216(2020.01) G06N 20/00(2019.01) (54)发明名称 互动论点对抽取方法及相关设备和存储介 质 (57)摘要 本申请公开了一种互动论点对抽取方法及 相关设备和存储介质, 其中, 互动论点对抽取方 法包括: 获取待抽取互动论点对的两个篇章; 选 择在第一阶段执行论点抽取的篇章作为第一篇 章, 并将另一篇章作为第二阶段执行论点抽取的 第二篇章; 其中, 两个篇章任一者选择作为第一 篇章, 或者, 两个篇章分别先后选择作为第一篇 章; 基于第一篇章执行论点抽取, 得到若干第一 论点; 将若干第一论点分别作为查询论点, 并基 于查询论点和第二篇章执行论点抽取, 得到与查 询论点组成互动论点对的第二论点。 上述方案, 能够提升互动论 点对抽取的准确性。 权利要求书2页 说明书12页 附图4页 CN 115481619 A 2022.12.16 CN 115481619 A 1.一种互动论 点对抽取 方法, 其特 征在于, 包括: 获取待抽取互动论 点对的两个篇 章; 选择在第一阶段执行论点抽取的篇章作为第 一篇章, 并将另一所述篇章作为第 二阶段 执行所述论点抽取 的第二篇章; 其中, 所述两个篇章任一者选择作为所述第一篇章, 或者, 所述两个篇 章分别先后选择作为所述第一 篇章; 基于所述第一 篇章执行所述论点抽取, 得到若干第一 论点; 将所述若干第 一论点分别作为查询论点, 并基于所述查询论点和所述第 二篇章执行所 述论点抽取, 得到与所述 查询论点组成所述互动论 点对的第二 论点。 2.根据权利要求1所述的方法, 其特征在于, 所述论点抽取由论点抽取模型执行, 所述 论点抽取模型的输入 包括查询文本和篇 章文本; 其中, 在抽取所述第一论点 时, 所述查询文本为预设文本, 所述篇章文本为所述第一篇 章, 且所述预设文本用于指示当前执行 的论点抽取处于所述第一 阶段, 在抽取所述第二论 点时, 所述 查询文本为所述第一 论点, 所述篇章文本为所述第二 篇章。 3.根据权利要求1所述的方法, 其特征在于, 所述基于所述第一篇章执行所述论点抽 取, 得到若干第一论点, 或者所述基于所述查询论点和所述第二篇章执行所述论点抽取, 得 到与所述 查询论点组成所述互动论 点对的第二 论点, 包括: 基于查询文本和篇章文本, 提取所述查询文本和所述篇章文本中各个字符的语义特征 表示; 基于所述各个字符的语义特征表示, 提取所述查询文本和所述篇章文本 中各个语句文 本的上下文特征表示; 基于所述各个 语句文本的上 下文特征表示, 预测所述 篇章文本中的论 点文本; 其中, 在抽取所述第一论点 时, 所述查询文本为预设文本, 所述篇章文本为所述第一篇 章, 所述论点文本为所述第一论点, 在抽取所述第二论点时, 所述查询文本为所述第一论 点, 所述篇章文本为所述第二篇章, 所述论点文本为与所述查询文本组成所述互动论点对 的第二论点。 4.根据权利要求3所述的方法, 其特征在于, 所述各个字符的语义特征表示由 Longformer对由所述 查询文本和所述 篇章文本所组成的字符序列进行编码得到 。 5.根据权利要求3所述的方法, 其特征在于, 所述基于所述各个字符的语义特征表示, 提取所述查询文本和所述 篇章文本中各个 语句文本的上 下文特征表示, 包括: 基于所述语句文本 中所述字符的语义特征表示进行特征融合, 得到所述语句文本的语 义特征表示; 基于所述查询文本和所述篇章文本中各个语句文本的语义特征表示进行上下文特征 提取, 得到所述各个 语句文本的上 下文特征表示。 6.根据权利要求3所述的方法, 其特征在于, 所述基于所述各个语句文本的上下文特征 表示, 预测所述 篇章文本中的论 点文本, 包括: 基于所述各个语句文本的上下文特征表示进行第 一预测, 得到所述篇章文本中疑似为 所述论点文本的开始语句的语句文本, 作为第一文本, 并基于所述各个语句文本的上下文 特征表示进行第二预测, 得到所述篇章文本中疑似为所述论点文本的结束语句的语句文 本, 作为第二文本;权 利 要 求 书 1/2 页 2 CN 115481619 A 2基于所述第一文本的上下文特征表示和所述第二文本的上下文特征表示进行第三预 测, 得到以所述第一文本作为所述开始语句并以所述第二文本作为所述结束语句构成所述 论点文本的概 率值; 响应于所述概率值不低于预设阈值, 基于所述第一文本和所述第二文本, 从所述篇章 文本提取 所述论点文本。 7.根据权利要求1所述的方法, 其特征在于, 所述论点抽取由论点抽取模型执行, 所述 论点抽取模型基于样本篇章经过第一训练过程和 第二训练过程训练得到, 所述样本篇章标 注有样本论点, 且成对的样本篇章还标注有所述样本论点之间的对应关系, 且具有所述对 应关系的两个所述样本论 点构成互动论 点对; 其中, 在所述第 一训练过程, 预设文本和所述样本篇章所组成的字符序列, 作为所述论 点抽取模型训练时输入的样本文本, 所述样本篇章所标注的样本论点, 作为所述论点抽取 模型训练时的监督文本, 在所述第二训练过程, 成对的样本篇章中第一样本篇章所标注的 样本论点和成对的样本篇章中第二样本篇章所组成的字符序列, 作为所述论点抽取模型训 练时输入的样本文本, 所述第二样本篇章中与参考论点具有所述对应关系的样本论点, 作 为所述论点抽取模型训练时的监 督文本, 且所述 参考论点为所述样本文本中的样本论 点。 8.根据权利要求7所述的方法, 其特征在于, 所述第 一训练过程或所述第 二训练过程的 步骤包括: 基于所述监督文本, 得到关于作为开始语句的样本语句的第一情况、 关于作为结束语 句的样本语句的第二情况; 基于所述论点抽取模型对所述样本文本执行所述论点抽取, 得到所述样本文本 中所述 样本篇章的样本语句作为开始语句的第一预测 概率、 作为结束语句的第二预测概率, 及以 第一样本文本作为开始语句并以第二样本文本作为结束语句构成所述样本论点的第三预 测概率; 其中, 所述第一预测概率满足第一条件的样本语句作为所述第一样 本文本, 所述第 二预测概 率满足第二条件的样本语句作为所述第二样本文本; 基于所述第一预测概率和所述第一情况, 度量得到第一预测损 失, 并基于所述第二预 测概率和所述第二情况, 度量得到第二预测损失, 及基于所述第三预测 概率和所述监督文 本, 度量得到第三预测损失; 基于所述第一预测损 失、 所述第二预测损 失和所述第三预测损 失, 调整所述论点抽取 模型的网络参数。 9.一种互动论点对抽取设备, 其特征在于, 包括显示屏、 存储器和处理器, 所述显示屏、 所述存储器分别与所述处理器耦接, 所述存储器中存储有程序指令, 所述处理器用于执行 所述程序指令以实现权利要求 1至8任一项 所述的互动论点对抽取方法, 以抽取两个篇章之 间的互动论点对, 且 所述显示屏用于提供一显示界面, 所述显示界面包括: 用于 分别显示不 同所述篇章的第一区域和第二区域, 及用于 显示所述互动论 点对的第三区域。 10.一种计算机可读存储介质, 其特征在于, 存储有能够被处理器运行的程序指令, 所 述程序指令用于实现权利要求1至8任一项所述的互动论 点对抽取 方法。权 利 要 求 书 2/2 页 3 CN 115481619 A 3

PDF文档 专利 互动论点对抽取方法及相关设备和存储介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 互动论点对抽取方法及相关设备和存储介质 第 1 页 专利 互动论点对抽取方法及相关设备和存储介质 第 2 页 专利 互动论点对抽取方法及相关设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:07:05上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。