全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211195167.9 (22)申请日 2022.09.27 (71)申请人 广州金山移动科技有限公司 地址 510665 广东省广州市天河区建中路 60号六楼 申请人 珠海金山办公软件 有限公司   北京金山办公软件股份有限公司   武汉金山办公软件 有限公司 (72)发明人 黄国强 胡娟 吴峰  (74)专利代理 机构 北京华夏泰和知识产权代理 有限公司 1 1662 专利代理师 田然 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01)G06F 40/279(2020.01) G06F 40/30(2020.01) G06N 20/00(2019.01) (54)发明名称 文档处理方法及装置 (57)摘要 本发明实施例涉及一种文档处理方法及装 置, 包括: 从至少一个文档中提取符合目标场景 的场景关键词集合及所述场景关键词集合中每 个场景关键词对应的场景文本; 针对 所述目标场 景确定至少一个 分析维度; 基于所述场景关键词 集合中每个场景关键词对应的场景文本, 从所述 至少一个分析维度对所述场景关键词集合进行 维度分析, 得到所述场景关键词集合对应的维度 分析结果; 基于所述场景关键词集合对应的维度 分析结果确定展示数据。 由此, 实现了智能提取 单个或多个文档中与场景相关的文本, 并对其进 行分析得到相应的分析结果, 从而提高对文档进 行分析处 理的效率。 权利要求书2页 说明书14页 附图4页 CN 115495556 A 2022.12.20 CN 115495556 A 1.一种文档处 理方法, 其特 征在于, 包括: 从至少一个文档中提取符合目标场景的场景关键词集合及所述场景关键词集合中每 个场景关键词对应的场景文本; 针对所述目标场景确定 至少一个分析维度; 基于所述场景关键词集合中每个场景关键词对应的场景文本, 从所述至少一个分析维 度对所述场景关键词集 合进行维度分析, 得到所述场景关键词集 合对应的维度分析 结果; 基于所述场景关键词集 合对应的维度分析 结果确定展示数据。 2.根据权利要求1所述的方法, 其特征在于, 通过以下方式从至少一个文档中提取每个 所述场景关键词对应的场景文本: 针对每个所述场景关键词执 行以下处 理: 从至少一个所述文档中提取 所述场景关键词的上 下文文本内容; 基于所述场景关键词和所述场景关键词的上下文文本 内容, 构建所述场景关键词对应 的所述场景文本 。 3.根据权利要求2所述的方法, 其特征在于, 所述从至少一个所述文档中提取所述场景 关键词的上 下文文本内容, 包括: 将所述场景关键词所在的分句确定为所述场景关键词的上 下文文本内容; 和/或, 将所述场景关键词所在的段落确定为所述场景关键词的上 下文文本内容。 4.根据权利要求2所述的方法, 其特征在于, 所述基于所述场景关键词和所述场景关键 词的上下文文本内容, 构建所述场景关键词对应的所述场景文本, 包括: 在所述场景关键词为数字类型的情况下, 从至少一个所述文档中提取所述场景关键词 对应的计量单位; 将所述场景关键词和所述场景关键词对应的计量单位进行拼接, 得到拼接文本; 基于所述拼接文本和所述场景关键词的上下文文本内容构建所述场景关键词对应的 所述场景文本 。 5.根据权利要求1所述的方法, 其特征在于, 所述分析维度包括至少两个; 所述基于所 述场景关键词集合中每个场景关键词对应的场景文本, 从所述至少一个分析维度对所述场 景关键词集 合进行维度分析, 得到所述场景关键词集 合对应的维度分析 结果, 包括: 基于至少两个所述分析维度对所述场景关键词集合中每个场景关键词对应的场景文 本进行分类, 得到 至少两个场景文本类; 将所述至少两个场景文本类确定为所述场景关键词集 合对应的维度分析 结果; 其中, 不同的所述场景文本类对应不同的所述分析维度。 6.根据权利要求5所述的方法, 其特征在于, 所述基于所述场景关键词集合对应的维度 分析结果确定展示数据, 包括: 确定目标分析维度; 从所述至少两个场景文本类中确定所述目标分析维度对应的目标场景文本类; 基于所述目标场景文本类确定展示数据。 7.根据权利要求6所述的方法, 其特征在于, 所述基于所述目标场景文本类确定展示数 据, 包括: 针对每个所述目标场景文本类执 行以下处 理:权 利 要 求 书 1/2 页 2 CN 115495556 A 2按照预设的排序方式对所述目标场景文本类中的多个所述场景文本进行排序, 得到所 述目标场景文本类对应的展示数据。 8.根据权利要求1所述的方法, 其特征在于, 所述分析维度包括至少两个; 所述基于所 述场景关键词集合中每个场景关键词对应的场景文本, 从所述至少一个分析维度对所述场 景关键词集 合进行维度分析, 得到所述场景关键词集 合对应的维度分析 结果, 包括: 针对每个所述场景关键词执行以下处理: 从所述场景关键词对应的所述场景文本 中提 取每个所述分析维度对应的维度分析 结果, 得到所述场景关键词对应的多维度分析 结果; 将每个所述场景关键词对应的多维度分析结果确定为所述场景关键词集合对应的维 度分析结果。 9.根据权利要求1或8所述的方法, 其特征在于, 所述基于所述场景关键词集合对应的 维度分析 结果确定展示数据, 包括: 按照预设的分析策略对所述场景关键词集合对应的维度分析结果进行分析, 得到目标 分析结果; 基于所述目标分析 结果和所述维度分析 结果确定所述展示数据。 10.一种文档处 理装置, 其特 征在于, 包括: 提取模块, 用于从至少一个文档中提取符合目标场景的场景关键词集合及所述场景关 键词集合中每个场景关键词对应的场景文本; 第一确定模块, 用于针对所述目标场景确定 至少一个分析维度; 分析模块, 用于基于所述场景关键词集合中每个场景关键词对应的场景文本, 从所述 至少一个分析维度对所述场景关键词集合进 行维度分析, 得到所述场景关键词集合对应的 维度分析 结果; 第二确定模块, 用于基于所述场景关键词集 合对应的维度分析 结果确定展示数据。权 利 要 求 书 2/2 页 3 CN 115495556 A 3

PDF文档 专利 文档处理方法及装置

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文档处理方法及装置 第 1 页 专利 文档处理方法及装置 第 2 页 专利 文档处理方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:07:04上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。