全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210980485.X (22)申请日 2022.08.16 (71)申请人 中国第一汽车股份有限公司 地址 130011 吉林省长 春市汽车 经济技术 开发区新红旗大街1号 (72)发明人 王兆麟 丁冠源 回姝 郭富琦  郑彤 黄嘉桐 张文娟  (74)专利代理 机构 北京远智汇知识产权代理有 限公司 1 1659 专利代理师 刘欣 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/335(2019.01) G06F 16/34(2019.01) G06F 16/35(2019.01)G06F 40/169(2020.01) G06F 40/242(2020.01) G06F 40/30(2020.01) (54)发明名称 一种文本处 理方法、 装置、 设备及 介质 (57)摘要 本发明公开了一种文本处理方法、 装置、 设 备及介质。 该方法包括: 从评论文本中筛选出包 含预设汽车领域词典中词语的目标语句; 根据语 义提取规则, 对各目标语句进行特征提取, 确定 各目标语句对应的潜在意见短语; 并对各潜在意 见短语的语义指向进行分析, 确定各潜在意见短 语的情感极性; 所述情感极性包括正面、 负面和 中性; 根据所述潜在意见短语、 情感极性以及各 目标语句所在评论文本的点赞量, 对文本处理的 结果进行可视化展示。 本发明的技术方案, 可 以 基于语义提取规则, 从评论文本中提取出潜在意 见短语和情感极性, 实现对评论文本更准确有效 的处理, 提取出更精准的汽车性能特征, 便于后 续对汽车相关性能的改进。 权利要求书2页 说明书11页 附图4页 CN 115525733 A 2022.12.27 CN 115525733 A 1.一种文本处 理方法, 其特 征在于, 包括: 从评论文本 中筛选出包含预设汽车领域词典中词语的目标语句; 所述评论文本为对预 设车型汽车的相关性能进行评论的文本; 根据语义提取规则, 对各目标语句进行特征提取, 确定各目标语句对应的潜在意见短 语; 并对各潜在意见短语的语义指向进 行分析, 确定各潜在意见短语的情感极性; 所述情感 极性包括 正面、 负面和中性; 根据所述潜在意见短语、 情感极性以及各目标语句所在评论文本的点赞量, 对文本处 理的结果进行 可视化展示。 2.根据权利要求1所述的方法, 其特征在于, 根据语义提取规则, 对各目标语句进行特 征提取, 确定各目标语句对应的潜在意见短语, 包括: 针对每条目标语句, 确定其是否满足预设的各语义 提取规则; 若是, 则根据对应的语义提取规则, 对该目标语句进行特征提取, 确定目标语句对应的 潜在意见短语。 3.根据权利要求2所述的方法, 其特征在于, 根据语义提取规则, 对各目标语句进行特 征提取, 包括以下至少一种: 确定目标语句是否满足动词加名词的语义提取规则, 若是, 则根据 所述语义提取规则, 对该目标语句中的动词和名词进行提取; 确定目标语句是否满足名词加名词的语义提取规则, 若是, 则根据 所述语义提取规则, 对该目标语句中的相邻名词进行提取; 确定目标语句是否满足名词加形容词的语义提取规则, 若是, 则根据所述语义提取规 则, 对该目标语句中的名词和形容词进行提取; 确定目标语句是否满足动词加形容词加名词的语义提取规则, 若是, 则根据所述语义 提取规则, 对该目标语句中的动词、 名词和形容词进行提取。 4.根据权利要求1所述的方法, 其特征在于, 根据所述潜在意见短语、 情感极性以及各 目标语句所在评论文本的点赞量, 对文本处 理的结果进行 可视化展示, 包括: 针对每个潜在意见短语, 确定包含该潜在意见短语的至少一个目标语句, 并确定所述 至少一个目标语句中各目标语句所在评论文本的点赞量的和, 作为该潜在意见短语的评估 值; 根据各潜在意见短语、 各潜在意见短语的情感极性以及各潜在意见短语的评估值, 对 文本处理的结果进行 可视化展示。 5.根据权利要求1所述的方法, 其特征在于, 从评论文本中筛选出包含预设汽车领域词 典中词语的目标语句, 包括: 根据评论文本中的标点符号, 将所述评论文本拆分为至少两条 备选评论语句; 基于预设汽车领域词典, 从所述至少两条备选评论语句中筛选出包含预设汽车领域词 典中词语的目标语句。 6.根据权利要求1 ‑5中任一项所述的方法, 其特 征在于, 还 包括: 获取对预设至少两种畅销车型和至少两种普通车型汽车的相关性能进行评论的评论 文本; 根据对所述畅销车型和普通车型汽车预设的功能词语, 以及至少两条评论文本 中的高权 利 要 求 书 1/2 页 2 CN 115525733 A 2频词语, 搭建汽车 领域词典。 7.根据权利要求1所述的方法, 其特征在于, 从评论文本中筛选出包含预设汽车领域词 典中词语的目标语句之前, 还 包括: 利用预设去重算法, 对评论文本进行去重处 理; 利用拼写纠正器, 修 正评论文本中拼写错 误的词语; 确定包含病句的评论文本并删除; 其中, 病句为包 含语法错 误和/或逻辑 错误的句子 。 8.一种文本处 理装置, 其特 征在于, 包括: 筛选模块, 用于从评论文本中筛选出包含预设汽车领域词典中词语的目标语句; 所述 评论文本为对预设车 型汽车的相关性能进行评论的文本; 确定模块, 用于根据语义提取规则, 对各目标语句进行特征提取, 确定各目标语句对应 的潜在意见短语; 并对各潜在意见短语的语义指向进行分析, 确定各潜在意见短语的情感 极性; 所述情感极性包括 正面、 负面和中性; 可视化模块, 用于根据所述潜在意见短语、 情感极性以及各目标语句所在评论文本的 点赞量, 对文本处 理的结果进行 可视化展示。 9.一种电子设备, 其特 征在于, 所述电子设备包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的计算机程序, 所述计算机程序被所 述至少一个处理器执行, 以使所述至少一个处理器能够执行权利要求1 ‑7中任一项所述的 文本处理方法。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机指 令, 所述计算机指令用于使处 理器执行时实现权利要求1 ‑7中任一项所述的文本处 理方法。权 利 要 求 书 2/2 页 3 CN 115525733 A 3

PDF文档 专利 一种文本处理方法、装置、设备及介质

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本处理方法、装置、设备及介质 第 1 页 专利 一种文本处理方法、装置、设备及介质 第 2 页 专利 一种文本处理方法、装置、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:07:08上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。