(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211018484.3
(22)申请日 2022.08.24
(71)申请人 昆明电力交易中心有限责任公司
地址 650011 云南省昆明市官渡区拓东路
73号
(72)发明人 宝君维 陈然 张加贝 赵伟华
蔡华祥 张茂林 王帮灿 丁文娇
(74)专利代理 机构 昆明正原 专利商标代理有限
公司 53100
专利代理师 于洪 金耀生
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/35(2019.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06Q 30/02(2012.01)
G06Q 50/06(2012.01)
(54)发明名称
一种基于语法序列嵌入模型的售电公司评
价情感分类方法
(57)摘要
本发明涉及一种基于语法序列嵌入模型的
售电公司评价情感分类方法, 首先, 在电力零售
交易平台上对 所有售电公司随机采集评论数据,
并对数据进行清洗和过滤; 然后进行情感类别标
注; 并将数据划分为训练集和测试集; 将训练集
输入到基于语法序列嵌入的语义融合深度模型
中, 以交叉熵作为损失函数进行训练, 并采用测
试集进行测试, 获得构建好的基于语 法序列嵌入
的语义融合深度模型; 采用构建好模 型对电力零
售交易平台的评论数据进行情感分类。 本发明通
过基于文本语法树嵌入序列的神经网络模型实
现对售电公司的评价文本进行语 法结构分析、 语
义建模来实现情感分类, 分类结果可以作为交易
中心评估售电公司服务质量、 信用等级、 运营水
平的一个 重要指标。
权利要求书4页 说明书17页 附图2页
CN 115481219 A
2022.12.16
CN 115481219 A
1.一种基于语法序列嵌入模型的售电公司评价情感分类方法, 其特征在于, 包括如下
步骤:
步骤(1), 在电力零售交易平台上对所有售电公司随机采集评论数据, 并对数据进行清
洗和过滤以去除无语义内容, 然后对剩余的数据进 行情感类别标注; 之后对数据进 行划分,
划分为训练集和 测试集;
步骤(2), 将训练集输入到基于语法序列嵌入的语义融合深度模型中, 以交叉熵作为损
失函数进行训练, 并采用测试集进行测试, 获得构建好的基于语法序列嵌入的语义融合深
度模型;
所述的基于语法序列嵌入的语义融合深度模型中, 采用双向LSTM网络层进行语义特征
提取; 采用CNN网络层 进行语法结构特征提取; 之后将提取的语义特征和语法结构特征进 行
拼接后输入到Softmax层进行类别预测;
双向LSTM网络层的输入为句子中所有词语经 过嵌入处 理后构成的矩阵;
CNN网络层的输入为语法嵌入矩阵;
Softmax层输出为情感类别的概 率;
所述的语法嵌入矩阵表示为M∈Rk×n, 其中, k为语法嵌入的维度, n为句子包含的单词
数;
步骤(3), 采用构建好的基于语法序列嵌入的语义融合深度模型对电力零售交易平台
的评论数据进行情感分类。
2.根据权利要求1所述的基于语法序列嵌入模型的售电公司评价情感分类方法, 其特
征在于, 步骤(1)中, 标注的类别共有5类, 分别用1 ‑5进行表示。
3.根据权利要求1所述的基于语法序列嵌入模型的售电公司评价情感分类方法, 其特
征在于, 步骤(1)中, 数据以4:1的比例划分训练集和 测试集。
4.根据权利要求1所述的基于语法序列嵌入模型的售电公司评价情感分类方法, 其特
征在于, 步骤(2)中, 语法嵌入矩阵的获取 方法为:
包含n个词语的句子S={w1,w2,…,wn}, 对于第 i个词语wi, i=1,2, …,n, 其对应的从语
法树根节点到叶子节点的路径为p(wi);
p(wi)表示为序列{t1,t2,…,tl}, 其中, tj为语法标签, j=1,2, …,l; p(wi)为词语wi的语
法序列; 句子S中所有词语的语法序列构成的集 合P={p(wi),i=1,2,…,n};
通过对语法序列中所有语法标签嵌入求和计算得到语法路径的嵌入表示, 如式(1)所
示;
在式(1)中, 词语wi对应的语法序列为p(wi), p(wi)包含l个语法标签, 分别是 从t1一直到
tl, 其中语法标签tj对应的语法嵌入向量为vector(tj), 1≤j≤l; 通过将语法标签t1到tl对
应的语法嵌入进行相加, 得到语法序列p(wi)对应的嵌入向量表示vector(p(wi)), 又因语法
序列p(wi)为词语wi对应的语法序列, 故词语wi对应的语法嵌入向量亦为vector(p(wi));
将句子S中所有词语对应的语法嵌入向量按序排列可得语法嵌入矩阵M∈Rk×n, 如式(2)
所示; 其中k为单个词语语法嵌入的维度, n为句子S包含的单词数, 语法嵌入矩阵M即表 示了权 利 要 求 书 1/4 页
2
CN 115481219 A
2句子S的语法结构信息;
5.根据权利要求1所述的基于语法序列嵌入模型的售电公司评价情感分类方法, 其特
征在于, 步骤(2)中, CNN网络层 包括卷积层和池化层; 卷积层用于对文本局部语法结构特征
进行提取, 具体为:
使用固定 窗口的卷积过滤器F∈Rk×s对语法嵌入矩阵M∈Rk×n进行滑动处理, 其中k为语
法嵌入向量的维度, s为过滤器每次处理的窗口长度, n为句子中词语的个数, 卷积过滤器在
第i个窗口进行 特征提取的结果 为ci, 如式(3)所示;
ci=f(F·M[i:i+s‑1]+b) (3)
其中, f为非线性激活函数ReLU, b为偏置量, 过滤器F在语法嵌入矩阵M上以固定为1的
步长进行滑动, 并对所有长度为s的窗口M[i:i+s ‑1]进行特征提取, 其中i∈[1,2,...,n ‑s+
1], 完成特征提取后所得的特征映射图向量为csyntax={c1,c2,…,cn‑s+1}; 采用m个窗 口大小
相同的卷积过滤器对语法嵌入矩阵M∈Rk×n进行处理, 从而得到多个对应的特征映射图向
量, 构成特征矩阵; 使用最大池化层化对每个特征映射图进行池化操作, 即对m个特征映射
图向量取向量中的最大值, 如式(4)所示;
在式(4)中, poolj为对第j个 卷积过滤器产生的特征映射图向量进行最大池 化的结果, j
=1, 2, ..., m, max为对向量cj
syntax计算最大值的函数, cj
syntax为第j个卷积过滤器特征提取
后所得的特征映射图向量; 在得到所有特征映射图向量池化结果后, 将这些池化结果进行
拼接得到最终的语法结构特 征向量rsyntax, 如式(5)所示;
rsyntac=[pool1, pool2, ..., poolm] (5)。
6.根据权利要求1所述的基于语法序列嵌入模型的售电公司评价情感分类方法, 其特
征在于, 步骤(2)中, 使用双向LSTM网络层对输入的文本词语嵌入矩阵进行语义特征提取,
具体为:
对与一个包含有n个按序排列词语的句子S={w1, w2, ..., wn}, 通过一个词典嵌入矩阵E
∈Rd×v以及式(6)来查询每个词语对应的分布式嵌入表示, 其中, 在词典嵌入矩阵中, d为词
嵌入向量维度, V为词汇表的数量, 在GloVe预训练词向量中随机挑选100万个300维的词向
量来构造词典嵌入矩阵, 即d=300, V=1000000, R为实数空间, wi为句子中第i个词语, i=
1, 2, .., n;
ei=Eoi (6)
在式(6)中, oi是词语wi对应的维度为V的one ‑hot编码, 即在oi中, 只有词语wi对应维度
的值为1, 其余值均为0, 从而将oi与E相乘便可 得到词语wi对应的词向量ei;
而后将句子S中所有词语的词向量进行堆叠得到一个词向量矩阵W∈Rd×n, 其中, d为词
向量维度, n为句子S中词语数量, R为 实数空间, 之后将词向量矩阵W作为双向LSTM网络层的
输入;权 利 要 求 书 2/4 页
3
CN 115481219 A
3
专利 一种基于语法序列嵌入模型的售电公司评价情感分类方法
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:06:26上传分享