专利一种基于语法序列嵌入模型的售电公司评价情感分类方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211018484.3 (22)申请日 2022.08.24 (71)申请人昆明电力交易中心有限责任公司地址 650011 云南省昆明市官渡区拓东路 73号 (72)发明人宝君维　陈然　张加贝　赵伟华　蔡华祥　张茂林　王帮灿　丁文娇　 (74)专利代理机构昆明正原专利商标代理有限公司 53100 专利代理师于洪　金耀生 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/289(2020.01) G06F 40/30(2020.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06Q 30/02(2012.01) G06Q 50/06(2012.01) (54)发明名称一种基于语法序列嵌入模型的售电公司评价情感分类方法 (57)摘要本发明涉及一种基于语法序列嵌入模型的售电公司评价情感分类方法，首先，在电力零售交易平台上对所有售电公司随机采集评论数据，并对数据进行清洗和过滤；然后进行情感类别标注；并将数据划分为训练集和测试集；将训练集输入到基于语法序列嵌入的语义融合深度模型中，以交叉熵作为损失函数进行训练，并采用测试集进行测试，获得构建好的基于语法序列嵌入的语义融合深度模型；采用构建好模型对电力零售交易平台的评论数据进行情感分类。本发明通过基于文本语法树嵌入序列的神经网络模型实现对售电公司的评价文本进行语法结构分析、语义建模来实现情感分类，分类结果可以作为交易中心评估售电公司服务质量、信用等级、运营水平的一个重要指标。权利要求书4页说明书17页附图2页 CN 115481219 A 2022.12.16 CN 115481219 A 1.一种基于语法序列嵌入模型的售电公司评价情感分类方法，其特征在于，包括如下步骤：步骤(1)，在电力零售交易平台上对所有售电公司随机采集评论数据，并对数据进行清洗和过滤以去除无语义内容，然后对剩余的数据进行情感类别标注；之后对数据进行划分，划分为训练集和测试集；步骤(2)，将训练集输入到基于语法序列嵌入的语义融合深度模型中，以交叉熵作为损失函数进行训练，并采用测试集进行测试，获得构建好的基于语法序列嵌入的语义融合深度模型；所述的基于语法序列嵌入的语义融合深度模型中，采用双向LSTM网络层进行语义特征提取；采用CNN网络层进行语法结构特征提取；之后将提取的语义特征和语法结构特征进行拼接后输入到Softmax层进行类别预测；双向LSTM网络层的输入为句子中所有词语经过嵌入处理后构成的矩阵； CNN网络层的输入为语法嵌入矩阵； Softmax层输出为情感类别的概率；所述的语法嵌入矩阵表示为M∈Rk×n，其中， k为语法嵌入的维度， n为句子包含的单词数；步骤(3)，采用构建好的基于语法序列嵌入的语义融合深度模型对电力零售交易平台的评论数据进行情感分类。 2.根据权利要求1所述的基于语法序列嵌入模型的售电公司评价情感分类方法，其特征在于，步骤(1)中，标注的类别共有5类，分别用1 ‑5进行表示。 3.根据权利要求1所述的基于语法序列嵌入模型的售电公司评价情感分类方法，其特征在于，步骤(1)中，数据以4:1的比例划分训练集和测试集。 4.根据权利要求1所述的基于语法序列嵌入模型的售电公司评价情感分类方法，其特征在于，步骤(2)中，语法嵌入矩阵的获取方法为：包含n个词语的句子S＝{w1,w2,…,wn}，对于第 i个词语wi， i＝1,2, …,n，其对应的从语法树根节点到叶子节点的路径为p(wi)； p(wi)表示为序列{t1,t2,…,tl}，其中， tj为语法标签， j＝1,2, …,l； p(wi)为词语wi的语法序列；句子S中所有词语的语法序列构成的集合P＝{p(wi),i＝1,2,…,n}；通过对语法序列中所有语法标签嵌入求和计算得到语法路径的嵌入表示，如式(1)所示；在式(1)中，词语wi对应的语法序列为p(wi)， p(wi)包含l个语法标签，分别是从t1一直到 tl，其中语法标签tj对应的语法嵌入向量为vector(tj)， 1≤j≤l；通过将语法标签t1到tl对应的语法嵌入进行相加，得到语法序列p(wi)对应的嵌入向量表示vector(p(wi))，又因语法序列p(wi)为词语wi对应的语法序列，故词语wi对应的语法嵌入向量亦为vector(p(wi))；将句子S中所有词语对应的语法嵌入向量按序排列可得语法嵌入矩阵M∈Rk×n，如式(2) 所示；其中k为单个词语语法嵌入的维度， n为句子S包含的单词数，语法嵌入矩阵M即表示了权　利　要　求　书 1/4 页 2 CN 115481219 A 2句子S的语法结构信息； 5.根据权利要求1所述的基于语法序列嵌入模型的售电公司评价情感分类方法，其特征在于，步骤(2)中， CNN网络层包括卷积层和池化层；卷积层用于对文本局部语法结构特征进行提取，具体为：使用固定窗口的卷积过滤器F∈Rk×s对语法嵌入矩阵M∈Rk×n进行滑动处理，其中k为语法嵌入向量的维度， s为过滤器每次处理的窗口长度， n为句子中词语的个数，卷积过滤器在第i个窗口进行特征提取的结果为ci，如式(3)所示； ci＝f(F·M[i:i+s‑1]+b) (3) 其中， f为非线性激活函数ReLU， b为偏置量，过滤器F在语法嵌入矩阵M上以固定为1的步长进行滑动，并对所有长度为s的窗口M[i:i+s ‑1]进行特征提取，其中i∈[1,2,...,n ‑s+ 1]，完成特征提取后所得的特征映射图向量为csyntax＝{c1,c2,…,cn‑s+1}；采用m个窗口大小相同的卷积过滤器对语法嵌入矩阵M∈Rk×n进行处理，从而得到多个对应的特征映射图向量，构成特征矩阵；使用最大池化层化对每个特征映射图进行池化操作，即对m个特征映射图向量取向量中的最大值，如式(4)所示；在式(4)中， poolj为对第j个卷积过滤器产生的特征映射图向量进行最大池化的结果， j ＝1， 2， ...， m， max为对向量cj syntax计算最大值的函数， cj syntax为第j个卷积过滤器特征提取后所得的特征映射图向量；在得到所有特征映射图向量池化结果后，将这些池化结果进行拼接得到最终的语法结构特征向量rsyntax，如式(5)所示； rsyntac＝[pool1， pool2， ...， poolm] (5)。 6.根据权利要求1所述的基于语法序列嵌入模型的售电公司评价情感分类方法，其特征在于，步骤(2)中，使用双向LSTM网络层对输入的文本词语嵌入矩阵进行语义特征提取，具体为：对与一个包含有n个按序排列词语的句子S＝{w1， w2， ...， wn}，通过一个词典嵌入矩阵E ∈Rd×v以及式(6)来查询每个词语对应的分布式嵌入表示，其中，在词典嵌入矩阵中， d为词嵌入向量维度， V为词汇表的数量，在GloVe预训练词向量中随机挑选100万个300维的词向量来构造词典嵌入矩阵，即d＝300， V＝1000000， R为实数空间， wi为句子中第i个词语， i＝ 1， 2， ..， n； ei＝Eoi (6) 在式(6)中， oi是词语wi对应的维度为V的one ‑hot编码，即在oi中，只有词语wi对应维度的值为1，其余值均为0，从而将oi与E相乘便可得到词语wi对应的词向量ei；而后将句子S中所有词语的词向量进行堆叠得到一个词向量矩阵W∈Rd×n，其中， d为词向量维度， n为句子S中词语数量， R为实数空间，之后将词向量矩阵W作为双向LSTM网络层的输入；权　利　要　求　书 2/4 页 3 CN 115481219 A 3

专利 一种基于语法序列嵌入模型的售电公司评价情感分类方法

专利一种基于语法序列嵌入模型的售电公司评价情感分类方法