全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211198773.6 (22)申请日 2022.09.29 (71)申请人 南通大学 地址 226019 江苏省南 通市崇川区啬园路9 号 (72)发明人 鞠小林 沈逸恒 王炳智 王皓晨  陈翔 曹金鑫 沈昊 徐梦奇  (74)专利代理 机构 南京经纬专利商标代理有限 公司 32200 专利代理师 张俊俊 (51)Int.Cl. G06F 8/73(2018.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06N 20/00(2019.01) (54)发明名称 一种基于预训练模型和空间结构信息的代 码注释生成方法 (57)摘要 本发明提供了一种基于预训练模型和空间 结构信息的代码注释生成方法, 属于计算机领 域。 解决了注释生成模型中代码特征提取部分缺 乏代码空间结构 的问题。 其技术方案为: 包括以 下步骤: S1: 抽取Java部分并进行预处理; S2: 使 用CodeBERT 提取代码语义特征, 并进行关键 特征 提取和降维; S3: 构建数据集的抽象语法树 (ASTs); S4: 构建GNN神经网络; S5: 将步骤S2中提 取的语义特征向量和步骤S3得到的ASTs信息输 入GNN模型; S6: 将步骤S2得到的语义特征信息和 步骤S5得到的结构特征信息结合; S7: 使用解码 器进行解码并输出注释。 本发明的有益效果为: 本发明提高注释生成的质量和可靠性。 权利要求书2页 说明书4页 附图1页 CN 115469925 A 2022.12.13 CN 115469925 A 1.一种基于预训练模型和 空间结构信息的代码注释生成方法, 其特征在于, 包括以下 步骤: S1、 将CodeSearchNet(CSN)基准数据集中的Java语言部分数据集抽取出来, 对该数据 集进行预处理操作, 得到数据集E, 设定数据集的格式为<代码, 注释>; S2、 使用CodeBERT提取代码语义特征, 并通过BERT ‑whitening进行关键特征提取和降 维, 得到代码语义特 征C; S3、 考虑数据集代码的抽象语法树(ASTs)信息, 并对其进行剪枝操作, 得到抽象语法树 A1及其邻接矩阵D, 其中, 邻接矩阵D根据抽象语法树A1的节点连接信息得到; S4、 对构建的数据集随机划分成训练集、 验证集和 测试集, 同时构建 GNN神经网络; S5、 将步骤S2中提取的语义特征向量C步骤S3得到的邻接矩阵D输入GNN神经网络, 输出 空间结构信息S; S6、 用所述步骤S2得到的语义特征信息C和所述步骤S5得到的空间结构特征信息S拼接 聚合, 并通过线性变换处 理得到最终的源代码特 征信息CS; S7、 使用Transformer解码器对所述步骤S6得到的最终特征信息CS进行解码并输出相 应代码注释。 2.根据权利要求1所述的基于预训练模型和空间结构信息的注释生成方法, 其特征在 于, 所述S2包括如下步骤: S21: 对于给定的代码段, 根据大小 写规则对其进行分割, 得到 输入序列; S22: 将序列输入到CodeBERT中, 提取输出中第一层和最后一层的隐藏状态, 并对它们 取平均值, 得到代码段的语义特 征向量; S23: 使用BERT ‑whitening来处理语义向量, 通过线性变换进行关键特 征提取和降维。 3.根据权利要求1所述的基于预训练模型和空间结构信息的注释生成方法, 其特征在 于, 所述S3包括如下步骤: S31: 首先根据so lidity‑parser‑antlr将代码生成相应的抽象语法树, 记作ASTs; S32: 使用L ouvain算法对抽象语法树进行剪枝, 减少冗余节点, 得到抽象语法树A1; S33: 根据抽象语法树A1的节点连接信息, 得到表示 其结构的邻接矩阵D。 4.根据权利要求1所述的基于预训练模型和空间结构信息的注释生成方法, 其特征在 于, 所述S4包括如下步骤: S41: 对于S1得到的数据集进行划分, 按照80%: 10%: 10%的比例进行随机划分训练 集、 测试集和验证集; S42: 构建的GN N神经网络使用注意力机制, 根据权 重对各节点进行聚合。 5.根据权利要求1所述的基于预训练模型和空间结构信息的注释生成方法, 其特征在 于, 所述步骤S5将步骤S2 中提取的语义特征向量C和步骤S3得到的邻接矩阵D作为GNN的输 入, 其最后输出为空间结构信息矩阵S。 6.根据权利要求1所述的基于预训练模型和空间结构信息的注释生成方法, 其特征在 于, 所述步骤S 6将步骤S2得到的语义特征信息C和所述步骤S 5得到的空间结构特征信息S拼 接聚合, 并通过线性变换处 理得到最终的源代码特 征信息CS。 7.根据权利要求1所述的基于预训练模型和空间结构信息的注释生成方法, 其特征在 于, 所述步骤S7使用Transformer解码器对所述步骤S6得到的最终特征信息CS进行解码并权 利 要 求 书 1/2 页 2 CN 115469925 A 2输出相应代码注释。 8.根据权利要求1所述的基于预训练模型和空间结构信息的注释生成方法, 其特征在 于, 基于预训练模型和空间结构信息的注释生成方法的最优参数设置如下: BERT‑whitening操作的维数 K: 256。权 利 要 求 书 2/2 页 3 CN 115469925 A 3

PDF文档 专利 一种基于预训练模型和空间结构信息的代码注释生成方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于预训练模型和空间结构信息的代码注释生成方法 第 1 页 专利 一种基于预训练模型和空间结构信息的代码注释生成方法 第 2 页 专利 一种基于预训练模型和空间结构信息的代码注释生成方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:07:04上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。