(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211173732.1
(22)申请日 2022.09.26
(71)申请人 河南垂天科技有限公司
地址 458000 河南省鹤壁市淇滨区湘江东
路国立光电2#科研楼3 06室
(72)发明人 朱明甫 倪水平 马新良 张威
马传琦 洪振东 朱智丹 常月光
李炳伸
(74)专利代理 机构 南京品智知识产权代理事务
所(普通合伙) 32310
专利代理师 张明昌
(51)Int.Cl.
G06V 10/764(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种用于图像分类模型训练的自蒸馏训练
方法
(57)摘要
本发明提出的是一种用于图像分类模型训
练的自蒸馏训练方法, 该方法包括: 1、 针对 图像
分类模型完成自蒸馏框架的搭建; 2、 将深层分类
器划分出四个模块: 在第一个模块的基础上依次
增加第一注意力模块、 第一浅层模块、 第一全连
接层作为第一浅层分类器; 在第一个模块与第二
个模块的基础上依次增加第二注 意力模块、 第二
浅层模块、 第二全连接层作为第二浅层分类器;
在第一个模块、 第二个模块、 第三个模块的基础
上依次增加第三注意力模块、 第三浅层模块、 第
三全连接层作为第三浅层分类器; 在第一浅层模
块的基础上增加第四全 连接层, 在第二浅层模块
的基础上增加第五全连接层; 3、 使用数据集来进
行自蒸馏训练, 得到一个深层分类器和三个浅层
分类器。
权利要求书3页 说明书15页 附图5页
CN 115512156 A
2022.12.23
CN 115512156 A
1.一种用于图像分类模型训练的自蒸馏训练方法, 其特 征是包括:
1、 将图像分类模型自身作为深层分类 器, 使用深层分类 器作为教师网络;
2、 将深层分类器按照网络深度划分出四个模块: 第一个模块(Block1)、 第二个模块
(Block2)、 第三个模块(Block3)、 第四个模块(Block4); 在第一个模块的基础上依次增加第
一注意力模块、 第一浅层 模块、 第一全连接层作为第一浅层分类器; 在第一个模块与第二个
模块的基础上依 次增加第二注意力模块、 第二浅层模块、 第二全连接层作为第二浅层分类
器; 在第一个模块、 第二个模块、 第三个模块的基础上依次增加第三注意力模块、 第三浅层
模块、 第三全连接层作为第三浅层分类器; 将第一浅层分类器、 第二浅层分类器、 第三浅层
分类器全部作为学生网络; 同时, 在第一浅层 模块的基础上增加 第四全连接层, 在第二浅层
模块的基础上增 加第五全连接层;
3、 使用数据集 来进行自蒸馏训练, 得到一个深层分类 器和三个浅层分类 器。
2.根据权利要求1所述的一种用于图像分类模型训练的自蒸馏训练方法, 其特征是所
述深层分类器的第四个模块包含卷积模块与输出模块两个模块; 在深层分类器第四个模块
内卷积模块的基础上增加自适应平均池化层, 用于辅助自蒸馏训练, 便于深层分类器第四
个模块内卷积模块的 “知识”通过第四全连接层传授给第一浅层 模块, 通过第五全连接层传
授给第二浅层模块。
3.根据权利要求1所述的一种用于图像分类模型训练的自蒸馏训练方法, 其特征是所
述第一个模块(Block1)的输出特征图output1, 作为第二个模块(Block2)的输入特征图, 同
时也作为第一注 意力模块的输入 特征图; 第二个模块(Block2)的输出特征图outp ut2, 作为
第三个模块(Block3)的输入特征图, 同时也作为第二注意力模块的输入特征图; 第三个模
块(Block3)的输出特征图outp ut3, 作为第四个模块(Block4)的输入特征图, 同时也作为第
三注意力模块的输入特征图; 在第四个模块(Block4)内部, 第四个模块卷积模块的输出特
征图作为自适应平均池化层的输入特征图, 同样也作为第四个模块中输出模块的输入特征
图。
4.根据权利要求3所述的一种用于图像分类模型训练的自蒸馏训练方法, 其特征是所
述第一注意力模块对输入特 征图output1的处 理流程具体包括如下步骤:
1)将尺寸为H' ×W'×C'的输入特征图output1按照通道数C'分为n组, 得到n个尺寸为
H'×W'×C'/n的中间特 征图bi(i =1,2,…,n);
2)经过全局平均池化层对中间特征图bi(i=1,2, …,n)进行全局平均池化, 得到n个尺
寸为1×1×C'/n的第一特征图gi(i=1,2, …,n), 将第一特征图与中间特征图进行对位点
乘,即第一特征图gi与中间特征图bi对位点乘(i=1,2, …,n)得到n个初始注意力掩码ci(i
=1,2,…,n), 对n个初始注意力掩码ci(i=1,2, …,n)中的每一个初始注意力掩码分别求
均值与标准差, 将每一个初始注意力掩码进行标准化处理, 得到n个H' ×W'×1的第二特征
图di(i=1,2,…,n);
3)将n个第二特征图di(i=1,2, …,n)中的每一个第二特征图使用Sigmoid函数激活得
到最终的n个注 意力掩码ei(i=1,2, …,n), n个注 意力掩码ei(i=1,2, …,n)分别与相应组
别的n个中间特征图b i(i=1,2, …,n)对位点乘, 最终得到n个尺寸为H' ×W'×C'/n的小组
输出特征图fi(i=1,2, …,n); 之后将这n个尺寸为H' ×W'×C'/n的小组输出特征图fi(i=
1,2,…,n)拼接为最终 的尺寸为H' ×W'×C'的输出特征图J1, 输出特征图J1与输入特征图权 利 要 求 书 1/3 页
2
CN 115512156 A
2output1尺寸相同; 第二注意力模块、 第三注意力模块对各自输入特征图output2、 输入 特征
图output3的处理流程与第一注 意力模块对输入 特征图outp ut1处理流程完全相同, 第二注
意力模块的输出特征图J2与第二注意力模块的输入特征图output2尺寸相同; 第三注意力
模块的输出 特征图J3与第三注意力模块的输入特 征图output3尺寸相同。
5.根据权利要求1所述的一种用于图像分类模型训练的自蒸馏训练方法, 其特征是所
述第一浅层 模块、 第二浅层 模块、 第三浅层 模块分别为模块深度不同的浅层 模块; 所述第一
浅层模块包含了三组模块结构和一个自适应平均池化层; 第一注意力模块的输出特征图J1
作为第一浅层模块内三组模块结构中的第一组模块结构的输入特征图经过第一组模块的
处理之后, 得到输出特征图R1_1作为第二组模块结构的输入特征图, 特征图R1_1经过第二
组模块的处理之后, 得到第二组模块结构的输出特征图R1_2作为第三组模块结构的输入特
征图, 特征图R1_2经过第三组模块的处理之后得到第三组模块结构的输出特征图R1_3, 第
三组模块结构的输出特征图R1_3作为第一浅层 模块最后自适应平均池化层的输入 特征图,
经过自适应平均池化层处 理后得到 输出特征图R1_4。
6.根据权利要求5所述的一种用于图像分类模型训练的自蒸馏训练方法, 其特征是所
述第一浅层 模块中的三组模块结构中的每一组模块结构完全相同, 每一组模块结构均包含
步距为2的第一个深度卷积层、 步距为1的第一个逐点卷积层、 步距为1的第二个深度卷积
层、 步距为1的第二个逐点卷积层与第一浅层注意力模块。
7.根据权利要求1所述的一种用于图像分类模型训练的自蒸馏训练方法, 其特征是所
述第二浅层 模块包含了两组模块结构和一个自适应平均池化层; 第二注意力模块的输出特
征图J2作为第二浅层模块内两组模块结构 中的第一组模块结构的输入特征图经过第一组
模块的处理之后, 得到输出特征图R2_1作为第二组模块结构的输入特征图, 输入特征图R2_
1经过第二组模块结构的处理之后, 得到第二组模块结构的输出特征图R2_2; 输出特征图
R2_2作为第二浅层 模块最后自适应平均池化层的输入特征图, 经过自适应平均池化层处理
后得到输出特征图R2_3 。
8.根据权利要求7所述的一种用于图像分类模型训练的自蒸馏训练方法, 其特征是所
述第二浅层 模块中的两组模块结构中的每一组模块结构完全相同, 每一组模块结构均包含
步距为2的第一个深度卷积层、 步距为1的第一个逐点卷积层、 步距为1的第二个深度卷积
层、 步距为1的第二个逐点卷积层与第二浅层注意力模块。
9.根据权利要求1所述的一种用于图像分类模型训练的自蒸馏训练方法, 其特征是所
述第三浅层 模块包含了一组模块结构和一个自适应平均池化层; 第三注意力模块的输出特
征图J3作为第三浅层 模块内模块结构的输入特征图经过模块结构的处理之后, 得到输出特
征图R3_1, 输出特征图R3_1作为第三浅层模块最后自适应平均池化层的输入特征图, 经过
自适应平均池化层处理后得到输出特征图R3_2; 所述第三浅层 模块中的一组模块结构包含
步距为2的第一个深度卷积层、 步距为1的第一个逐点卷积层、 步距为1的第二个深度卷积
层、 步距为1的第二个逐点卷积层与第三浅层注意力模块。
10.根据权利要求1所述的一种用于图像分类模型训练 的自蒸馏训练方法, 其特征是所
述使用数据集 来进行自蒸馏训练, 具体包括如下步骤:
首先, 对CIFAR 10数据集的训练集与CIFAR 100数据集的训练集进行如
专利 一种用于图像分类模型训练的自蒸馏训练方法
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:04:33上传分享