(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210370651.4
(22)申请日 2022.04.10
(71)申请人 复旦大学
地址 200433 上海市杨 浦区邯郸路2 20号
(72)发明人 颜波 谭伟敏 邢稹 何瑞安
(74)专利代理 机构 上海正旦专利代理有限公司
31200
专利代理师 陆飞 陆尤
(51)Int.Cl.
G06V 40/16(2022.01)
G06V 10/80(2022.01)
G06V 10/44(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于协同特征补全的有遮挡场景下的人脸
表情识别方法
(57)摘要
本发明属于数字图像处理技术领域, 具体为
一种基于协同特征补全的有遮挡场景下的人脸
表情识别方法。 本发明联合遮挡物 抠除与特征补
全来应对遮挡给表情识别带来的影 响, 具体步骤
包括: 使用遮挡物抠除模块检测并抠除人脸遮挡
图像中的遮挡物; 根据成对的无遮挡图像生成类
别激活图以确定表情识别时具有判别性的区域;
结合类别激活图与遮挡物位置掩码生成最终需
要进行特征补全区域的掩码, 在对应无遮挡图像
中间特征图的指导下进行特征补全。 实验结果表
明, 本发明能检测出破坏人脸完整性的遮挡物并
识别该图像对应的表情类别。
权利要求书3页 说明书5页 附图1页
CN 114821714 A
2022.07.29
CN 114821714 A
1.一种基于协同特征补全的有遮挡场景下的人脸表情识别方法, 其特征在于, 包括: 使
用遮挡物抠除模块检测并抠除人脸遮挡图像中的遮挡物; 根据成对的无遮挡图像生成类别
激活图以确定表情识别时具有判别性的区域; 结合类别激活图与遮挡物位置掩码生成最 终
需要进行特征补全区域的掩码, 在对应无遮挡图像中间特征图的指导下进行特征补全; 具
体步骤为:
(1)构建无遮挡图像分类模块, 作为整个网络的一个分支, 仅在网络训练阶段使用, 用
于: 对无遮挡人脸表情图像进 行分类, 获取该图像属于不同类别的概率分布, 确定对表情判
别较为重要的区域以及为有遮挡图像特 征补全及分类模块的特 征补全提供指导;
(2)构建遮挡物抠除模块, 用于检测并抠除人脸遮挡图像中的遮挡物;
(3)构建有遮挡图像特征补全及 分类模块, 作为整个网络的另一个分支, 用于对抠除遮
挡后的人脸表情图像进行 特征补全和分类, 获取 该图像属于不同类别的概 率分布。
2.根据权利要求1所述的人脸表情识别方法, 其特征在于, 步骤(1)中, 所述无遮挡图像
分类模块采用ResNet ‑50的结构, 具体包括卷积层、 全局平均池化层(GAP)和全连接层; 其
中, 卷积层分为5个stage, 依次记为C1、 C2、 C3、 C4、 C5, 相对应地, 其提取的特征由浅层纹理
特征过渡到深层语义特征; C1 stage包含一个卷积层、 批归一化层和ReLU激活函数, 用于对
输入图像的预处理; C2,C3,C4,C5 stage分别包含3、 4、 6、 3个残差块; 记C3 stage输出的中
间层过渡特征为hclean, C5 stage之后、 全局平均池化层之前的特征图为f, 全连接层对应的
权值矩阵为w; 该 分支模块用于对 输入的无遮挡人脸表情图像xclean进行分类, 获取该图像属
于不同类别的概率分布
并生成该图像对应真实表情类别yGT的类激活图CAMyGT, 具体
表示为:
其中,
为全连接层对 应权值矩阵中对 应类别yGT的第k个单元的取值; fk(u,v)为特征
图f在空间位置(u,v)处第k个单 元的激活值;
对CAMyGT进行上采样至hclean大小并做最大最小归一化处理, 得到CAM'yGT, 对其进行二值
化, 设定二 值化阈值Tkey, 得到表情判别重要区域的二 值掩码MCAM:
其中, Tkey为二值化阈值; MCAM中每个位置的像素值表示hclean中对应位置的像素属于表
情判别重要区域的概 率值。
3.根据权利要求2所述的人脸表情识别方法, 其特征在于, 步骤(2)中所述遮挡物抠除
模块采用U ‑Net结构, 包括3个卷积块、 3个残差块和3个反卷积块; 其中, 每个卷积块包含一
个卷积层、 实例归一化层及ReLU激活函数; 卷积层中步长为2, 用于降低特征图分辨率; 反卷
积块中包含一个反卷积层、 实例归一化层及ReLU激活函数, 用于对特征图进 行上采样; 残差
块由两个堆叠的基础卷积块和跳跃连接构成, 其中每个基础卷积块包含一个卷积层、 实例
归一化层及ReLU激活函数; 残差块不改变特征图分辨率; 记有遮挡人脸表情图像为xocc, 将
其输入该模块后得到一张与xocc大小相同的掩码Morigin; 对Morigin进行最大最小归一化处理,
得到M′origin, 设定二值化阈值Tmask, 计算最终的二 值掩码Mocc:权 利 要 求 书 1/3 页
2
CN 114821714 A
2其中, Mocc为指示遮挡物位置及形状的二值掩码, 其中每个位置的像素值表示原图中对
应位置的像素不是遮挡物的概 率;
然后, 将有遮挡人脸表情图像xocc与二值掩码Mocc做逐像素乘法, 得到抠 除遮挡物之后
的人脸表情图像xfilter。
4.根据权利要求3所述的人脸表情识别方法, 其特征在于, 步骤(3)中所述有遮挡图像
特征补全及分类模块采用ResNet ‑50的结构, 具体包括卷积层、 全局平均池化层(GAP)和 全
连接层; 其中, 卷积层分为5个stage, 依次记为C1、 C2、 C3、 C4、 C5, 相对应地, 其提取的特征由
浅层纹理特征过渡到深层语义特征; C1 stage包含一个卷积层、 批归一化层和ReLU激活函
数, 用于对输入图像的预处理; C2,C3,C4,C5 stage分别包含3、 4、 6、 3个残差块; 记C3 stage
输出的中间层过渡特征为hocc; 将抠除遮挡物之后的人脸表情图像xfilter作为该模块输入,
结合步骤(1)给出的中间特征图hclean、 表情判别重要区域的二值掩码MCAM和步骤(2)中给出
的二值掩码Mocc对xfilter进行特征补全和分类, 获取该图像属于不同类别的概率分布
其
中:
对抠除遮挡后的人脸表情图像xfilter进行特征补全的方法如下:
将遮挡物抠除模块生成的遮挡物掩码Mocc缩放至hclean的大小, 得到M'occ, 而后融合无遮
挡图像分类模块生成的表情判别重要区域的掩码MCAM与M'occ, 得到最终需要进行特征补全
区域的二 值掩码Mfuse:
Mfuse(x,y)=M ′occ(x,y)|MCAM(x,y), (4)
其中, |表示逻辑或;
然后, 利用二值掩码Mfuse确定特征补全区域, 以无遮挡图像中间特征图hclean指导有遮
挡图像中间特 征图hocc的特征补全, 对应的特 征补全损失函数如下:
其中,
表示逐元素乘法。
5.根据权利要求1 ‑4之一所述的人脸表情识别方法, 其特征在于, 网络模型的训练基于
合成的遮挡表情数据集进 行, 即将收集到的遮挡物图像随机粘贴在无遮挡的人脸表情图像
上, 得到成对的有遮挡和无遮挡的人脸表情图像(xocc,xclean)以及指示遮挡物位置和形状的
掩码M;
网络模型的训练分为预训练和训练两 部分;
预训练阶段, 训练无遮挡图像分类模块和遮挡物抠除模块; 对于无遮挡图像分类模块
的约束为:
其中, CE(·)代表交叉熵损失函数;
对于遮挡物抠除模块的约束为:
LODM=BCE(Morigin,M)+||Morigin,M||1; (7)
二者训练完毕后参数被固定下来;权 利 要 求 书 2/3 页
3
CN 114821714 A
3
专利 基于协同特征补全的有遮挡场景下的人脸表情识别方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:06:50上传分享