(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221020493 0.3
(22)申请日 2022.03.02
(71)申请人 东南大学
地址 210096 江苏省南京市玄武区四牌楼 2
号
(72)发明人 李旭 李春堂 韦坤 周晓晶
(74)专利代理 机构 南京众联专利代理有限公司
32206
专利代理师 许小莉
(51)Int.Cl.
G06V 10/44(2022.01)
G06V 10/56(2022.01)
G06V 10/80(2022.01)
G06V 10/764(2022.01)
G06K 9/62(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
G10L 25/30(2013.01)
G10L 25/51(2013.01)
(54)发明名称
一种基于视听信息融合的地形分类方法
(57)摘要
本发明公开了一种基于视听信息融合的地
形分类方法, 本方法首先控制车辆在不同地形上
行驶, 利用挂载在车辆底部的前向摄像机获取车
辆行驶时的地形图像, 同时利用声音传感器采集
行驶过程中车辆与地面交互的声音信号; 将视觉
图像和声音信号进行预处理; 接着分别提取视觉
图像与声音信号的特征, 提取的图像特征有图像
的颜色直方图特征与局部二值化特征; 将视觉特
征与声音特征融合并进行特征降维; 然后将降维
后的特征向量和原始 图像分别输入到设计的全
连接神经网络分类器和残差网络分类器进行分
类训练; 最终分类决策结果由全 连接神经网络分
类器和残差网络分类器这两个分类器的输出加
权求得。 模 型训练好之后利用所述模 型进行在线
地形分类 。
权利要求书3页 说明书5页 附图2页
CN 114792375 A
2022.07.26
CN 114792375 A
1.一种基于视听信息融合的地形分类方法, 其特征在于, 所述地形包括水泥路, 淤泥,
沙地, 砾石以及草地; 首先控制车辆在不同地形上行驶, 利用车载摄像机获取车辆行驶时的
地形的图像, 摄像机挂载在车辆底部, 指向车轮附近地面, 同时利用声音传感器采集行驶过
程中车辆与地面交互的声音信号; 将视觉图像和声音信号进行预处理; 接着分别提取视觉
图像与声音信号的特征, 提取 的图像特征有图像的颜色直方图特征与局部二值化特征, 提
取的声音信号特征包括均值, 最大值, 最小值, 过零次数, 标准差, 全变差, 符号变换次数和
自相关函数这8种时域特征, 平均功率频率, 中位频率, 功率和, 功率谱密度, 快速傅里叶变
换系数, 离散余弦变换系数这6种频域特征以及小波分解之后的各层分解系数的峰值、 均
值, 均方差值这3种时频域特征; 将图像特征与声音特征融合并进行特征降维; 然后将降维
后的特征向量和原始图像分别输入到设计的全连接神经网络分类器和残差网络分类器进
行分类训练; 最 终分类决策结果由全连接神经网络 分类器和残差网络 分类器这两个分类器
的输出加权求得; 模型训练好之后, 用于实时在线获取视觉、 声音信息, 利用所述模型进行
在线地形分类;
具体实施步骤 包括:
1)图像、 声 音信号采集
控制车辆在不同地形上行驶, 利用车载摄像机获取车辆行驶时的图像, 摄像机挂载在
车辆底部, 指向车轮附近地面, 同时利用声音传感器采集行驶过程中车辆与地面交互的声
音信号, 其中声音信号的采样频率为 100Hz, 摄像机在车辆行驶过程中每秒采集一次地形的
图像信息;
2)图像、 声 音信息预处 理
对于采集到的图像数据, 首先进行下采样得到224*224的图像避免计算过于复杂, 由于
摄像机采集到的图像不可避免的包含噪声和冗余信息, 所以将下采样后的图片采用中值滤
波算子进行平滑去 噪处理; 对于声音信号, 将样本片段的每个声音向量归一化为均值为0,
标准差为1的形式, 将上述预处 理后的图像、 声 音数据一 一对应形成样本集;
3)图像、 声 音特征提取
对预处理之后的图像进行特征提取, 本方法提取的图像特征有颜色直方图和局部二值
模式特征, 由于HSV颜色空间相比于RGB颜色空间更侧重于图像的色彩, 饱和度与明亮程度,
所以先将原始图像转换为HSV颜色空间, 再提取图像的颜色直方图作为图像的颜色特征, 并
且采用LBP算法提取图像的纹理特征, 其中LBP值具体计算方式如下: 首先, 将原始彩色图像
转换为灰度图并且创建数组存放图像的LBP值, 然后创建3*3的窗口, 按照公式
计算LBP值, 其 中,
xc,yc为中心点的像素位置, bc
表示中心点的亮度值, bi表示相邻点的亮度值, p =8为中心点周围相邻像素个数; 提取的声
音信号特征分为时域特征、 频域特征和时频域特征, 其中时域特征有均值, 最大值, 最小值,
过零次数, 标准差, 全变差, 符号变换次数和自相关函数这8种时域特 征;
具体的标准差的计算公式为
权 利 要 求 书 1/3 页
2
CN 114792375 A
2其中, σv为声音信号的标准差, N为采样点数, Vi代表第i个采样点的声音信号, Vmean是声
音信号的平均值;
全变差 δ 的计算方法为
Vi‑1代表第i‑1个采样点的声 音信号;
提取的频域特征有平均功率频率, 中位频率, 功率和, 功率谱密度, 快速傅里叶变换系
数, 离散余弦变换系数;
具体的FFT系数的计算公式为
其中, k=0,1,2, …,N‑1, x(i)为原 始声音信号, X(k)为F FT变换后的系数;
DCT系数计算方法为
其中,
提取的时频域特征有小波分解之后的各层分解系数的峰值、 均值和均方差值, 本方法
对声音信号采用db4小波基进行小波分解得到3层分解系数, 进而获得每层分解系数的峰
值、 均值和均方差作为时频域特 征;
4)特征融合与降维。
将步骤3)提取到的特征进行串联形 成n维的特征向量X=(x1,x2,x3,…,xn), 将样本片段
的特征向量组成的矩阵进 行标准化处理后得到矩阵DATA, 求DATA的特征协方差矩阵C, 然后
求C的特征值和特征向量并选择其中最大的前k个 向量构成特征向量矩阵, k为所设置选取
的特征向量个数, 接着将所有样本点投影到选取 的特征向量上, 求得降维后的结果并将降
维后的结果 放入新的特 征向量集;
5)将步骤4)降维之后的新特征向量和原始图像分别输入到设计的全连接神经网络分
类器和残差网络分类器进行训练得到分类模型, 其中分类模型的输出分别采用one ‑hot向
量[1,0,0,0,0],[0,1,0,0,0],[0,0,1,0,0],[0,0,0,1,0],[0,0,0,0,1]来表示水泥路, 淤
泥, 沙地, 砾石以及草地这5种地形; 其中所设计的全连接网络分类器输入层大小等于输入
特征向量大小, 输出层大小等于地形类别数量; 所设计的残差网络分类器是基于resnet50
实现; 由于图像输入到卷积神经网络后会生成多通道特征, 但每个通道中的特征以及每个
通道的重要程度是不同的, 所以网络设计在resnet50的第一个7*7卷积之后和最后的全连
接之前都加入了通道注意力机制和空间注意力机制, 并且在注意力模型中加入了残差连接
以更好地提取图像 语义特征;
6)实时在线获取视觉与声音信息, 执行步骤1)至步骤4), 利用步骤5)训练好的地形分权 利 要 求 书 2/3 页
3
CN 114792375 A
3
专利 一种基于视听信息融合的地形分类方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:06:59上传分享