专利一种基于视听信息融合的地形分类方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221020493 0.3 (22)申请日 2022.03.02 (71)申请人东南大学地址 210096 江苏省南京市玄武区四牌楼 2 号 (72)发明人李旭　李春堂　韦坤　周晓晶　 (74)专利代理机构南京众联专利代理有限公司 32206 专利代理师许小莉 (51)Int.Cl. G06V 10/44(2022.01) G06V 10/56(2022.01) G06V 10/80(2022.01) G06V 10/764(2022.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G10L 25/30(2013.01) G10L 25/51(2013.01) (54)发明名称一种基于视听信息融合的地形分类方法 (57)摘要本发明公开了一种基于视听信息融合的地形分类方法，本方法首先控制车辆在不同地形上行驶，利用挂载在车辆底部的前向摄像机获取车辆行驶时的地形图像，同时利用声音传感器采集行驶过程中车辆与地面交互的声音信号；将视觉图像和声音信号进行预处理；接着分别提取视觉图像与声音信号的特征，提取的图像特征有图像的颜色直方图特征与局部二值化特征；将视觉特征与声音特征融合并进行特征降维；然后将降维后的特征向量和原始图像分别输入到设计的全连接神经网络分类器和残差网络分类器进行分类训练；最终分类决策结果由全连接神经网络分类器和残差网络分类器这两个分类器的输出加权求得。模型训练好之后利用所述模型进行在线地形分类。权利要求书3页说明书5页附图2页 CN 114792375 A 2022.07.26 CN 114792375 A 1.一种基于视听信息融合的地形分类方法，其特征在于，所述地形包括水泥路，淤泥，沙地，砾石以及草地；首先控制车辆在不同地形上行驶，利用车载摄像机获取车辆行驶时的地形的图像，摄像机挂载在车辆底部，指向车轮附近地面，同时利用声音传感器采集行驶过程中车辆与地面交互的声音信号；将视觉图像和声音信号进行预处理；接着分别提取视觉图像与声音信号的特征，提取的图像特征有图像的颜色直方图特征与局部二值化特征，提取的声音信号特征包括均值，最大值，最小值，过零次数，标准差，全变差，符号变换次数和自相关函数这8种时域特征，平均功率频率，中位频率，功率和，功率谱密度，快速傅里叶变换系数，离散余弦变换系数这6种频域特征以及小波分解之后的各层分解系数的峰值、均值，均方差值这3种时频域特征；将图像特征与声音特征融合并进行特征降维；然后将降维后的特征向量和原始图像分别输入到设计的全连接神经网络分类器和残差网络分类器进行分类训练；最终分类决策结果由全连接神经网络分类器和残差网络分类器这两个分类器的输出加权求得；模型训练好之后，用于实时在线获取视觉、声音信息，利用所述模型进行在线地形分类；具体实施步骤包括： 1)图像、声音信号采集控制车辆在不同地形上行驶，利用车载摄像机获取车辆行驶时的图像，摄像机挂载在车辆底部，指向车轮附近地面，同时利用声音传感器采集行驶过程中车辆与地面交互的声音信号，其中声音信号的采样频率为 100Hz，摄像机在车辆行驶过程中每秒采集一次地形的图像信息； 2)图像、声音信息预处理对于采集到的图像数据，首先进行下采样得到224*224的图像避免计算过于复杂，由于摄像机采集到的图像不可避免的包含噪声和冗余信息，所以将下采样后的图片采用中值滤波算子进行平滑去噪处理；对于声音信号，将样本片段的每个声音向量归一化为均值为0，标准差为1的形式，将上述预处理后的图像、声音数据一一对应形成样本集； 3)图像、声音特征提取对预处理之后的图像进行特征提取，本方法提取的图像特征有颜色直方图和局部二值模式特征，由于HSV颜色空间相比于RGB颜色空间更侧重于图像的色彩，饱和度与明亮程度，所以先将原始图像转换为HSV颜色空间，再提取图像的颜色直方图作为图像的颜色特征，并且采用LBP算法提取图像的纹理特征，其中LBP值具体计算方式如下：首先，将原始彩色图像转换为灰度图并且创建数组存放图像的LBP值，然后创建3*3的窗口，按照公式计算LBP值，其中， xc,yc为中心点的像素位置， bc 表示中心点的亮度值， bi表示相邻点的亮度值， p ＝8为中心点周围相邻像素个数；提取的声音信号特征分为时域特征、频域特征和时频域特征，其中时域特征有均值，最大值，最小值，过零次数，标准差，全变差，符号变换次数和自相关函数这8种时域特征；具体的标准差的计算公式为权　利　要　求　书 1/3 页 2 CN 114792375 A 2其中， σv为声音信号的标准差， N为采样点数， Vi代表第i个采样点的声音信号， Vmean是声音信号的平均值；全变差 δ 的计算方法为 Vi‑1代表第i‑1个采样点的声音信号；提取的频域特征有平均功率频率，中位频率，功率和，功率谱密度，快速傅里叶变换系数，离散余弦变换系数；具体的FFT系数的计算公式为其中， k＝0,1,2, …,N‑1， x(i)为原始声音信号， X(k)为F FT变换后的系数； DCT系数计算方法为其中，提取的时频域特征有小波分解之后的各层分解系数的峰值、均值和均方差值，本方法对声音信号采用db4小波基进行小波分解得到3层分解系数，进而获得每层分解系数的峰值、均值和均方差作为时频域特征； 4)特征融合与降维。将步骤3)提取到的特征进行串联形成n维的特征向量X＝(x1,x2,x3,…,xn)，将样本片段的特征向量组成的矩阵进行标准化处理后得到矩阵DATA，求DATA的特征协方差矩阵C，然后求C的特征值和特征向量并选择其中最大的前k个向量构成特征向量矩阵， k为所设置选取的特征向量个数，接着将所有样本点投影到选取的特征向量上，求得降维后的结果并将降维后的结果放入新的特征向量集； 5)将步骤4)降维之后的新特征向量和原始图像分别输入到设计的全连接神经网络分类器和残差网络分类器进行训练得到分类模型，其中分类模型的输出分别采用one ‑hot向量[1,0,0,0,0],[0,1,0,0,0],[0,0,1,0,0],[0,0,0,1,0],[0,0,0,0,1]来表示水泥路，淤泥，沙地，砾石以及草地这5种地形；其中所设计的全连接网络分类器输入层大小等于输入特征向量大小，输出层大小等于地形类别数量；所设计的残差网络分类器是基于resnet50 实现；由于图像输入到卷积神经网络后会生成多通道特征，但每个通道中的特征以及每个通道的重要程度是不同的，所以网络设计在resnet50的第一个7*7卷积之后和最后的全连接之前都加入了通道注意力机制和空间注意力机制，并且在注意力模型中加入了残差连接以更好地提取图像语义特征； 6)实时在线获取视觉与声音信息，执行步骤1)至步骤4)，利用步骤5)训练好的地形分权　利　要　求　书 2/3 页 3 CN 114792375 A 3

专利 一种基于视听信息融合的地形分类方法

专利一种基于视听信息融合的地形分类方法