全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210744890.1 (22)申请日 2022.06.27 (71)申请人 清华大学 地址 100084 北京市海淀区双清路3 0号清 华大学清华园北京 100084-82信箱 (72)发明人 詹仙园 张文嘉  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 张晓霞 (51)Int.Cl. G06F 30/20(2020.01) G09B 9/04(2006.01) G06F 119/14(2020.01) (54)发明名称 一种动力学模型支持的有偏好模仿学习方 法及系统 (57)摘要 本发明提供一种动力学模型支持的有偏好 模仿学习方法及系统包括: 获取自动驾驶训练所 需要的训练样本集, 其中, 所述训练样本包含离 线专家数据集和动力学模型数据集; 通过预设的 判别器输 出加权值训练驾驶模仿策略模型; 通过 训练后的驾驶模仿策略模型, 对自动驾驶车辆进 行模仿训练。 本发明解决了 现有模仿学习可用专 家数据有限、 训练成本高、 效率低的缺陷, 以实现 快速高效的有偏好模仿学习。 权利要求书2页 说明书8页 附图10页 CN 115099037 A 2022.09.23 CN 115099037 A 1.一种动力学模型支持的有偏好模仿学习方法, 其特 征在于, 包括: 获取自动驾驶训练所需要的训练样本集, 其中, 所述训练样本包含离线专家数据集和 动力学模型 数据集; 通过预设的判别器输出加权值训练驾驶模仿策略模型; 通过训练后的驾驶模仿策略模型, 对自动驾驶车辆进行模仿训练。 2.根据权利要求1所述的动力学模型支持的有偏好模仿学习方法, 其特征在于, 通过预 设的判别器输出加权值训练驾驶模仿策略模型, 具体包括: 所述离线专 家数据集和动力学模型 数据集输入至判别器中, 输出判断样本真实程度; 利用判别器输出加权值对驾驶模仿策略模型进行训练, 学习专 家数据; 其中, 所述动力学模型数据集是通过动力学模型对离线专家数据集进行学习所生成 的。 3.根据权利要求2所述的动力学模型支持的有偏好模仿学习方法, 其特征在于, 所述动 力学模型 数据集是通过动力学模型对离线专 家数据集进行 学习所生成的, 具体包括: 将离线专 家数据集输入至动力学模型; 所述动力学模型根据离线专家数据集中的专家数据进行学习, 并进行数据扩增, 生成 动力学模型 数据集; 所述动力学模型 数据集中包括真实专 家数据和伪专 家数据。 4.根据权利要求2所述的动力学模型支持的有偏好模仿学习方法, 其特征在于, 所述离 线专家数据集和动力学模型 数据集输入至判别器中, 输出判断样本真实程度, 具体包括: 所述判别器对输入的离线专家数据集和动力学模型数据集进行判定, 判别出真实的专 家数据; 所述真实的专 家数据为真值样本, 提升真实的专 家数据的权 重。 5.根据权利要求4所述的动力学模型支持的有偏好模仿学习方法, 其特征在于, 所述真 实的专家数据为真值样本, 提升真实的专 家数据的权 重, 具体包括: 判别器判断出的数据包括真实的专 家数据和伪专 家数据; 对于真值样本提升 权重, 对于伪专 家数据降低权 重系数; 判别器根据权 重系统的不同, 输出加权值。 6.根据权利要求5所述的动力学模型支持的有偏好模仿学习方法, 其特征在于, 所述判 别器与动力学模型进行对抗耦合训练, 将判别器判断的结果反馈至动力学模型, 使动力学 模型调整学习策略, 学习更多真实数据。 7.根据权利要求1所述的动力学模型支持的有偏好模仿学习方法, 其特征在于, 所述通 过训练后的驾驶模仿策略模型, 对自动驾驶车辆进行模仿训练, 具体包括: 通过判别器输出加权值对驾驶模仿策略模型进行训练, 修正模仿学习策略, 生成修正 后的驾驶模仿策略模型; 所述修正后的驾驶模仿策略模型对真实的专家数据进行模仿学习, 模仿专家数据集对 应的功能。 8.一种动力学模型支持的有偏好模仿学习 系统, 其特 征在于, 所述系统包括: 数据获取模块, 获取自动驾驶训练所需要的训练样本集, 其中, 所述训练样本包含离线 专家数据集和动力学模型 数据集;权 利 要 求 书 1/2 页 2 CN 115099037 A 2模仿学习模块, 通过 预设的判别器输出加权值训练驾驶模仿策略模型; 训练模块, 通过训练后的驾驶模仿策略模型, 对自动驾驶车辆进行模仿训练。 9.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运 行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至7任一项所 述一种动力学模型支持的有偏好模仿学习方法。 10.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算 机程序被处理器执行时实现如权利要求1至7任一项所述一种动力学模型支持的有偏好模 仿学习方法。权 利 要 求 书 2/2 页 3 CN 115099037 A 3

.PDF文档 专利 一种动力学模型支持的有偏好模仿学习方法及系统

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种动力学模型支持的有偏好模仿学习方法及系统 第 1 页 专利 一种动力学模型支持的有偏好模仿学习方法及系统 第 2 页 专利 一种动力学模型支持的有偏好模仿学习方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 思考人生 于 2024-02-07 20:36:35上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。