专利一种动力学模型支持的有偏好模仿学习方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210744890.1 (22)申请日 2022.06.27 (71)申请人清华大学地址 100084 北京市海淀区双清路3 0号清华大学清华园北京 100084-82信箱 (72)发明人詹仙园　张文嘉　 (74)专利代理机构北京路浩知识产权代理有限公司 11002 专利代理师张晓霞 (51)Int.Cl. G06F 30/20(2020.01) G09B 9/04(2006.01) G06F 119/14(2020.01) (54)发明名称一种动力学模型支持的有偏好模仿学习方法及系统 (57)摘要本发明提供一种动力学模型支持的有偏好模仿学习方法及系统包括：获取自动驾驶训练所需要的训练样本集，其中，所述训练样本包含离线专家数据集和动力学模型数据集；通过预设的判别器输出加权值训练驾驶模仿策略模型；通过训练后的驾驶模仿策略模型，对自动驾驶车辆进行模仿训练。本发明解决了现有模仿学习可用专家数据有限、训练成本高、效率低的缺陷，以实现快速高效的有偏好模仿学习。权利要求书2页说明书8页附图10页 CN 115099037 A 2022.09.23 CN 115099037 A 1.一种动力学模型支持的有偏好模仿学习方法，其特征在于，包括：获取自动驾驶训练所需要的训练样本集，其中，所述训练样本包含离线专家数据集和动力学模型数据集；通过预设的判别器输出加权值训练驾驶模仿策略模型；通过训练后的驾驶模仿策略模型，对自动驾驶车辆进行模仿训练。 2.根据权利要求1所述的动力学模型支持的有偏好模仿学习方法，其特征在于，通过预设的判别器输出加权值训练驾驶模仿策略模型，具体包括：所述离线专家数据集和动力学模型数据集输入至判别器中，输出判断样本真实程度；利用判别器输出加权值对驾驶模仿策略模型进行训练，学习专家数据；其中，所述动力学模型数据集是通过动力学模型对离线专家数据集进行学习所生成的。 3.根据权利要求2所述的动力学模型支持的有偏好模仿学习方法，其特征在于，所述动力学模型数据集是通过动力学模型对离线专家数据集进行学习所生成的，具体包括：将离线专家数据集输入至动力学模型；所述动力学模型根据离线专家数据集中的专家数据进行学习，并进行数据扩增，生成动力学模型数据集；所述动力学模型数据集中包括真实专家数据和伪专家数据。 4.根据权利要求2所述的动力学模型支持的有偏好模仿学习方法，其特征在于，所述离线专家数据集和动力学模型数据集输入至判别器中，输出判断样本真实程度，具体包括：所述判别器对输入的离线专家数据集和动力学模型数据集进行判定，判别出真实的专家数据；所述真实的专家数据为真值样本，提升真实的专家数据的权重。 5.根据权利要求4所述的动力学模型支持的有偏好模仿学习方法，其特征在于，所述真实的专家数据为真值样本，提升真实的专家数据的权重，具体包括：判别器判断出的数据包括真实的专家数据和伪专家数据；对于真值样本提升权重，对于伪专家数据降低权重系数；判别器根据权重系统的不同，输出加权值。 6.根据权利要求5所述的动力学模型支持的有偏好模仿学习方法，其特征在于，所述判别器与动力学模型进行对抗耦合训练，将判别器判断的结果反馈至动力学模型，使动力学模型调整学习策略，学习更多真实数据。 7.根据权利要求1所述的动力学模型支持的有偏好模仿学习方法，其特征在于，所述通过训练后的驾驶模仿策略模型，对自动驾驶车辆进行模仿训练，具体包括：通过判别器输出加权值对驾驶模仿策略模型进行训练，修正模仿学习策略，生成修正后的驾驶模仿策略模型；所述修正后的驾驶模仿策略模型对真实的专家数据进行模仿学习，模仿专家数据集对应的功能。 8.一种动力学模型支持的有偏好模仿学习系统，其特征在于，所述系统包括：数据获取模块，获取自动驾驶训练所需要的训练样本集，其中，所述训练样本包含离线专家数据集和动力学模型数据集；权　利　要　求　书 1/2 页 2 CN 115099037 A 2模仿学习模块，通过预设的判别器输出加权值训练驾驶模仿策略模型；训练模块，通过训练后的驾驶模仿策略模型，对自动驾驶车辆进行模仿训练。 9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述一种动力学模型支持的有偏好模仿学习方法。 10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述一种动力学模型支持的有偏好模仿学习方法。权　利　要　求　书 2/2 页 3 CN 115099037 A 3

专利 一种动力学模型支持的有偏好模仿学习方法及系统

专利一种动力学模型支持的有偏好模仿学习方法及系统