专利一种基于联邦学习的模型训练方法、装置、设备及介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210433630.2 (22)申请日 2022.04.24 (71)申请人山东云海国创云计算装备产业创新中心有限公司地址 250000 山东省济南市中国（山东）自由贸易试验区济南片区浪潮路1036号浪潮科技园S01楼3 5层 (72)发明人王小伟　张旭　吴睿振　孙华锦　王凛　 (74)专利代理机构北京连和连知识产权代理有限公司 1 1278 专利代理师杨帆　张元 (51)Int.Cl. G06F 21/60(2013.01) G06F 21/62(2013.01)G06N 20/00(2019.01) H04L 9/40(2022.01) (54)发明名称一种基于联邦学习的模型训练方法、装置、设备及介质 (57)摘要本发明涉及一种基于联邦学习的模型训练方法、装置、设备及介质。该方法包括：建立全局参数模型并将全局参数模型发送给参与模型训练的各个客户端将参与模型训练的客户端划分成多个组；在客户端进行训练并将训练时使用的数据个数发送给服务器；基于数据个数计算每个客户端的加权系数并发送给客户端；使用预设加密算法对乘以加权系数后的梯度数据进行加密；基于预设算法整合同一组内各个客户端的加密数据以生成整合结果后发送给服务器；对各个组的整合结果使用预设解密算法进行解密后再求和以得到梯度加权平均值用以更新权重参数并发送给各客户端再次进行训练直至全局参数模型收敛。本发明的方案使服务器不能获取到用户模型参数保证数据安全。权利要求书3页说明书15页附图3页 CN 114817958 A 2022.07.29 CN 114817958 A 1.一种基于联邦学习的模型训练方法，其特征在于，所述方法包括：由服务器建立全局参数模型并将所述全局参数模型发送给参与模型训练的各个客户端；由服务器将参与模型训练的客户端划分成多个组，其中每个组均包括多个客户端；在每个客户端分别使用客户端本地数据训练各自的全局参数模型，并将训练时使用的数据个数发送给所述服务器；由所述服务器基于各个客户端的所述数据个数计算每个客户端的加权系数并发送给对应的客户端；在每个客户端使用预设加密算法对乘以加权系数后的梯度数据进行加密以得到加密数据；在客户端上基于预设算法整合同一组内各个客户端的加密数据以生成与每个组对应的整合结果后发送给服务器；由服务器对各个组的整合结果使用预设解密算法进行解密后再求和以得到梯度加权平均值，基于所述梯度加权平均值更新权重参数并将更新后的权重参数发送给各客户端；返回再次执行所述由服务器将参与模型训练的客户端划分成多个组的步骤直至客户端的全局参数模型收敛。 2.根据权利要求1所述的方法，其特征在于，所述方法还包括：由服务器根据数据最大比特位精度和梯度数据绝对值的上界利用下述公式一至公式六生成Pai llier算法的私钥和公钥，其中，所述私钥包括 λ和s，所述公钥包括 n,g,s； M＝M02ε 公式二； λ＝lcm(p‑1,q‑1) 公式三； s＝2ε 公式四； n＝pq 公式五； gcd(L(gλmodn2),n)＝1 公式六；其中， p,q为两个大素数， ε为数据最大比特位精度为， M0为梯度数据绝对值的上界为， lcm(a,b)表示a,b的最小公倍数， gcd(a,b)表示a,b的最大公约数，如果gcd(a,b)＝1称a与b 互素；表示集合{0,1, …,n‑1}；表示集合中与n互素元素的集合； amodc读作a模c，表示a除以c的余数,a＝bmodc表示a,b除以c的余数相同；如果ab＝1modc，表示b是a模c的乘法逆元，记做b＝a‑1modc，此时a也是b模c的乘法逆元；表示x向下取整，也就是小于等于x 的最大整数；如果对于集合Sn＝{u|u＝1modn}，定义Sn上的函数L 为将所述公钥发送给参与模型训练的每个客户端用以对梯度数据进行加密，将所述私钥保存在服务器本地用对每组客户端返回的加密数据进行解密。 3.根据权利要求2所述的方法，其特征在于，所述预设加密算法包括：基于所述公钥中的n,g,s和下述公式七至公式八对明文数据进行加密；权　利　要　求　书 1/3 页 2 CN 114817958 A 2c＝gm′rnmodn2 公式八；其中， m为任意的明文， c为加密密文，且r为随机数且r<n，所述预设解密算法包括：基于所述私钥中的λ、 s和下述公式九至公式十对密文进行解密以得到明文：其中， c为加密密文。 4.根据权利要求1或3所述的方法，其特征在于，所述由服务器将参与模型训练的客户端划分成多个组，其中每个组均包括多个客户端的步骤包括：获取每个参与模型训练的客户端的性质信息，其中所述性质信息包括网络带宽信息、客户端地域信息以及客户端之间的受信任程度信息；基于所述性质信息将网络带宽相似，和/或地域相近，和/或相互信任的客户端划分到同一组以得到多个组。 5.根据权利要求1或3所述的方法，其特征字在于，所述由所述服务器基于各个客户端的所述数据个数计算每个客户端的加权系数并发送给对应的客户端的步骤包括：计算所有客户端的数据个数之和；将每个客户端的数据个数分别与所有客户端的数据个数之和的比值作为每个客户端加权系数。 6.根据权利要求5所述的方法，其特征在于，所述在客户端上基于预设算法整合同一组内各个客户端的加密数据以生成与每个组对应的整合结果后发送给服务器的步骤包括：对同一组内的多个客户端进行排序；基于所述排序由组内的第一个客户端向第二个客户端发送加密后的数据，在第二个客户端内计算两个加密数据在模n2下对应项的乘积；基于所述排序将乘积发送给下一个客户端继续求对应项的乘积，直到发送给组内的最后一个客户端；在组内最后一个客户端上计算倒数第二个客户端发送的乘积与最后一个客户端加密数据在模n2下对应项的乘积作为整合结果发送至服务端。 7.根据权利要求5所述的方法，其特征在于，所述方法还包括：每个客户端在每次完成训练后计算训练后全局参数模型的损失函数值并将所述损失函数值发送给服务器；由所述服务器基于下述公式十一至公式十二计算平均损失函数值；权　利　要　求　书 2/3 页 3 CN 114817958 A 3

专利 一种基于联邦学习的模型训练方法、装置、设备及介质

专利一种基于联邦学习的模型训练方法、装置、设备及介质