专利一种用于纵向联邦学习数据对齐的隐匿集合求交方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210995361.9 (22)申请日 2022.08.18 (71)申请人西安电子科技大学地址 710071 陕西省西安市太白南路2号 (72)发明人马卓　杨昊　刘洋　李腾　张俊伟　杨易龙　 (74)专利代理机构陕西电子工业专利中心 61205 专利代理师陈宏社　王品华 (51)Int.Cl. H04L 9/40(2022.01) H04L 9/06(2006.01) H04L 9/08(2006.01) H04L 9/20(2006.01) (54)发明名称一种用于纵向联邦学习数据对齐的隐匿集合求交方法 (57)摘要本发明提出了一种用于纵向联邦学习数据对齐的隐匿集合求交方法，实现步骤为：两个用户初始化相应参数；两个用户分别将各自的用户信息和关键键值信息进行映射；两个用户对各自映射后的哈希表进行编码；两个用户对编码后结果进行混淆和共享；两个用户交换混淆信息共享值，计算得到隐匿集合求交结果。本发明在用户对编码结果进行混淆阶段，是通过不经意混淆网络协议和随机选取的重排列规则对两用户的编码数据进行混淆，避免了现有技术由于仅对发送方数据进行了随机置换导致的接收方可以通过计算得知的求交结果的明文信息反推出其他参与方样本的关键键值信息和相关数据的缺陷，有效提高了数据求交过程中的数据隐私安全性。权利要求书3页说明书7页附图1页 CN 115378693 A 2022.11.22 CN 115378693 A 1.一种用于纵向联邦学习数据对齐的隐匿集合求交方法，其特征在于，包括如下步骤： (1)初始化参数：初始化包括来自不同类型机构的两个参与方用户A和用户B的纵向联邦学习系统，用户 A参与求交的用户信息为X0＝{X01,X02,...,X0n,...,X0N}， X0对应的关键键值信息为D0＝ {D01,D02,...,D0n,...,D0N}，用户B参与求交的用户信息为X1＝{X11,X12,...,X1n,...,X1N}， X1 对应的关键键值信息为D1＝{D11,D12,...,D1n,...,D1N}，用户A待映射的布谷鸟哈希表S0和用户B待映射的简单哈希表S1均包括M个分箱，用户A构建布谷鸟哈希表S0和用户B构建简单哈希表S1所用的哈希函数为F＝{f1,f2,...,fk,...,fK}，其中， X0n表示A的第n个用户信息， D0n表示X0n对应的关键键值信息， X1n表示B的第n个用户信息， D1n表示X1n对应的关键键值信息， N表示用户A、用户B参与求交的用户信息的总数， N≥1， M＝εN， ε表示超参数， ε≥1， fk表示第k个哈希函数， K表示哈希函数的总数， 1≤K≤ M； (2)两个用户分别对各自的用户信息和关键键值信息进行映射：用户A采用布谷鸟哈希表映射函数FC将第n个用户信息X0n及其对应的关键键值信息D0n 映射至布谷鸟哈希表S0中的一个分箱中，得到X0n所在分箱映射值为D0,n||X0,n、其余M‑N个分箱为空的布谷鸟哈希表S ′0；用户B采用简单哈希表映射函数FS将第n个用户信息X1n及其对应的关键键值信息D1n映射至简单哈希表S1中的K个分箱中，得到X1n所在第fk(D1,n||X1,n)个分箱的值为D1,n||X1,n的简单哈希表S′1； (3)两个用户对哈希表S′0、 S′1进行编码： (3a)用户A生成伪随机函数的密钥kA，用户B生成伪随机函数的密钥kB； (3b)用户A和用户B按照不经意伪随机函数协议FOPRF，并通过kB对布谷鸟哈希表S ′0进行编码，得到用户A的编码后的布谷鸟哈希表 (3c)用户A对编码后的布谷鸟哈希表中的每个空分箱进行随机填充，并对随机填充得到的包含N个映射值和M ‑N个填充有随机值的布谷鸟哈希表复制logN ‑1次，然后通过 kA对由随机填充后的布谷鸟哈希表及其MlogN个复制结果组成的布谷鸟哈希表S ″0使用伪随机函数进行编码，得到包含用户信息X0和关键键值信息D ″ ′0的用户A布谷鸟哈希表S ′0的编码结果 (3d)用户B对S ′1的M个分箱进行随机填充，得到由M个包含log N个元素的分箱组成的简单哈希表，并使用伪随机函数，通过伪随机函数密钥kB对该简单哈希表进行编码，得到用户 B的编码后由Ml ogN个元素组成的简单哈希表S″1； (3e)用户A和用户B按照不经意伪随机函数协议FOPRF，并通过kA对向量S″1进行编码，得到包含用户信息X1和关键键值信息D ″ ′1的用户B简单哈希表S′i的编码结果 (4)两个用户对编码结果S ″ ′0、 S″ ′1进行混淆： (4a)用户A对编码结果S ″ ′0中的用户信息X0进行加性秘密共享，得到用户A、用户B的X0 的信息共享值<X0>A、 <X0>B，用户B对编码结果S ″ ′1中的用户信息X1进行加性秘密共享，得到用户A、用户B的X1信息共享值<X1>A、 <X1>B； (4b)用户A计算用户信息共享值<X>A＝<X0>A+<X1>A并将S″ ′0中的关键键值信息D ″ ′0与<X >A进行拼接，得到拼接结果D ″ ′0||<X>A，用户B计算用户信息共享值<X>B＝<X0>B+<X1>B并将权　利　要　求　书 1/3 页 2 CN 115378693 A 2S″ ′1中的关键键值信息D ″ ′1与<X>B进行拼接，得到拼接结果D ″ ′1||<X>B； (4c)用户A将随机选择的重排列规则ωA，用户B将D ″ ′1||<X>B作为混淆网络的输入，按照不经意混淆网络协议FO‑Shuffle，并通过重排列规则ωA对拼接结果D ″ ′1||<X>B进行混淆，得到D″ ′1的混淆值ωA(D″ ′1)和<X>B的混淆值ωA(<X>B)，然后对ωA(D″ ′1)和ωA(<X>B)进行加性秘密共享，得到用户A、用户B的混淆结果共享值<ωA(D″ ′1)>A||<ωA(<X>B)>A、 <ωA(D″ ′1) >B||<ωA(<X>B)>B； (4d)用户A使用ωA对D″ ′0、 <X>A分别进行混淆，得到混淆关键键值信息ωA(D″ ′0)和混淆用户信息共享值ωA(<X>A)，并计算<ωA(D″ ′1)>A||<ωA(<X>B)>A的关键键值信息共享值<ωA (D″ ′1)>A与混淆关键键值信息ωA(D″ ′0)的差值α ＝<ωA(D″ ′1)>A‑ωA(D″ ′0)，以及<ωA(D″ ′1) >A||<ωA(<X>B)>A的混淆用户信息共享值<ωA(<X>B)>A与混淆加性秘密共享值ωA(<X>A)的和值β ＝< ωA(<X>B)>A+ωA(<X>A)； (4e)用户A将α和β 的拼接结果α ||β，用户B将随机选择的重排列规则ωB作为混淆网络的输入，按照不经意混淆网络协议FO‑Shuffle，并通过ωB对α ||β 进行混淆，得到α 的混淆值ωB( α ) 和β 的混淆值ωB( β )，然后对ωB( α )和ωB( β )进行加性秘密共享，得到用户A、用户B的混淆结果共享值<ωB( α )>A||<ωB( β )>A、 <ωB( α )>B||<ωB( β )>B，再将<ωB( α )>A、 <ωB( β )>A作为用户 A的保留比特串共享值<res>A、混淆用户信息共享值<X′>A； (4f)用户B使用ωB对混淆结果共享值<ωA(D″ ′1)>B||<ωA(<X>B)>B中的<ωA(D″ ′1)>B、 < ωA(<X>B)>B分别进行混淆，得到混淆关键键值信息ωB(<ωA(D″ ′1)>B)和混淆用户信息共享值ωB(<ωA(<X>B)>B)，并将<ωB( α )>B+ωB(<ωA(D″ ′1)>B)、 <ωB( β )>B+ωB(<ωA(<X>B)>B)作为用户B的保留比特串共享值<res>B、混淆用户信息共享值<X′>B； (5)用户获取隐匿集合求交结果： (5a)初始化保留比特串res的项数为t，最大项数为T＝M log N，并令t＝1； (5b)用户A和用户B通过加性秘密共享交换共享值<res>A和<res>B，计算项数为T的保留比特串res＝<res>A+<res>B； (5c)用户A和用户B判断res中第t项比特位的数值是否为0，若是，则用户A保留<X ′>A中第t项位置的数据，用户B保留<X ′>B中第t项位置的数据，否则，用户A删除<X ′>A中第t项位置的数据，用户B删除<X ′>B中第t项位置的数据； (5d)用户A和用户B判断t＝T是否成立，若是，用户A返回删除冗余信息后的混淆用户信息共享值<X ″>A至用户B，用户B返回删除冗余信息后的混淆用户信息共享值<X ″>B至用户A，用户A和用户B计算<X ″>A与<X″>B的交集信息X ″＝<X″>A+<X″>B，否则，令t＝t+1，并执行步骤 (5c)。 2.根据权利要求1所述的一种用于纵向联邦学习数据对齐的隐匿集合求交方法，其特征在于，步骤(1)中所述的用户构建布谷鸟哈希表和简单哈希表的哈希函数f( ·)，其表达式为： f(·)： {0， 1}l→[M] 其中， {0， 1}l表示长度为 l的比特串，

专利 一种用于纵向联邦学习数据对齐的隐匿集合求交方法

专利一种用于纵向联邦学习数据对齐的隐匿集合求交方法