全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210589520.5 (22)申请日 2022.05.26 (71)申请人 浙江工商大 学 地址 310018 浙江省杭州市下沙高教园区 学正街18号 申请人 浙江大学 (72)发明人 韩嵩 王璐瑶 任思琪 徐璇璇  蔡亮 赵帅 丁鸿鑫  (74)专利代理 机构 杭州奥创知识产权代理有限 公司 33272 专利代理师 王佳健 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/335(2019.01) G06F 16/36(2019.01)G06F 21/60(2013.01) G06F 21/62(2013.01) (54)发明名称 面向医疗数据支持隐私保护的中文密文多 关键字模糊搜索方法 (57)摘要 本发明公开了一种面向医疗数据支持隐私 保护的中文密文多关键字模糊搜索方法。 本发明 使用模糊搜索。 本发明采用基于知识图谱的方 法, 让数据拥有者对数据进行预处理, 然后使用 多个敏感哈希 函数将关键字映射在m位的布隆过 滤器中, 每一个 关键字会构成一个树形的关键字 索引, 一共有 三层, 第一层是单一关键字, 第二层 是包含这个关键字的所有文档的其他的关键字, 第三层是包含这个关键字的所有文档的ID。 然后 对关键字索引和所有文档分别加密, 上传到云服 务器。 云服务器执行搜索过程, 返回相关度高的 加密文档, 用户进行解密。 本发明可以允许用户 输入错误的关键字, 并且可以实现较好的搜索准 确性。 权利要求书1页 说明书3页 附图5页 CN 114860888 A 2022.08.05 CN 114860888 A 1.面向医疗数据支持隐私保护的中文密文多关键字模糊搜索方法, 其特征在于: 包括 以下步骤: 步骤1) 医疗机构对数据进行预处理, 构造关于疾病的知识图谱, 形成症状与疾病的关 键字索引以及形成疾病信息文档; 步骤2) 将症状、 疾病的中文关键字转化为拼音, 把拼音映射到布隆过滤器 中, 为每一个 关键字构造一棵树, 形成关键 字索引; 步骤3) 对疾病信息文档和包含症状 ‑疾病名称的关键字索引分别加密, 把加密后的文 件和索引上传到云服 务器; 步骤4) 用户输入感兴趣的症状关键字, 先将关键字转化为拼音向量, 再将拼音映射到 布隆过滤器中, 形成查询索引; 步骤5) 用户对查询索引进行加密, 将加密后查询索引发给云服 务器; 步骤6) 云服 务器执行搜索过程, 将匹配到的前n个加密的疾病信息的文档返回给用户; 步骤7) 用户对返回的所有加密文档进行解密。 2.根据权利要求1所述的搜索方法, 其特征在于: 步骤2) 中拼音是通过多个局部敏感哈 希函数映射到布隆过滤器中, 关键字索引是一个三层的树形结构, 包括了疾病信息文档与 关键字之间的对应。 3.根据权利要求3所述的搜索方法, 其特征在于: 所述的拼音的格式采用104比特的向 量, 共有4个字, 每 个字中前半部分是字母, 后半部分是声调。 4.根据权利要求3所述的搜索方法, 其特征在于: 所述的关键字索引的第 一层是单个关 键字的向量, 第二层是包含这个关键字的一个文档的其他关键字的合集形成的向量, 第三 层是包含这个关键 字的所有 文档的标识符ID。 5.根据权利要求4所述所述的搜索方法, 其特征在于: 步骤3) 中对疾病信息文档使用公 钥加密; 对关键 字索引的三层使用对称加密。 6.根据权利要求1所述所述的搜索方法, 其特征在于: 步骤4) 中用户输入单关键字或输 入多关键字进 行查询, 输入单关键字只须生成一个布隆过滤器, 如果输入多关键字, 需要两 个布隆过 滤器, 除第一个关键 字外, 将其他的关键 字全部映射到第二个布隆过 滤器中。 7.根据权利要求6所述所述的搜索方法, 其特征在于: 步骤6) 中云服务器执行搜索过 程, 如果是单关键字搜索, 第一个加密的查询索引与加密的关键字索引的第一层进 行计算, 记录符合条件的第三层加密的文件ID; 如果是多关键字查询, 在单关键字查询的基础上, 第 二个加密查询索引与关键字索引的第二层进行计算, 在两轮计算后, 记录符合条件的第三 层加密文件ID, 将加密ID对应的加密文件返回给用户。权 利 要 求 书 1/1 页 2 CN 114860888 A 2面向医疗数据支持隐私 保护的中文密文多关键字模糊搜索 方法 技术领域 [0001]本发明涉及隐私保护数据查询领域, 尤其涉及一种面向医疗数据支持隐私保护的 中文密文 多关键字模糊搜索方法。 背景技术 [0002]基于密文的可搜索技术解决了用户的查询隐私问题, 在今天的大数据时代, 医疗 隐私保护问题仍受到广泛关注。 在传统的密文关键字搜索中, 大部分方案针对的是精准匹 配, 由于种种原因, 用户可能输入错误的信息, 这样就不能完美匹配, 造成搜索不到结果。 针 对这个问题, 本发明提出了模糊关键字搜索, 使用布隆过滤器存储关键字, 形成索引向量, 用查询向量与索引向量匹配, 返回匹配度高的前n个文件。 [0003]发布内容 [0004]本发明针对现有技术的不足, 提供了一种面向医疗数据支持隐私保护的中文密文 多关键字模糊搜索方法。 [0005]本发明包括以下步骤: [0006]步骤1)医疗机构对数据进行预处理, 构造关于疾病的知识图谱, 形成症状与疾病 的关键字索引以及形成疾病信息文档; [0007]步骤2)将症状、 疾病的中文关键字转化为拼音, 把拼音映射到布隆过滤器中, 为每 一个关键 字构造一棵树, 形成关键 字索引; [0008]步骤3)对疾病信息文档和包含症状 ‑疾病名称的关键字索引分别加密, 把加密后 的文件和索引上传到云服 务器; [0009]步骤4)用户输入感兴趣的症状关键字, 先将关键字转化为拼音向量, 再将拼音映 射到布隆过 滤器中, 形成查询索引; [0010]步骤5)用户对查询索引进行加密, 将加密后查询索引发给云服 务器; [0011]步骤6)云服务器执行搜索过程, 将匹配到的前n个加密的疾病信息的文档返回给 用户; [0012]步骤7)用户对返回的所有加密文档进行解密。 [0013]本发明与现有技术相比, 其有益的效果为: 本发明提供了对中文加密数据的多关 键字的模糊搜索, 而现有的很多技术是针对英文的, 并且大多 数是针对精确可搜索加密。 当 用户输入错误的关键字时, 本发明的方案中通过敏感哈希函数(LSH)将正确的关键字对应 的搜索结果返回给用户, 进而提高模糊关键字搜索的准确性至8 0%。 另外, 本发明中为关键 字构造了三层索引, 与传统的正向索引相比, 这种索引结构能够极大提高搜索效率。 附图说明 [0014]图1为本发明涉及各 方的信息交 互图; [0015]图2为拼音向量的格式;说 明 书 1/3 页 3 CN 114860888 A 3

PDF文档 专利 面向医疗数据支持隐私保护的中文密文多关键字模糊搜索方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 面向医疗数据支持隐私保护的中文密文多关键字模糊搜索方法 第 1 页 专利 面向医疗数据支持隐私保护的中文密文多关键字模糊搜索方法 第 2 页 专利 面向医疗数据支持隐私保护的中文密文多关键字模糊搜索方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-07 12:39:00上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。