极速pk10是官方网站吗星云Clustar论文解读《联邦学习下的安全矩阵分解

  • 时间:
  • 浏览:1

  随着人工智能时代的到来,大数据是人工智能产业化中不可或缺的基石。然而,有些人目前正面临着数据隐私和数据孤岛这两方面的问题 ,这了AI智能产业化的发展。

  在数据隐私方面,重视数据隐私和安全已成为世界性的趋势,去年5月欧盟“数据隐私条例”(General Data Protection Regulation,PR)即是对人工智能传统的数据补救模式提出了新的挑战。加进进人工智能训练时所还都可否 的数据会涉及到有些有些领域,不同的公司之间,甚至是同一个多多 公司的不同部门之间数据无法流通,这就形成了一个多多 个“数据孤岛”。

  怎样才能在满足数据隐私、安全和监管要求的前提下,我就工智能系统还都可否更加高效、准确的一块儿使用每各人的数据,是当前人工智能发展的一个多多 重要课题。联邦学习(Federated Learning)是你是什么 新兴的人工智能基础技术,在 2016 年由谷歌最先提出;此后,国际人工智能专家、微众银行首席人工智能官杨强教授的带领下首次提出了“联邦迁移学习”,并通过领衔联邦学习国际标准(IEEE标准)制定、开源自研联邦学习框架Federated AI Technology Enabler(简称FATE)等来推动联邦学习技术在行业中的落地。FATE是全球首个工业级别联邦学习框架,还都可否 让企业和机构在数据安全和数据隐私的前提下进行AI相互相互合作。你你是什么 举措让联邦学习有望成为下一代人工智能协同算法和相互相互合作网络的基础。

  在本文中,星云Clustar团队提出了一个多多 名为FedMF的联邦学习下的安全矩阵分解框架,并使用真实的数据集进行测试,测试结果验证了FedMF的可行性。此外,星云Clustar的团队还讨论了FedMF在未来研究中应用的挑战。本文第一作者为科技大学计算机博士在读、星云Clustar算法工程师柴迪;大学助理教授、博士导师、星云Clustar首席AI科学家业(按姓氏拼音排序);第二作者为科技大学教授、星云Clustar创始人陈凯;第三作者为科技大学教授、微众银行首席人工智能官杨强。本文已发表在IJCAI 2019 Federated Machine Learning Workshop,IJCAI国际人工智能联合会议是全球人工智能领域最权威的学术会议。以下是由星云Clustar团队带来的《Secure Federated Matrix Factorization 》论文解读:

  本文围绕6个深度来讲述这篇论文,研究意义、先行概念、分布式矩阵分解、联邦矩阵分解、实验评估结果、下一步研究方向。

  以General Data Protection Regulation为代表,现在开使出台各类规章和法律条文,用来加强对隐私性数据的力度,学院机构以及工业企业也否则现在开使关注隐私机器学习你你是什么 技术领域。目前推荐系统是一个多多 广受关注的研究课题,矩阵分解是常见的技术手段。然而,传统的矩阵分解推荐系统,会泄漏用户的评分信息、行态向量,否则有些人会着实泄漏这你是什么 信息不重要,否则通过这你是什么 信息,恶意者还都可否 进行inference attack,也却说 从这你是什么 信息推断用户的性别、年龄、住址,而上方的你你是什么 信息都属于非常隐私的数据。

  目前针对类式问题 ,主要有2中补救方案:Obfuscation-based和Full-Homomorphic encryption-based。前者主要采用的措施是通过将用户的原始偏好数据进行混淆后,再发送到中央服务器,以实现你是什么 程度上的隐私。显而易见的是,你你是什么 方是是因为预测精度的损失。为了预测精度,Full-Homomorphic encryption-based措施引入了一个多多 第三方的私密服务提供商,然而你你是什么 方增大系统实现难度,一块儿类式私密服务提供商的可靠性难以保障,一旦有些人与推荐服务节点处于不正当相互相互合作关系,那对用户来说,任何信息都毫无隐私可言。先行概念

  在正式介绍有些人的措施前,首先还都可否 了解一个多多 概念:Horizontal Federated Learning:用户的行态空间相同,然而用户群体不同。类式问题 下,有些人一般,用户是诚实的,系统的目标是用户的隐私,免于受到诚实但好奇的服务器的。Homomorphic Encryption:你是什么 仅享有数据补救权,但不具备数据访问权的措施。换句话说,你你是什么 措施允许任何第三方对否则加密过的数据进行运算,而不还都可否 在运算前对数据进行解密。

  在矩阵分解推荐系统中,有些人通常会拿到一个多多 稀缺的用户评分矩阵 X,而有些人的任务是通过计算出user profile 矩阵U和item profile矩阵V,来将X中的空缺信息补全。一般来说,S(Stochastic Gradient Descent,随机梯度下降)是用来补救矩阵分解的主流措施。具体loss function和updating formula的定义如图所示。

  显而易见的,我让你用户的隐私,却说 将服务器与用户的数据进行隔离,补救服务器对用户数据的直接访问,有些有些有些人希望用户还都可否 把有些人的数据保留在本地。基于此,有些人设计了一个多多 分布式的矩阵分解系统,在你你是什么 系统中,所有的评分数据都掌握在用户背后。一个多多 全局的item profile矩阵为所有用户提供一个多多 本地的update,一块儿用户否则把gradient传回给服务器,用来更新item profile。总结来说,服务器只会收到用户的gradient,太大再收到用户的任何评分信息。却说 看来,有些人的任务目标就实现了,否则让有些人再思考一个多多 问题 ,传输gradient就真的能保障用户隐私何时?

  否则已知任意一个多多 连续step的gradients,已知user profile的更新公式,有些人还都可否 求得一个多多 多元高阶方程组7、8、9。求解你你是什么 方程组的过程比较比较复杂,有些人在这里不对求解过程做太大描述,仅仅把结果展示在途中。在等式24中,u是唯一的未知量,否则有些人已知u一定处于一个多多 实数解。有些人还都可否 利用有些迭代措施(比如牛顿法)来求得一个多多 数值解。当有些人算出u,评分信息r就还都可否 利用等式25求解出来。总结来说,有些人我让你证明了在矩阵分解场景下,gradient会泄漏用户的信息。这麼 有些人又该为什么么补救你你是什么 问题 呢?联邦矩阵分解

  有些人的补救方案是对系统中加入homomorphic encryption,也却说 联邦矩阵分解系统。假设用户和服务器否则实现了对密钥的生成和分类分类整理,其中服务器拥有公钥,用户拥有彼此相同的私钥,这麼 整个系统就还都可否 分为一个多多 步骤:

  第一步,对参数进行初始化,参数包括item profile矩阵和user profile矩阵,与此一块儿服务器对item profile使用公钥进行加密;第二步,服务器提供加密后的item profile矩阵,供所有的用户来进行下载;第三步,用户进行本地的update,你你是什么 步中还都可否 拆分成若干个环节:用户首先下载加密后的item profile矩阵,并将其解密成一个多多 plaintext V,否则用户会进行本地的update并计算gradient,最后用户会对gradient进行加密否则将ciphertext发给服务器;接下来让有些人回到整体的架构,在第四步,服务器在接收到加密后的gradient我让你,会根据附加的homomorphic encryption对item profile矩阵进行更新,请注意,服务器会提供给用户最新一次加密后的item profile用作下载,此时有些人就还都可否 再一次回到第二步。整个系统通过重复第二、三、四步,会实现整个训练过程。

  一般来说,用户的评价信息由一个多多 系数矩阵右眼皮跳测吉凶组成,这也就是是因为一个多多 用户的评价着实常有限的。否则,一个多多 不同的设置在有些人的系统中是implemented。你你是什么 个多多 设置会遵循系统的各个环节然而会在用户的上传环节由些许的不同。其中你是什么 设置叫做fulltext,在你你是什么 设置中,用户会对所有的item后该上传gradient,当用户对某一个多多 item不做出评价时,gradient为0;另外你是什么 设置叫做parttext,用户只会将评价后的item的gradient进行上传。这你是什么 措施有利有弊,parttext会泄漏你你是什么 item是用户打过分的,一块儿在计算速度上表现更好,而fulltext太大再泄漏用户的信息,否则会还都可否 更多的计算耗时。实验评估结果

  为了测试有些人设计的系统的可行性,有些人使用了一个多多 MovieLens上一个多多 真实的电影评分数据集,你你是什么 数据集包括了5000K个评分信息,由610个用户对972一个多多 电影的打分组成。你你是什么 数据集也被用于有些有些有些的矩阵分解研究工作中。在图中的参数配置下,表1显示了每次迭代过程中,使用parttext措施和fulltext措施的耗时(一次迭代,是指所有610名用户上传的gradient被用来更新一次item profile矩阵)。无论是parttext还是fulltext,当item数量也有有些有些时,这你是什么 措施的耗时都比较少,一块儿有些人还都可否 观察到,耗后该随着item数量的增加而增长。与fulltext相比,parttext会占用更少的时间,然而parttext会泄漏一每段信息。值得一提的是,parttext会比fulltext提升了20倍的速度。为了验证有些人的系统不任何准确度,有些人在一个多多 小规模的数据集上做了一系列实验。有些人采用RMSE来作为度量指标,参考图4和表2,标准矩阵分解和化邦矩阵分解的评估结果常相近的,区别处于问题0.3%。这麼 小的区别是是是不是则在联邦矩阵分解中,为了比较复杂implementation,服务器会对itemvector进行更新,仅当所有的用户都上传了有些人的gradient。在一般的矩阵分解中,服务器会更新itemvector当任何用户提供了gradient。否则你你是什么 设置都相同话语,评估结果就会全部一致。

  图2和3显示了随着item数量的变化,用户和服务器的更新时间的比例的变化。从图可见,约95%的时间用于了服务器的更新,这就是是因为否则有些人增加了服务器的算力,否则提升homomorphic encryption措施,以降低密文计算的比较复杂度,则计算速度会有显著提升。这却说 有些人下一步要做的主要工作。

  最后,想和有些人介绍一下有些人未来研究工作的二个主要方向:更加有效的homomorphic encryption。如上文提到的,约95%的时间都花在服务器update上,其中计算主要用于密文。否则有些人还都可否 提升homomorphic encryption的速度,有些人的系统表现会大幅提升。在fulltext和parttext中。实验否则显示parttext比fulltext速度更高,否则parttext会用户对你你是什么 item进行了评分。你你是什么 信息,即使这麼 确切的评分,否则依旧会泄漏用户信息[Yang et al., 2016]。或许有些人还都可否 要求用户上传更多的gradient,而不仅仅是评分后的items,但也有全部的items,却说 做还都可否 相比较fulltext增加系统速度,一块儿太大再泄漏评分的item。更多安全定义。目前有些人用了经典的horizontal联邦学习安全定义,你你是什么 定义架设了参与方的诚实性,以及服务器的honest-but-curious。接下来有些人还都可否 去探索更具挑战的安全定义,比如怎样才能去建立一个多多 安全的系统以应对honest-but-curious的服务器,一块儿有有些用户是恶意的,甚至有有些参与方会与server联合谋策。以上却说 本篇论文的主要内容,感谢您的阅读。返回搜狐,查看更多