今年1月份,苏黎世联邦理工学院的Stefan Feuerriegelc教授在 《Communications of the ACM》期刊上刊文“Artificial Intelligence Across Company Borders”,在文中教授指出了人工智能(AI)产业落地过程中常见挑战:如何开展跨公司合作?
CACM观点:超越联邦学习,让AI跨越公司边界
教授表示:通过数据共享构造大规模的跨公司数据集是一种方式,但有数据保密和隐私泄漏风险,且受隐私相关法律的限制。
而保护隐私的分布式机器学习框架—联邦学习,能让数据不出本地,解决上述痛点。
但传统的联邦学习目前并不能提供规范的隐私保护证明,此外,其场景容易受到因果攻击。
因此,教授指出,结合联邦学习和领域自适应,能够更大限度让合作公司从协作AI模型中受益,同时将原始训练数据保持在本地。
以下是Stefan Feuerriegelc教授对领域自适应联邦学习的介绍,由星云Clustar高级算法工程师张泷玲、杨柳翻译整理。
近年来,以AI为核心的数字技术正在驱动经济社会发展。数据显示,2030年,AI将使全球工业部门的经济活动增加13万亿美元。
然而,由于无法获取或有效利用跨国公司数据,使得这一技术的潜力在很大程度上仍未得到完全开发。AI收益于大量具有代表性的数据(representative data),这些数据通常需要来自于多家公司,特别是在实际工业场景中,面对少见的意外事件或者关键系统状态,想使AI模型取得良好的性能是极具挑战性的。
实现跨公司AI技术的一种直接方式是通过数据共享构造大规模的跨公司数据集。但出于数据保密和隐私泄漏风险的考虑,大多数公司都不愿意直接共享数据。并且在大多数情况下,共享数据受到隐私相关法律的限制。因此,具有领域自适应的联邦学习是解决跨公司AI问题的关键,一方面,联邦学习能够在不泄漏各公司数据隐私的前提下,实现模型训练和推理;另一方面,领域自适应允许各公司按照自己特定的应用场景和条件,对联邦模型做定制。
1
AI合作的障碍
跨公司AI主要存在两个障碍:
首先是跨公司的数据隐私性。因为直接共享原始数据可能会给竞争对手公司暴露有关自身公司的运营流程或知识产权专有信息等。这一障碍常常出现在公司寻求与供应商、客户或竞争对手公司想进行AI合作时。
例如,制造工厂的数据可以揭示参数设置、产品成分、产率、产量、路线和机器正常运行时间。如果此类数据被泄漏,它可能会被客户在公司谈判中滥用或进而帮助竞争对手提高生产力和改进产品。同时除了知识产权之外,一些深层的限制因素也会降低公司之间共享数据的意愿或倾向,例如公司间的信任程度、道德约束、保护公司用户隐私权的法律法规以及网络安全风险。因此我们需要一个保护数据隐私的解决方案,即在不暴露各公司的源数据前提下进行模型推断。
其次是跨公司间的合作需要考虑到领域偏移(domain shifts)的影响。领域偏移是指为不同公司使用不同配置机器或操作系统采集得到的数据分布不匹配。例如,来自一家公司采集到的机器数据可能不能作为另一家公司的代表性数据由于不同机器数据采集条件不一样。领域偏移给潜在的推论带来了障碍:在一家公司的数据上训练得到的模型可能表现不佳当部署到另一家数据分布明显不同的公司时。