谷歌在数百万用户的消息上训练了一个模型。 从未见过一条消息。 这被称为联邦学习。谷歌、苹果、Meta 和每个主要科技公司都在使用它。 让我来解释一下它是如何工作的: 想象一下,你想构建一个可以预测用户接下来输入内容的键盘。 最佳的训练数据?来自数百万部手机的实际消息。但你无法收集这些数据。它是私密的、敏感的,用户会反对。 联邦学习颠覆了这一局面。你不是把数据带到模型,而是把模型带到数据。 方法如下: “发送模型。” 你的手机下载一个小型神经网络。它在你的设备上本地运行。 → 这是全球模型 W “在数据所在的地方进行训练。” 当你输入时,你的手机悄悄学习你的模式。“omw” → “10分钟后到”。它计算模型应该如何改进。 → 这些是局部梯度 ΔW “只发送学习结果。” 你的手机将权重更新发送到服务器。不是你的消息。不是你的输入历史。只是数学。 → 这是更新聚合步骤 “在数千个设备上取平均” 服务器将来自数千部手机的更新进行合并。共同模式得到强化。个别特征被抵消。 → 这是 FedAvg: W_new = W + (1/n) × Σ(ΔWₖ) 四个步骤。没有原始数据离开你的设备。只有优雅的协调(请参见下面的视觉图)。 最棒的是: 这解锁了以前无法使用的数据。 医院在不共享患者扫描的情况下合作进行癌症检测。银行在不暴露交易的情况下构建欺诈模型。智能家居在不让私人时刻上传到云端的情况下学习偏好。 隐私和实用性并不是权衡。尊重数据边界使得模型成为可能。 所以在你将一切集中化之前,考虑一下:最佳的训练数据可能已经存在,被困在你永远无法直接访问的设备上。 在下一条推文中,我分享了一个非常好的视频解释。
IBM 的联邦学习解释:
1.71K