Google 在數百萬用戶的消息上訓練了一個模型。 從未見過任何一條消息。 這叫做聯邦學習。Google、Apple、Meta 和每個主要科技公司都在使用它。 讓我解釋一下它是如何運作的: 想像一下你想要建立一個預測用戶接下來會輸入什麼的鍵盤。 最佳的訓練數據?來自數百萬部手機的實際消息。但你無法收集它。這是私密的、敏感的,用戶會反對。 聯邦學習顛覆了這一劇本。你不是把數據帶到模型,而是把模型帶到數據。 這是如何運作的: "發送模型出去。" 你的手機下載一個小型神經網絡。它在你的設備上本地運行。 → 這是全局模型 W "在數據所在的地方進行訓練。" 當你輸入時,你的手機靜靜地學習你的模式。"omw" → "10分鐘內到達"。它計算模型應該如何改進。 → 這些是本地梯度 ΔW "只發送學習結果回來。" 你的手機將權重更新發送到伺服器。不是你的消息。不是你的輸入歷史。只有數學。 → 這是更新聚合步驟 "在數千個設備上取平均" 伺服器將來自數千部手機的更新進行合併。共同的模式得到強化。個別的特徵被抵消。 → 這是 FedAvg: W_new = W + (1/n) × Σ(ΔWₖ) 四個步驟。沒有原始數據離開你的設備。只有優雅的協調(請參見下面的視覺圖)。 最棒的部分: 這解鎖了以前無法使用的數據。 醫院在不共享病人掃描的情況下合作進行癌症檢測。銀行在不暴露交易的情況下建立詐騙模型。智能家居在不讓私密時刻上雲的情況下學習偏好。 隱私和效用不是權衡。尊重數據邊界使模型成為可能。 所以在你將一切集中化之前,考慮一下:最佳的訓練數據可能已經存在,困在你永遠無法直接訪問的設備上。 在下一條推文中,我分享了一個非常好的視頻解釋。
IBM 的聯邦學習解釋:
1.71K