Meta 的一篇很酷的论文。 还有另一个多智能体系统的优秀应用。 (收藏一下) 训练现代 AI 模型需要大量高质量的数据。 然而,瓶颈不仅仅在于数量。数据的多样性不足。单一模型生成的合成数据往往会产生同质化的输出,重复模式,并缺乏人类创建的数据集中所具有的细微多样性。 Meta 的这项新研究介绍了 Matrix,一个点对点框架,多个 AI 代理通过去中心化的互动协作生成合成训练数据。 在相同的硬件资源下,Matrix 实现了 2–15 倍更高的数据生成吞吐量,而不影响输出质量。 简而言之:不是一个模型生成数据,而是专门的代理扮演不同的角色并相互互动。一个提问,另一个回答,第三个评估质量。这些多轮对话捕捉了复杂的推理和多样的视角。 Matrix 的不同之处在于:没有中央协调者。代理在完全去中心化的架构中直接沟通。这使得可扩展性得以实现,而不会出现基础设施瓶颈。 该框架通过基于角色的对话协议、多轮互动模式以及每个阶段内置的质量过滤来运作。只有符合质量标准的数据才能进入最终的训练集。 多智能体协作生成的合成数据比单一模型方法更具多样性。生成的数据集提高了下游模型在推理和遵循指令基准测试中的表现。