我对GPU的看法是,它们的实际使用寿命为1-2年,而不是4年以上,这引发了许多问题,所以让我详细解释一下: 首先,所有的反对论点如下:“但是H100、A100仍在使用,它们已经3-5岁了”,“客户会使用旧GPU进行推理工作负载”,“大型科技公司正在使用旧GPU进行内部工作负载”。 这就是为什么这种思维是错误的: 1. 人们忘记了$NVDA在2024年已经进入了1年的产品周期(而不是更早!),所以Blackwell仍然是一个2年的产品周期的产品。在Blackwell之前,Hopper -H100、H200是产品,而在此之前,A100是产品。所以首先,H100并不是一个3年的产品;从产品周期的角度来看,它是一个1年的产品(就在Blackwell之后)。Nvidia也在2023年初开始以大量发货H100。从今天开始,每年我们都会获得一个新产品,其性能(10倍-30倍)和效率将显著高于上一代产品,因此不是每2年,而是每年。 2. 我们正在从一个每增加一个GPU/加速器部署都是增量的世界,转变为一个大多数部署是替换(而不是增量)的世界,因为我们受到限制。我们受到电力和可用数据中心的限制。因此,当然,当你有大量的数据中心空间和电力时,你也会使用“旧”GPU,因为你有足够的空间来部署它们。但是一旦你用完了部署空间并受到限制,你的限制因素就是电力,因此你会关注每瓦特生成多少个令牌。如果新一代GPU每瓦特提供10倍的令牌,而你想要增长并服务更多客户,你将不得不用新一代替换它,而你不能“使用”旧GPU,因为你没有地方可以部署它。再次需要理解的是,我们正在从GPU稀缺转向电力稀缺,这改变了一切。 3. 认为“哦,但旧GPU将用于内部工作负载”是错误的。只有少数公司有奢侈的能力拥有自己的云业务,同时还有一个大型消费或企业业务,可以使用一些旧GPU(再次,即使这些用例在我们进入第二个论点所描述的阶段时也会大幅减少)。云服务提供商将没有足够的需求和良好的利润来为云客户运行“旧”一代GPU,因为这些GPU并不是一旦购买就能赚钱的资产;它们也有成本。它们在电力(电价上涨)、冷却和维护方面都有成本。 4. 使用思维和推理模型的推理发生了巨大的变化。现在,在参数方面,一个较小、性能较差的模型可以比一个更大的模型表现得更好,如果你在推理方面给它更多的计算“去思考”。推理计算也是一种新的扩展范式。这意味着在H100、B300或B200上运行推理的差异是巨大的。我们也正在将市场从训练工作负载转向推理。在训练中,AI研究实验室最重要的指标是性能和训练新模型的速度。随着我们现在进入推理时代,最重要的指标是成本,因此如果B300在与旧GPU相同的成本下为你提供10倍-30倍的令牌数量,你将替换它,因为你想要服务尽可能多的客户,并希望获得一些利润。根据最近的报告,OAI每赚1美元就亏损3美元。这种情况不会永远持续下去,而改变的最重要的事情之一是使用新的高效GPU/加速器进行推理。