热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
"目前模型中非常令人困惑的一件事是:如何调和它们在评估中表现得如此出色的事实。
你看评估时会想,‘这些评估相当困难。’
但经济影响似乎大大滞后。
有[一个可能的]解释。早期人们进行预训练时,关于使用什么数据进行训练的问题已经有了答案,因为那个答案是所有数据。所以你不必考虑是用这组数据还是那组数据。
当人们进行强化学习训练时,他们会说,‘好吧,我们想要为这个事情进行这种类型的强化学习训练,为那个事情进行那种类型的强化学习训练。’
你会说,‘嘿,我希望我们的模型在发布时表现得很好。我希望评估看起来很棒。什么样的强化学习训练可以帮助这个任务?’
如果将这一点与模型的泛化能力实际上不足结合起来,这有可能解释我们所看到的很多现象,即评估表现与实际现实世界表现之间的脱节。"
热门
排行
收藏

