這真是荒謬,我們通過將所有東西投入變壓器來解決 videogen。對於文本的所有良好歸納偏見在視頻中並不完全適用:你是在時間和空間之間對像素區塊進行注意力操作嗎?然而,它的效果卻非常好。
普遍的回應是,這些模型只是想學習,而變壓器是我們知道如何很好地擴展的東西。但這引出了問題,為什麼變壓器是我們唯一知道如何擴展的東西?這不僅僅是沉沒成本。
29.78K