私たちは「容量が倍になるたびにコストがX%下がる」とよく言います。この論文は87の技術を見てこう言っています。実際には、そうではない。過去の学習率は将来の学習の信頼できる予測因子ではありません。