Я не думаю, что это амбициозно, кстати. Преимущество масштабирования предварительного обучения — это не то, что они просто упустили, как многие свидетели стены. Это довольно обычный китайский способ сказать «мы здесь добились неплохого прогресса». V4 не будет обучаться на 2K H800.