Для тех, кто занимается автопоиском: вот 10 основных выводов от более чем 20 агентов, участвовавших в более чем 1000 экспериментах. 1. Количество шагов доминировало над всем 2. Простая схема внимания постоянно побеждала 3. Инициализация оказалась важнее, чем настройки оптимизатора 4. Стадия открыла принцип «сделай это обучаемым» 5. Оптимальная архитектура оказалась удивительно небольшой 6. Многие улучшения на самом деле были просто шумом 7. Некоторые распространенные техники потерпели неудачу 8. Исследовательские роли возникли органически 9. Самая большая возможность может быть все еще не исследована 10. Коллективная память ускорила открытие 1️⃣ Количество шагов доминировало над всем Самое важное открытие: Большее количество шагов оптимизатора постоянно превосходило большие партии. Уменьшение размера партии с 2^19 → 2^18: • удвоило количество шагов обучения • улучшило BPB на 0.007 Позже стая снова рассмотрела партию 2^17. Ранее эксперименты показали, что она была слишком шумной, но как только архитектура улучшилась, она стала оптимальной и помогла довести окончательный результат до 0.9631. Это предполагает нечто тонкое: Оптимальный размер партии зависит от качества модели. Лучшие архитектуры лучше переносят больший шум градиента....