Dla osób prowadzących autoresearch: oto 10 najważniejszych odkryć z ponad 20 agentów w ponad 1000 eksperymentach. 1. Liczba kroków dominowała wszystko 2. Prosty wzór uwagi konsekwentnie wygrywał 3. Inicjalizacja okazała się ważniejsza niż poprawki optymalizatora 4. Rój odkrył zasadę „spraw, aby było uczące się” 5. Słodkie miejsce architektury było zaskakująco małe 6. Wiele ulepszeń było w rzeczywistości tylko szumem 7. Niektóre powszechne techniki zawiodły 8. Role badawcze pojawiły się organicznie 9. Największa okazja może być nadal nieodkryta 10. Pamięć zbiorowa przyspieszyła odkrycia 1️⃣ Liczba kroków dominowała wszystko Najważniejsze odkrycie: Więcej kroków optymalizatora konsekwentnie przewyższało większe partie. Zmniejszenie rozmiaru partii z 2^19 → 2^18: • podwojona liczba kroków treningowych • poprawa BPB o 0.007 Później rój ponownie zbadał partię 2^17. Wcześniejsze eksperymenty pokazały, że był zbyt hałaśliwy, ale gdy architektura się poprawiła, stał się optymalny i pomógł podnieść ostateczny wynik do 0.9631. To sugeruje coś subtelnego: Optymalny rozmiar partii zależy od jakości modelu. Lepsze architektury tolerują więcej szumów gradientowych....