Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Пам'ятаю ~2,5 роки тому, коли @_lewtun, @edwardbeeching та компанія в @huggingface, знадобилося кілька місяців, щоб DPO працював правильно.
Сьогодні агенти з програмування можуть створити цілий репозиторій з нуля, посилаючись на якісні реалізації та обговорюючи компроміси, а також проводити роботу з навчання представників на вашому столі. Це була модель 1B на тисячах зразків.
Це справді змінює доступність досліджень і експериментів у сфері ШІ, а також те, що означає працювати з ШІ.
Я щойно об'єднав PR для цього, який додає багато алгоритмів прямого вирівнювання (DPO тощо) до репозиторію коду rlhfbook, і дивовижно, наскільки це стало простіше сьогодні.
Я почуваюся ще впевненіше у тому, чим стає книга — густим місцем для інтуїцій щодо того, що справді працює з моделями, вільним від галюцинацій і хайпів. Учні можуть використовувати це як довідник поряд із кодом і експериментами, які моделі ШІ можуть розгорнути за один день.
У найкращому випадку Книга RLHF стане центральним місцем для обговорення, ітерації та створення спільноти навколо цього навчального матеріалу.
Найкращі
Рейтинг
Вибране
