Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Мои впечатления от первого дня работы с Codex 5.3 и Opus 4.6:
Цель: могут ли они действительно выполнять работу AI-инженера/исследователя?
Кратко:
- Да, они (удивительно) могут.
- Opus 4.6 > Codex-5.3-xhigh для этой задачи
- оба являются большим шагом вперед по сравнению с предыдущим поколением
Задача: Оптимизировать "нано-чат" @karpathy "скоростной забег GPT-2" - время в реальном времени для обучения на уровне GPT-2. Код уже сильно оптимизирован. #1 в таблице лидеров достигает 57.5% MFU на 8×H100. Победить его действительно сложно.
Результаты:
1. Оба вели себя как настоящие AI-инженеры. Они читали код, исследовали идеи, проводили мини-бенчмарки, писали планы и запускали полное обучение от начала до конца, пока я спал.
2. Я проснулся с реальными успехами от Opus 4.6:
- torch compile "max-autotune-no-cudagraphs mode" (+1.3% скорость)
- Оптимизатор Muon ns_steps=3 (+0.3% скорость)
- BF16 softcap, пропустить .float() преобразование (-1 ГБ памяти)
Общее время обучения: 174.42м → 171.40м
Codex-5.3-xhigh имел интересные идеи и более высокий MFU, но ухудшил финальное качество. Я подозреваю, что ограничения контекста имели значение. Я видел, как он достиг 0% контекста в какой-то момент.
3. Я провел тот же эксперимент ранее с Opus 4.5 и Codex 5.2. Не было значительных улучшений. Оба новых модели явно лучше.
Общий вывод:
Я предпочитаю Opus 4.6 для этой конкретной задачи. Окно контекста в 1М имеет значение. UX лучше.
Люди продолжают говорить "Codex 5.3 > Opus 4.6", но я считаю, что разные модели проявляют себя по-разному в разных кодовых базах и задачах.
Две сильные модели - это победа.
Я с радостью буду использовать обе....
Топ
Рейтинг
Избранное
