Мои впечатления от первого дня работы с Codex 5.3 и Opus 4.6: Цель: могут ли они действительно выполнять работу AI-инженера/исследователя? Кратко: - Да, они (удивительно) могут. - Opus 4.6 > Codex-5.3-xhigh для этой задачи - оба являются большим шагом вперед по сравнению с предыдущим поколением Задача: Оптимизировать "нано-чат" @karpathy "скоростной забег GPT-2" - время в реальном времени для обучения на уровне GPT-2. Код уже сильно оптимизирован. #1 в таблице лидеров достигает 57.5% MFU на 8×H100. Победить его действительно сложно. Результаты: 1. Оба вели себя как настоящие AI-инженеры. Они читали код, исследовали идеи, проводили мини-бенчмарки, писали планы и запускали полное обучение от начала до конца, пока я спал. 2. Я проснулся с реальными успехами от Opus 4.6: - torch compile "max-autotune-no-cudagraphs mode" (+1.3% скорость) - Оптимизатор Muon ns_steps=3 (+0.3% скорость) - BF16 softcap, пропустить .float() преобразование (-1 ГБ памяти) Общее время обучения: 174.42м → 171.40м Codex-5.3-xhigh имел интересные идеи и более высокий MFU, но ухудшил финальное качество. Я подозреваю, что ограничения контекста имели значение. Я видел, как он достиг 0% контекста в какой-то момент. 3. Я провел тот же эксперимент ранее с Opus 4.5 и Codex 5.2. Не было значительных улучшений. Оба новых модели явно лучше. Общий вывод: Я предпочитаю Opus 4.6 для этой конкретной задачи. Окно контекста в 1М имеет значение. UX лучше. Люди продолжают говорить "Codex 5.3 > Opus 4.6", но я считаю, что разные модели проявляют себя по-разному в разных кодовых базах и задачах. Две сильные модели - это победа. Я с радостью буду использовать обе....