Ніхто не знає, що буде далі Одна людина з ідеєю може за 2 роки стати «генеральним директором» компанії з 10 000 агентів Ви матимете «програмне забезпечення як думку», а не як послугу. Коли ви говорите, мільярд екземплярів «рою» створює бекенд, фронтенд, безпеку та масштабну інфраструктуру за лічені хвилини. Останні 18 місяців стали найшвидшими темпами прогресу, які ми коли-небудь бачили в історії комп'ютерних наук. Закликаю вас почитати про SWE Pro. Він був створений так, щоб бути стійким до забруднення. Я ще не прочитав жодної вагомої причини, чому, коли ми наберемо 90-100% на цьому бенчмарку, вся інженерія програмного забезпечення не буде вирішена. Це один із найскладніших і найскладніших еталонів. Завдання настільки довгі, що агент має вміти навчатися на власних невдалих тестових запусках у межах однієї сесії — по суті, модель повинна мати якусь форму безперервного навчання, щоб перевершити цей еталон. Попередній перегляд Gemini 2.5 набрав 13% Попередній перегляд Gemini 3 набрав 43% Claude Opus 4.5 зараз лідирує з 45% (за даними Scale AI) — У ANTHROPIC ЛЮДИ КАЖУТЬ, ЩО ДИВЛЯТЬСЯ КЛОДА ЦІЛИЙ ДЕНЬ І ЗАПОВНЮЮТЬ ПРОГАЛИНИ. Звісно, можна кричати, що вони мають мотивацію це сказати, але хіба ваш таймлайн X останні 2 тижні не був постійним шоком через те, наскільки добре кодують моделі? Особливо 4.5 Opus? Мені цілком очевидно, що питання розробки програмного забезпечення буде вирішено за 2 роки. Навіть якщо подвоїти, ні, ПОТРОЇ, це матиме ГЛИБОКИЙ вплив на ВВП і середнє життя американців