Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ніхто не знає, що буде далі
Одна людина з ідеєю може за 2 роки стати «генеральним директором» компанії з 10 000 агентів
Ви матимете «програмне забезпечення як думку», а не як послугу. Коли ви говорите, мільярд екземплярів «рою» створює бекенд, фронтенд, безпеку та масштабну інфраструктуру за лічені хвилини.
Останні 18 місяців стали найшвидшими темпами прогресу, які ми коли-небудь бачили в історії комп'ютерних наук.
Закликаю вас почитати про SWE Pro. Він був створений так, щоб бути стійким до забруднення. Я ще не прочитав жодної вагомої причини, чому, коли ми наберемо 90-100% на цьому бенчмарку, вся інженерія програмного забезпечення не буде вирішена. Це один із найскладніших і найскладніших еталонів. Завдання настільки довгі, що агент має вміти навчатися на власних невдалих тестових запусках у межах однієї сесії — по суті, модель повинна мати якусь форму безперервного навчання, щоб перевершити цей еталон.
Попередній перегляд Gemini 2.5 набрав 13%
Попередній перегляд Gemini 3 набрав 43%
Claude Opus 4.5 зараз лідирує з 45% (за даними Scale AI) — У ANTHROPIC ЛЮДИ КАЖУТЬ, ЩО ДИВЛЯТЬСЯ КЛОДА ЦІЛИЙ ДЕНЬ І ЗАПОВНЮЮТЬ ПРОГАЛИНИ.
Звісно, можна кричати, що вони мають мотивацію це сказати, але хіба ваш таймлайн X останні 2 тижні не був постійним шоком через те, наскільки добре кодують моделі? Особливо 4.5 Opus?
Мені цілком очевидно, що питання розробки програмного забезпечення буде вирішено за 2 роки. Навіть якщо подвоїти, ні, ПОТРОЇ, це матиме ГЛИБОКИЙ вплив на ВВП і середнє життя американців

Найкращі
Рейтинг
Вибране
