Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🤯BREAKING: Alibaba щойно довела, що AI Coding не забирає вашу роботу, а просто написання спадкового коду, який дозволить вам працювати над його виправленням наступне десятиліття. 🤣
Скласти тест з кодування один раз легко. Підтримувати цей код 8 місяців без вибуху? Схоже, для ШІ це майже неможливо.
Alibaba протестувала 18 агентів ШІ на 100 реальних кодових базах протягом 233-денних циклів. Вони шукали не просто «швидкі рішення» — вони шукали довгострокове виживання.
Результат був справжньою різаниною:
75% моделей під час технічного обслуговування порушували раніше працюючий код.
Лише Claude Opus 4.5/4.6 підтримували >50% нульовий регресійний коефіцієнт.
Усі інші моделі накопичували технічний борг, який накопичувався, поки кодова база не звалилася.
Ми використовуємо «snapshot» бенчмарки на кшталт HumanEval, які запитують лише: «Чи працює це зараз?»
Новий бенчмарк SWE-CI запитує: «Чи працює він після 8 місяців еволюції?»
Більшість агентів ШІ — це «майстри швидких виправлень». Вони пишуть крихкий код, який сьогодні проходить тести, а завтра стає справжнім кошмаром для обслуговування. Вони не створюють програмне забезпечення; Вони будують будинок із карт.
Наратив став чесним: більшість моделей можуть писати код. Майже ніхто не може його підтримувати.

Найкращі
Рейтинг
Вибране
