Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Отже, ти обираєш смерть

Щоб відповісти на рівні об'єкта, @TheZvi
Технічно, DSA може стати суттєвим стрибком, який робить контексти масштабу Gemini надзвичайно дешевими, навіть для моделей попереднього покоління. Застереження:
- ми не впевнені, *чи* масштабується до 1M+ (але досвід V3.2≥V3.1, незважаючи на ідентичне попереднє навчання, і досвід V3.2>>, тож дуже ймовірно, що так)
- Ми не впевнені, як його можна навчити без завантаження з щільної уваги. Можливо, DeepSeek знає. Я думаю, що V4 не використовуватиме DSA, це прямо називається прототипом. У найгіршому випадку також розумно попередньо тренуватися з повною увагою => розширювати => розщеплювати, ви отримуєте більше витрат на попереднє навчання для постійно дешевшого висновку.
- KDA Кімі або GDN+ Квена чи щось подібне може бути навіть кращим за DSA+/NSA+
Враховуючи ці застереження, це не подвійне зниження ціни, я саркастично. Скоріше 10 разів. Обмежена увага, яка не знижується, — це досить серйозна справа.
Щодо швидкості — це порожня точка з точки зору моделі. DeepSeek не зацікавлений у наданні найкращого продукту. Вони служать великими партіями з H800/Ascend. Можна встановити на американське обладнання і отримати 60-150 т/с, або на Cerebra і отримати GLM-подібні 1000 т/с, не завищуючи вартість. Ця архітектура за своєю природою швидка (поверхнева, дешева увага), просто DeepSeek служить їй повільно.
Щодо frontier intelligence, я кажу, що ці переваги «usemaxing» фронтиру — переважно агентне кодування, але ви можете охопити більше доменів аналогічним способом — є продуктом витрат на обчислення на кроки RL і ітерацій у синтетичних середовищах. У них є рецепт. Вони повідомляють про ≈10% витрат на попереднє навчання, витрачене на Speciale. Це $600 тисяч ≈. За повідомленнями, Grok 4 використовував 100% Grok 3, або десятки сотень мільйонів. З Grok це явно було дуже неефективно, але я думаю, що DeepSeek може легко перейти на 100%, рецепт відомий. Вони, ймовірно, не хочуть витрачати її на застарілу базу, адже вона залишається вузькою в знанні.
Мені здається кумедним легковажне ставлення до математичних результатів на IMO-оцінці (або до нульового вирішення задач Ердоса настільки, що людина-розв'язувач каже «так, це фактично моє рішення») Хіба ми всі не мали очікувати AGI від незалежних математичних досліджень? Чи це вже лише кодування? Безперечно, це найцікавіша можливість для оцінки швидкостей зльоту. Але, як би там не було, я сам вірю в повільний зліт, самовдосконалення завжди зіткнеться з логістичними труднощами, з чого б ми не почали.
Головний внесок тут, як я вже казав, полягає в тому, що вони заявляють про переконання, що фундаментально вирішили питання навчання LLM кінця 2025 року на фронтирі як дослідницьку програму і можуть досягти нинішнього західного рівня або навіть далі, просто вклавши більше обчислювальної інформації (плюс незначні корективи щодо ефективності токенів). Теоретично, їхнє оголошення про розширення масштабних тренувань у кінцевому підсумку можна інтерпретувати як «і саме це ми зараз робимо». Але це ще належить побачити.
@TheZvi > незважаючи на ідентичне попереднє навчання
та після навчання, корекція
2,59K
Найкращі
Рейтинг
Вибране

