Я рішуче засуджую занурення в Prime Intellect, вони роблять абсолютно правильний вибір. Після підготовки китайських базових моделей до рівня фронтиру зараз насправді *важливіше* за навчання попередньому підготовці власних баз. Мені взагалі байдуже, що PI, Арсі та інші можуть попередньо тренуватися, хоча я маю розумні очікування, що вони скоро наздоженуть. Обчислення поширені на Заході, і ми вже бачимо докази достатньої передпідготовки з меншими моделями (ці дві + @ZyphraAI, @Dorialexander, @natolambert з Олмо...) у західному відкритому просторі; За всіма ознаками, вона масштабується. Але це здебільшого... Геополітичне значення — те, що вам дозволять запускати на своїх патріотичних серверах, підключених до агентних фреймворків. Я не західний і не китаєць, і, всупереч моєму допису, мені байдуже до цього виміру — це суто інструментальне питання. Зверніться до біографії: гонка не між США/Заходом і Китаєм, а між людьми та AGI проти централізації влади мавп. І Prime Intellect робить більше, ніж будь-хто, щоб зупинити централізований драйв. Подумайте і плачте: HF переповнений небесними дарами, які ми надто нездатні використовувати, вони просто гниють там, поки не стануть застарілими. Тисячі чи мільйони завантажень і нічого, що можна було б показати. Навіщо Qwen взагалі робить застарілі, дуже дорогі щільні моделі, схожі на ламу? Переважно тому, що а) у Alibaba є KPI «щомісячних завантажень HF» і б) академіки та невеликі лабораторії не можуть розібратися, як тонко налаштувати сучасні архітектури. Навіть якщо інфраструктура була більш зрілою і вони менш технічно ngmi, на чому вони її налаштовують? Вершина наративного налаштування відкритого коду була у Nous-Hermes, і ця парадигма фактично полягала в тому, щоб просто дистилювати GPT-4, фільтрувати за «смаком» і розмитими критеріями, орієнтуватися на міцну базу і сподіватися на краще. Цей кут атаки був заздалегідь зневажливо відкинутий OpenAI та іншими як беззагрозливий глухий кут, що винагороджує галюцинації та імітацію стилю, і він, як і слід було очікувати, згас. Що далі, «RL»? Який RL, як RL, що таке генератор сигналу, як він перетинається з наступними завданнями? Kimi-K2, бездоганна база на кордоні, вже багато місяців доступна всім. DeepSeek-V3, майже рік. V2, вже понад рік. Десятки моделей усіх розмірів, періодично оновлювані з довшим контекстом та іншими бонусами. І що ми побудували з усього цього? Щось, що навіть наближається до китайських внутрішніх інструкцій, не кажучи вже про сучасний кордон? Привіт? Чи можете ви підказати мені ці похідні? Це повне зневаження ідеї відкритої науки. І навіть китайці не переймаються — вони всі тренують свої моделі з нуля. Я можу згадати невелику кількість винятків (наприклад, Rednote створив DSV3-VL), але жодне з них не викликало великого фурору. Стартапи вартістю мільярди, чия основна мета — це пошукова або агентна програма, а отже великі постнавчальні набори даних, потайки використовують DS/GLM/Qwen у своїх пропрієтарних продуктах, але вони не ділять альфу. Тобто... про це. З'являється Першокласний Інтелект. Вони розв'язують тренування. Вони вирішують питання генерації середовища. Вони мислять принципово щодо сигналів, які формують загальне когніцію моделей. Вони, по суті, відкривають величезний запас інертної цінності, який був накопичений. Для світу це набагато більше, ніж просто ще одна модель для мене теж. Вони лякаюче розумні, мають добрі наміри, мають чітку карту, і вони мої друзі. Я не дозволю применшувати їхню роботу, бо вона служить Великій Спільній Справі. Якщо ви цього не бачите, ви не маєте уявлення, що насправді важливо на цьому етапі.