Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Момент, когда интеллект был высечен в камне
Человечество сейчас делает что-то безумное. Строит дата-центры размером с города, возводит рядом с ними электростанции, запускает спутниковые сети и охлаждает комнаты, полные суперкомпьютеров, которые поглощают сотни киловатт с помощью систем жидкостного охлаждения. Все это для работы ИИ. Убежденные, что это будущее.
Но история рассказывает другую историю. Каждая технологическая революция начиналась с монструозных прототипов, и эти монстры исчезали в тот момент, когда приходил практический прорыв. Помните ENIAC? Чудовище на вакуумных трубках, которое заполняло целую комнату. Оно показало человечеству магию вычислений, но было медленным, дорогим и никогда не могло масштабироваться. Затем пришел транзистор, и все изменилось. За ним последовали рабочие станции, ПК, смартфоны. Мир выбрал преодолеть ENIAC, а не строить их больше. Дата-центры GPU, которые мы строим сегодня, — это ENIAC ИИ. Они работают. Они сверкают. Но это не конец.
Прежде чем продолжить, перейдите на сайт ниже и спросите его о чем угодно. Тридцать секунд — это все, что нужно. Вам нужно почувствовать это в своем теле.
LLM пришел, где ответ уже есть в тот момент, когда вы нажимаете Enter. Мы жили так, будто задержка в ответах ИИ — это просто то, как обстоят дела. Вот почему это шок, который ни один бенчмарк не может передать.
Общепurpose вычисления изменили мир, потому что они стали быстрыми, дешевыми и простыми в строительстве. ИИ последует тому же пути. Проблема в том, что сегодняшний ИИ далеко не на этом пути. Когда вы задаете ИИ вопрос, он опирает подбородок на руку и думает некоторое время. Ассистенты по программированию смотрят в пустоту минуты, прежде чем дать ответ, разрушая ваш поток. Даже когда нужны мгновенные ответы, все, что вы получаете, — это неторопливый ответ. Разговор с ИИ все еще похож на международный звонок. Говорите, ждите, ждите еще. Эта задержка — стена между людьми и ИИ.
Проблема стоимости еще хуже. Запуск сегодняшнего ИИ требует огромного оборудования и капитала. Стacks HBM, сложный I/O, кабели, жидкостное охлаждение, продвинутая упаковка, 3D-стекание. Почему все это необходимо? Потому что место, которое помнит, и место, которое думает, разделены.
Думайте об этом так. Ваш мозг в Сеуле, но все ваши воспоминания хранятся на складе в Пусане. Каждый раз, когда вам нужно что-то вспомнить, вам нужно сесть на KTX в Пусан, чтобы извлечь это. Современное оборудование ИИ имеет именно такую структуру. Память (DRAM) большая и дешевая, но находится вне чипа, что делает доступ в тысячи раз медленнее, чем на чипе. И вы не можете поместить DRAM внутрь вычислительного чипа — процессы производства принципиально различны. Это противоречие создает всю сложность в оборудовании ИИ. Чтобы сократить поездку из Сеула в Пусан, мы прокладываем HBM как высокоскоростную железную дорогу, строим 3D-стекание как высотные здания и запускаем жидкостное охлаждение как массивное кондиционирование воздуха. Естественно, потребление энергии взлетает, и затраты идут в небеса.
Taalas перевернул это с ног на голову. Вместо того чтобы извлекать воспоминания из Пусана, они посадили их прямо внутри мозга. Они объединили память и вычисления на одном чипе с плотностью уровня DRAM. Затем они сделали еще один шаг: построили специализированный кремний для каждой модели. Не с полки — индивидуальная подгонка. На протяжении всей истории вычислений глубокая специализация всегда была самым надежным путем к экстремальной эффективности. Taalas довел этот принцип до абсолютного предела.
Как это возможно? Они вырезают изученные знания модели — ее веса — прямо в металлические слои кремния. Интеллект, буквально высеченный в камне. Один транзистор удерживает вес, одновременно выполняя умножение. Он помнит и думает одновременно. По словам основателя Любиши Байича, это "не ядерная физика — это хитрый трюк, который никто не заметил, потому что никто не пошел по этому пути." Они сохраняют скелет чипа целым и меняют всего два металлических слоя, чтобы настроить его для конкретной модели. Разные татуировки на одном теле. На процессе TSMC 6nm требуется два месяца от весов модели до рабочей карты.
Чип HC1, с Llama 3.1 8B, высеченным в его кремнии, обрабатывает примерно 17,000 токенов в секунду на пользователя. H200 от Nvidia обрабатывает 230, B200 — 353, Groq — 594, SambaNova — 932, Cerebras — 1,981. Все остальные катаются на велосипедах. Taalas взял самолет. Одна карта потребляет 200 ватт. Десять карт в сервере — 2,500 ватт. Одного вентилятора достаточно. Он подключается прямо к любому дата-центру, построенному за последние тридцать лет. Стоимость производства: одна двадцатая. Энергия: одна десятая. Никакого HBM, никакой продвинутой упаковки, никакого 3D-стекания, никакого жидкостного охлаждения.
Конечно, ничего не бывает бесплатным. Если общепurpose GPU — это динамик, который может воспроизводить любую песню, чип Taalas — это музыкальная шкатулка, которая безупречно играет одну мелодию. Он не умный, и когда модель меняется, вам нужен новый чип. Но размер контекста регулируется, и тонкая настройка LoRA работает.
И, что важно, порог, при котором модели становятся достаточными для повседневных задач, приближается. Если пограничные модели продвинутся еще немного, мы войдем в период, когда одна модель будет выполнять рутинную работу довольно долго. Вот тогда экономика специализированной музыкальной шкатулки будет оправдана.
Nvidia приобрела Groq за 20 миллиардов долларов, SoftBank поглотил Graphcore, Intel потянулся к SambaNova. В настоящее время формируется огромная волна к специализированному кремнию для вывода. Taalas стоит на его самом радикальном краю. Первый продукт начинается с Llama, высеченного в кремнии, за которым следует модель среднего размера для рассуждений весной и пограничная модель к зиме.
...

Топ
Рейтинг
Избранное
