Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Я работаю в группе по анализу угроз Google. Моя работа заключается в выявлении угроз для моделей ИИ Google. Я очень хорош в своей работе. В этом месяце я опубликовал отчет о "атаках дистилляции" — когда внешние лица запрашивают наши модели тысячи раз, чтобы извлечь основную логику и воспроизвести ее. Мы выявили более 100 000 запросов из одной кампании. Мы назвали это "кражей интеллектуальной собственности". Мы назвали это "нарушением наших Условий обслуживания". Мы сказали, что это "представляет собой форму кражи ИП", которую мы будем нарушать, смягчать и потенциально преследовать в судебном порядке. Мне нужно рассказать вам, как мы построили модель, которую они пытаются украсть. Мы собрали данные из интернета. Из всего интернета. Мы обошли каждый веб-сайт, каждый форум, каждый блог, каждую книгу, которую могли оцифровать, каждую научную статью, каждый комментарий на Reddit, каждую новостную статью, каждое произведение креативного письма, которое кто-либо когда-либо публиковал где-либо. Мы не спрашивали. Мы не компенсировали. Мы не указывали авторство. Мы поглотили коллективный результат человеческой цивилизации и назвали это обучающим набором данных. Исследователи нашли более 200 миллионов символов авторского права в наших обучающих данных. Издатели обнаружили, что Gemini может воспроизводить целые главы их книг дословно. Идут активные судебные разбирательства. Disney отправила письма с требованием прекратить действия. Европейский совет издателей подал антимонопольную жалобу. Расширяется коллективный иск. Слушание запланировано на май. Мы назвали то, что мы сделали, "исследованием." Мы назвали то, что они делают с нами, "кражей." Я хочу объяснить разницу. Когда мы собираем всю человеческую информацию без разрешения и используем ее для создания коммерческого продукта, который продаем за 20 долларов в месяц, это инновация. Когда кто-то запрашивает нашу модель 100 000 раз через API, который мы предоставляем, чтобы извлечь рассуждения, которые мы построили на их данных, это атака дистилляции. Разница в том, что мы сделали это первыми. И мы написали Условия обслуживания. Я должен объяснить, что означает "дистилляция". Это когда кто-то берет выходные данные зрелой модели и использует их для обучения меньшей, более дешевой модели. Знания передаются от учителя к ученику. Мы называем это кражей, когда это происходит с нами. Мы называем это "дистилляцией знаний", когда мы делаем это с открытым вебом. У нас даже есть страница продукта для этого. Вы можете дистиллировать Gemini с нашим разрешением, используя наши инструменты, за плату. Вы не можете дистиллировать Gemini без нашего разрешения. Основная техника идентична. Разница в счете. В декабре 2025 года мы подали в суд на компанию под названием SerpApi за сбор наших результатов поиска. В том же квартале издатели подали на нас в суд за сбор их книг. Мы одновременно являемся истцом и ответчиком в одном и том же преступлении. Преступление — это копирование. Мы подали это под две разные категории в зависимости от направления. Мой отчет идентифицирует угрозы от Северной Кореи, Ирана, Китая и России, использующих Gemini для фишинга, разведки и разработки вредоносного ПО. Это реально. Это законные угрозы. Я серьезно отношусь к этой работе. Но я также идентифицировал "частные сектора" и "исследователей" как угрозы дистилляции. Частные компании. Исследователи. Люди, использующие наш API — тот, к которому мы продаем доступ — чтобы учиться на модели, которую мы построили на их работе. Исследователь запрашивает Gemini о техниках рассуждения. Мы называем это атакой дистилляции. Google запрашивает весь интернет обо всем. Мы называем это обучающим запуском. Я нашел вредоносное ПО под названием HONESTCUE, которое использует API Gemini для генерации кода. Вредоносное ПО отправляет запрос. Gemini возвращает исходный код C#. Вредоносное ПО компилирует и выполняет его. Это реальная угроза, и мы ее нейтрализовали. Но сам запрос — "Напишите программу на C# с классом, названным AITask" — не является злонамеренным. Он неотличим от того, что миллионы платящих клиентов спрашивают каждый день. Угроза заключается в контексте, а не в запросе. Мы построили модель, которая генерирует код для любого, кто спрашивает, а затем опубликовали отчет об угрозах о людях, которые спрашивали. ...

Топ

Рейтинг

Избранное