В новой интересной работе ученые из Райса и Стэнфордского университета обнаружили, что подача генерируемого искусственным интеллектом контента в модели искусственного интеллекта, похоже, приводит к снижению качества их результатов. Если обучить генеративные модели ИИ – в том числе и большие языковые модели, и генераторы изображений – достаточному количеству контента, тоже созданного ИИ, то это самопотребление, похожее на уроборос, приведет к поломке цифрового мозга модели.
Или, по словам этих ученых, оно доведет модель до состояния “MAD” (mad – безумие).
“Стремительное развитие алгоритмов генеративного ИИ для изображений, текстов и других типов данных привело к соблазну использовать синтетические данные для обучения моделей нового поколения”, – пишут исследователи. – “Повторение этого процесса создает автофагический (“самопоглощающий”) цикл, свойства которого плохо изучены”.
“Наш основной вывод по всем сценариям состоит в том, что без достаточного количества свежих реальных данных в каждом поколении автофагического цикла будущие генеративные модели обречены на постепенную деградацию качества (точности) или разнообразия (запоминания)”, – добавляют исследователи. Мы называем это состояние “расстройством аутофагии” (Model Autophagy Disorder, MAD)”.
Другими словами, без “свежих реальных данных”, то есть, без оригинальной человеческой работы, а не того, что выдает искусственный интеллект, можно ожидать резкого ухудшения результатов. При многократном обучении на синтетическом контенте, говорят исследователи, начнет исчезать информация, находящаяся на периферии обучающей модели. Модель начнет черпать из все более сходящихся и менее разнообразных данных, и в результате вскоре начнет распадаться сама на себя.
Термин MAD, введенный исследователями, отражает этот процесс самопоглощения.
Отнеситесь к полученным результатам с долей скепсиса, поскольку работа еще не прошла рецензирование. Но следует отметить, что результаты очень убедительны. Как подробно описано в статье, испытуемая модель искусственного интеллекта прошла только пять раундов обучения с синтетическим контентом, после чего в ее результатах стали появляться трещины.
И если окажется, что искусственный интеллект действительно разрушает другой искусственный интеллект, это приведет к серьезным последствиям.
Как ясно показывают многочисленные судебные иски против OpenAI, модели ИИ повсеместно обучались путем сбора большого количества существующих данных в Интернете. Кроме того, в целом верно, что чем больше данных вы предоставляете модели, тем лучше она становится. Поэтому разработчики ИИ всегда жаждут новых учебных материалов, а в эпоху все более насыщенного ИИ Интернета такой сбор данных будет становиться все более опасным. Ну, а пока искусственный интеллект используется широкими массами и такими крупными компаниями, как Google, для создания контента, а Google и Microsoft внедряют ИИ в свои поисковые сервисы.
Таким образом, можно сказать, что ИИ уже глубоко вплетен в инфраструктуру Интернета. Он создает контент, пытается анализировать его, и сам же его поглощает. И чем больше в Интернете будет синтетического контента, тем сложнее будет компаниям, занимающимся разработкой ИИ, гарантировать, что их обучающие базы данных не будут содержать его, а это может привести к тому, что качество и структура открытого Интернета окажутся под угрозой.
“Поскольку обучающие наборы данных для генеративных моделей ИИ обычно берутся из Интернета, современные модели ИИ невольно обучаются на все большем количестве синтезированных ИИ данных”, – пишут исследователи в своей работе.
“Бывшие ранее человеческими источники текста теперь все чаще создаются генеративными моделями ИИ, начиная от пользовательских отзывов и заканчивая новостными сайтами, часто без указания на то, что текст является синтезированным”, – добавляют они. – “Поскольку использование генеративных моделей продолжает стремительно расти, эта ситуация будет только ускоряться”.
Такая ситуация действительно вызывает беспокойство, но, к счастью, как отмечает Франциско Пирес, существуют способы несколько ограничить это будущее, в котором весь мир Интернета станет MAD вместе с моделями ИИ.
Результаты работы также ставят вопрос о том, насколько полезны эти системы без участия человека. Судя по приведенным здесь результатам, ответ, по-видимому: не очень полезны. И в каком-то смысле это вселяет некоторую надежду. Ведь машины не смогут полностью заменить нас – их мозги расплавятся!
Но с другой стороны, возможно, когда ИИ захватит мир, он не будет уничтожать людей, а просто загонит нас в контент-фермы, где мы все будем вынуждены писать статьи, чтобы генеративные модели работали без сбоев.
Читайте также: Бояться искусственного интеллекта – значит бояться Ньютона и Эйнштейна. Здесь нет никаких драконов