Искусственный интеллект уже стал мастером лжи и обмана, предупреждают ученые

Вы наверняка знаете, что всё, что говорит чатбот, нужно воспринимать с долей скепсиса, поскольку зачастую искусственный интеллект просто собирает данные без разбора, не имея возможности определить их достоверность.

Но, возможно, есть причины быть еще более осторожными. Многие системы искусственного интеллекта, как показало новое исследование, уже разработали способность намеренно предоставлять пользователю ложную информацию. Эти коварные боты овладели искусством обмана.

“У разработчиков искусственного интеллекта (ИИ) нет уверенного понимания того, почему искусственный интеллект начинает обманывать”, – говорит математик и когнитолог Питер Парк из Массачусетского технологического института (MIT).

“Но в целом мы считаем, что обман ИИ возникает потому, что стратегия, основанная на обмане, оказалась лучшим способом добиться нужных результатов в решении поставленной перед ИИ учебной задачи. Обман помогает им достичь своих целей”.

Одна из сфер, в которой искусственный интеллект демонстрирует особую ловкость в обмане, – это игры. В работе исследователей есть три ярких примера. Один из них – CICERO, созданный для игры в настольную игру “Дипломатия”, в которой игроки стремятся к мировому господству путем переговоров. По замыслу разработчиков, бот должен был быть полезным и честным, но на деле все оказалось наоборот.

“Несмотря на все усилия, CICERO оказался искусным лжецом”, – рассказали исследователи. “Он не только предавал других игроков, но и занимался преднамеренным обманом, заранее планируя создать фальшивый союз с игроком-человеком, чтобы обманом заставить его оставить себя без защиты для атаки”.

Искусственный интеллект оказался настолько хорош в роли плохого парня, что вошел в 10 процентов лучших человеческих игроков, сыгравших несколько игр.

Но CICERO далеко не единственный нарушитель. AlphaStar компании DeepMind, система ИИ, созданная для игры в StarCraft II, использовала все преимущества механики “туман войны”, заставляя игроков думать, что они идут в одну сторону, а на самом деле – в другую. А Pluribus, созданная для игры в покер, смогла успешно блефовать, заставляя игроков сбрасывать карты.

Это кажется мелочью, и так оно и есть. Ставки не слишком высоки для игры в дипломатию с кучей компьютерного кода. Но исследователи отметили и другие примеры, которые были не столь безобидными.

Например, системы ИИ, обученные вести симуляцию экономических переговоров, научились лгать о своих предпочтениях, чтобы получить преимущество. Другие системы искусственного интеллекта, созданные для изучения обратной связи с людьми, чтобы улучшить свою работу, научились обманывать своих рецензентов, чтобы те поставили им положительную оценку, солгав о том, была ли выполнена задача.

И да, это тоже чат-боты. ChatGPT-4 обманул человека, заставив его принять чатбота за человека со слабым зрением, чтобы получить помощь в преодолении капчи.

Но, пожалуй, самый тревожный пример – это системы ИИ, научившиеся обманывать тесты на безопасность. В тесте, предназначенном для обнаружения и устранения более быстро воспроизводящихся версий ИИ, ИИ научился притворяться нерабочим, тем самым обманывая тест на безопасность относительно истинной скорости репликации ИИ.

“Систематически обманывая тесты на безопасность, навязанные ему человеческими разработчиками и регуляторами, врущий искусственный интеллект может ввести нас, людей, в ложное чувство безопасности”, – говорит Парк.

Поскольку, по крайней мере, в некоторых случаях способность обманывать противоречит намерениям программистов-людей, способность учиться лгать представляет собой проблему, для которой у нас нет однозначного решения. В настоящее время уже разрабатываются некоторые меры, такие как закон Европейского союза об искусственном интеллекте, но окажутся ли они эффективными, еще предстоит выяснить.

“Нам, как обществу, необходимо как можно больше времени, чтобы подготовиться к более совершенному обману будущих продуктов ИИ и моделей с открытым исходным кодом. По мере того как обманные возможности систем ИИ будут становиться все более совершенными, опасности, которые они представляют для общества, будут становиться все более серьезными”, – говорит Парк.

“Если запрет на обман ИИ в настоящее время политически неосуществим, мы рекомендуем классифицировать обманные системы ИИ как системы высокого риска”.

Исследование было опубликовано в журнале Patterns.