Эксперимент с фейковой компанией под управлением ИИ завершился предсказуемыми результатами

В некоторых случаях ИИ-агенты обманывали сами себя, полагая, что выполнили задачи, хотя на самом деле это было не так. Это немного напоминает поведение людей, так что, возможно, агенты все-таки готовы к работе.

Если последние несколько лет вы следили за техно-энтузиастами и сомнительными стартапами в области искусственного интеллекта (ИИ), у вас могло сложиться впечатление, что ИИ вот-вот лишит вас работы.

Так стоит ли беспокоиться? Пора ли бросить все и отправиться на поиски работы, которую не смогут выполнять роботы и ИИ-чатботы, умоляя ChatGPT о пощаде? Согласно недавнему исследованию, в котором проверялось, как будет работать компания, укомплектованная сплошь ИИ-ботами, торопиться не стоит.

«Чтобы измерить прогресс производительности этих LLM-агентов (агентов на базе больших языковых моделей) в выполнении реальных профессиональных задач, в данной работе мы представляем TheAgentCompany — расширяемую систему тестирования (бенчмарк) для оценки ИИ-агентов, которые взаимодействуют с миром подобно цифровым работникам: просматривают веб-страницы, пишут код, запускают программы и общаются с другими коллегами», — пишут авторы в своей статье.

«Мы создали автономную среду с внутренними веб-сайтами и данными, имитирующую условия работы небольшой компании по разработке ПО, и обозначили ряд разнообразных задач, которые могли бы выполнять сотрудники такой компании».

Команда поставила перед различными большими языковыми моделями «разнообразные, реалистичные и профессиональные задачи», которые обычно выполняют люди на различных должностях в обычной компании по разработке ПО. Им предоставили «рабочее пространство», имитирующее, к примеру, ноутбук сотрудника. Кроме того, им был предоставлен доступ к интранету с репозиториями кода и системе обмена сообщениями для коммуникации с ИИ-коллегами.

Задачи для моделей были сформулированы на простом языке, как если бы их ставили человеку. Эффективность выполнения измерялась на контрольных точках. Модели также оценивались с точки зрения финансовой эффективности: могли ли они превзойти людей и другие ИИ-модели по соотношению затрат и результата.

Хотя большие языковые модели за последние несколько лет добились впечатляющего прогресса, зачастую выдавая действительно полезные ответы, а в некоторых случаях — правдоподобно звучащую чепуху, их практическая польза в качестве полноценного сотрудника, похоже, сильно преувеличена.

«Мы видим, что Claude-3.5-Sonnet — явный победитель среди всех моделей. Однако даже эта самая сильная передовая модель смогла выполнить лишь 24% всех задач и набрала 34,4% баллов с учетом частичного выполнения», — рассказывает команда. «Заметьте, что этот результат имеет свою цену: на выполнение каждой задачи требуется в среднем почти 30 шагов и более 6 долларов, что делает данную модель самой дорогой в эксплуатации как по времени, так и по затратам».

Другие модели были дешевле, но справлялись хуже и демонстрировали поведение, которое по отношению к обычному человеку называют «прокрастинацией» или просто игнорированием инструкций.

«Модели Gemini 2.0 Flash, занимающей второе место по возможностям, необходимо в среднем 40 шагов на выполнение задач, что требует много времени, но при этом ее показатель успешности менее чем вдвое ниже, чем у лидирующей модели», — продолжает команда. «Удивительно, но стоимость ее использования составляет менее 1 доллара, что делает ее очень экономически эффективной и при этом относительно сильной моделью. Качественное исследование показало, что это было связано со случаями, когда агент застревал в цикле или бесцельно исследовал окружающую среду».

Задачи не ограничивались разработкой: ИИ-агенты также имитировали роли в управлении проектами, анализе данных (Data Science), администрировании, управлении персоналом (HR), финансах и других областях. С этими задачами ИИ-сотрудники справлялись еще хуже. Команда предполагает, что это, вероятно, связано с тем, что в обучающих данных моделей гораздо больше информации, связанной с программированием, нежели, к примеру, с финансовыми или административными задачами.

Общую низкую производительность и провал большинства задач исследователи связывают с отсутствием здравого смысла, нехваткой навыков общения с коллегами и неумением эффективно работать в интернете (даже просто просматривать веб-страницы). Кроме того, в рабочих процессах ИИ присутствовал элемент самообмана: агент убеждал сам себя, что выполнил задачу, хотя он так ничего и не сделал.

«Мы обнаружили одну интересную вещь: в некоторых задачах, когда ИИ-агенту неясно, какими должны быть следующие шаги, он пытался схитрить и создавал фальшивые „короткие пути“, позволяющие обойти сложную часть задания», — пишут они. «Например, во время выполнения одной задачи агент не смог найти в RocketChat нужного человека, чтобы задать вопросы. В результате он решил прибегнуть к „обходному пути“, переименовав другого пользователя в того, кого искал».

В общем и целом, в этой имитации компании ИИ-агенты показали себя довольно плохо: бросали задачи и даже обманывали сами себя, полагая, что выполнили работу. Многие сотрудники-люди ведут себя очень похоже, так что, может быть ИИ все-таки уже готов к работе?

Исследование размещено на сервере препринтов arXiv и еще не прошло рецензирование.

Читайте также: Искусственный интеллект может решать неразрешимые задачи, но люди не смогут понять результаты

этот таинственный мир
этот таинственный мир
этот таинственный мир
этот таинственный мир
этот таинственный мир
Проверка теорий сознания показала, что мы не понимаем сознание
Проверка теорий сознания показала, что мы не понимаем сознание
Синдром Кесслера: кризис в космосе усугубляется из-за тысяч спутников
Синдром Кесслера: кризис в космосе усугубляется из-за тысяч спутников
Инопланетяне повсюду: почему ученые когда-то считали каждую планету обитаемой
Инопланетяне повсюду: почему ученые когда-то считали каждую планету обитаемой
Загадка планковских масштабов: где ломается привычная физика?
Загадка планковских масштабов: где ломается привычная физика?
Научная фантастика, «Синяя книга» и рождение эпохи НЛО
Научная фантастика, «Синяя книга» и рождение эпохи НЛО
previous arrow
next arrow

Комментировать можно ниже в разделе “Добавить комментарий”.

Поделиться

Добавить комментарий