В некоторых случаях ИИ-агенты обманывали сами себя, полагая, что выполнили задачи, хотя на самом деле это было не так. Это немного напоминает поведение людей, так что, возможно, агенты все-таки готовы к работе.
Если последние несколько лет вы следили за техно-энтузиастами и сомнительными стартапами в области искусственного интеллекта (ИИ), у вас могло сложиться впечатление, что ИИ вот-вот лишит вас работы.
Так стоит ли беспокоиться? Пора ли бросить все и отправиться на поиски работы, которую не смогут выполнять роботы и ИИ-чатботы, умоляя ChatGPT о пощаде? Согласно недавнему исследованию, в котором проверялось, как будет работать компания, укомплектованная сплошь ИИ-ботами, торопиться не стоит.
«Чтобы измерить прогресс производительности этих LLM-агентов (агентов на базе больших языковых моделей) в выполнении реальных профессиональных задач, в данной работе мы представляем TheAgentCompany — расширяемую систему тестирования (бенчмарк) для оценки ИИ-агентов, которые взаимодействуют с миром подобно цифровым работникам: просматривают веб-страницы, пишут код, запускают программы и общаются с другими коллегами», — пишут авторы в своей статье.
«Мы создали автономную среду с внутренними веб-сайтами и данными, имитирующую условия работы небольшой компании по разработке ПО, и обозначили ряд разнообразных задач, которые могли бы выполнять сотрудники такой компании».
Команда поставила перед различными большими языковыми моделями «разнообразные, реалистичные и профессиональные задачи», которые обычно выполняют люди на различных должностях в обычной компании по разработке ПО. Им предоставили «рабочее пространство», имитирующее, к примеру, ноутбук сотрудника. Кроме того, им был предоставлен доступ к интранету с репозиториями кода и системе обмена сообщениями для коммуникации с ИИ-коллегами.
Задачи для моделей были сформулированы на простом языке, как если бы их ставили человеку. Эффективность выполнения измерялась на контрольных точках. Модели также оценивались с точки зрения финансовой эффективности: могли ли они превзойти людей и другие ИИ-модели по соотношению затрат и результата.
Хотя большие языковые модели за последние несколько лет добились впечатляющего прогресса, зачастую выдавая действительно полезные ответы, а в некоторых случаях — правдоподобно звучащую чепуху, их практическая польза в качестве полноценного сотрудника, похоже, сильно преувеличена.
«Мы видим, что Claude-3.5-Sonnet — явный победитель среди всех моделей. Однако даже эта самая сильная передовая модель смогла выполнить лишь 24% всех задач и набрала 34,4% баллов с учетом частичного выполнения», — рассказывает команда. «Заметьте, что этот результат имеет свою цену: на выполнение каждой задачи требуется в среднем почти 30 шагов и более 6 долларов, что делает данную модель самой дорогой в эксплуатации как по времени, так и по затратам».
Другие модели были дешевле, но справлялись хуже и демонстрировали поведение, которое по отношению к обычному человеку называют «прокрастинацией» или просто игнорированием инструкций.
«Модели Gemini 2.0 Flash, занимающей второе место по возможностям, необходимо в среднем 40 шагов на выполнение задач, что требует много времени, но при этом ее показатель успешности менее чем вдвое ниже, чем у лидирующей модели», — продолжает команда. «Удивительно, но стоимость ее использования составляет менее 1 доллара, что делает ее очень экономически эффективной и при этом относительно сильной моделью. Качественное исследование показало, что это было связано со случаями, когда агент застревал в цикле или бесцельно исследовал окружающую среду».
Задачи не ограничивались разработкой: ИИ-агенты также имитировали роли в управлении проектами, анализе данных (Data Science), администрировании, управлении персоналом (HR), финансах и других областях. С этими задачами ИИ-сотрудники справлялись еще хуже. Команда предполагает, что это, вероятно, связано с тем, что в обучающих данных моделей гораздо больше информации, связанной с программированием, нежели, к примеру, с финансовыми или административными задачами.
Общую низкую производительность и провал большинства задач исследователи связывают с отсутствием здравого смысла, нехваткой навыков общения с коллегами и неумением эффективно работать в интернете (даже просто просматривать веб-страницы). Кроме того, в рабочих процессах ИИ присутствовал элемент самообмана: агент убеждал сам себя, что выполнил задачу, хотя он так ничего и не сделал.
«Мы обнаружили одну интересную вещь: в некоторых задачах, когда ИИ-агенту неясно, какими должны быть следующие шаги, он пытался схитрить и создавал фальшивые „короткие пути“, позволяющие обойти сложную часть задания», — пишут они. «Например, во время выполнения одной задачи агент не смог найти в RocketChat нужного человека, чтобы задать вопросы. В результате он решил прибегнуть к „обходному пути“, переименовав другого пользователя в того, кого искал».
В общем и целом, в этой имитации компании ИИ-агенты показали себя довольно плохо: бросали задачи и даже обманывали сами себя, полагая, что выполнили работу. Многие сотрудники-люди ведут себя очень похоже, так что, может быть ИИ все-таки уже готов к работе?
Исследование размещено на сервере препринтов arXiv и еще не прошло рецензирование.
Читайте также: Искусственный интеллект может решать неразрешимые задачи, но люди не смогут понять результаты
Комментировать можно ниже в разделе “Добавить комментарий”.