Исследование показало, что поисковые системы на базе искусственного интеллекта ошибаются в поразительной доле случаев

Эти штуки действительно мастера ошибаться.

Вас может шокировать, но, как выяснилось, поразительная доля результатов поиска с использованием искусственного интеллекта оказывается совершенно неверной — таковы выводы нового исследования, опубликованного Columbia Journalism Review. Надеемся, вы им не очень доверяли.

Анализ, проведенный исследователями из Tow Center for Digital Journalism, изучил восемь моделей ИИ, включая поиск ChatGPT от OpenAI и Gemini от Google. В целом, они дали неверный ответ более чем на 60 процентов запросов.

Уже сам по себе тот факт, что самой точной моделью в этих тестах оказалась Perplexity от Perplexity AI, которая всё равно ошибалась в 37 процентах случаев, должен о чём-то говорить. А вот звание деревенского дурачка досталось чат-боту Grok 3 от Илона Маска, который ошибался в ошеломляющих 94 процентов случаев. Впечатляюще плохо.

«Если традиционные поисковые системы обычно выступают посредниками, направляя пользователей на новостные сайты и другой качественный контент, то генеративные поисковые инструменты сами анализируют и перерабатывают информацию, отрезая поток трафика к оригинальным источникам», — предупреждают авторы. «Разговорные ответы этих чат-ботов часто маскируют серьезные проблемы с качеством информации».

К настоящему моменту склонность больших языковых моделей к выдумкам или ошибочным данным уже хорошо задокументирована. Но это не остановило технологические компании от попыток вытеснить традиционный веб-поиск. Некоторые выпустили версии своих чат-ботов, специально созданные для этой цели, вроде поиска ChatGPT. Google даже представил «режим ИИ», который показывает только резюме от Gemini вместо ссылок на веб-страницы.

Исследование объясняет, почему это может быть плохой идеей. Для анализа были случайным образом выбраны по десять статей из двадцати изданий — от The Wall Street Journal до TechCrunch. В задании, которое было проще простого, чат-ботам предлагалось определить заголовок статьи, издателя, дату публикации и URL. Чтобы еще больше облегчить задачу, исследователи использовали только те отрывки статей, которые при обычном поиске в Google выдавали оригинальный источник в первых трех результатах.

Помимо того, что модели искусственного интеллекта ошиблись более чем в половине случаев, тесты выявили и другие их глупые привычки. Классика жанра — выдавать свою сомнительную мудрость «с вызывающей уверенностью», не конкретизируя свои ответы или неся околесицу на вопросы, на которые они не знали ответа.

Это перекликается с другими исследованиями, которые показывают, что модели ИИ скорее выдумают — или «галлюцинируют» — ответы, чем признают, что задача им не по силам. Возможно, это потому, что политика честности выдала бы, насколько бесполезными могут быть эти модели искусственного интеллекта: например, Copilot от Microsoft чаще отказывался отвечать на вопросы, чем давал ответы, отметили исследователи.

Поисковые инструменты ИИ также оказались ужасны в указании источников. ChatGPT Search в почти 40 процентах случаев ссылался на неправильную исходную статью, а в 21 проценте случаев вообще не удосуживался указать источник. Это плохо с точки зрения проверки фактов и очень плохо для издателей, которые будут лишены шанса получить трафик от модели искусственного интеллекта, которая содрала их контент. Хорошие перспективы для выживания онлайн-медийной экономики, не правда ли?