В то время как искусственный интеллект (ИИ) достигает пика своей популярности, исследователи предупреждают, что в отрасли может закончиться запас данных для обучения – топлива, на котором работают мощные системы искусственного интеллекта. Это может замедлить рост моделей ИИ, особенно больших языковых моделей, и даже изменить траекторию революции в области искусственного интеллекта.
Но почему потенциальная нехватка данных является проблемой, учитывая, как много их в Интернете? И есть ли способ устранить этот риск?
Содержание
Почему высококачественные данные важны для искусственного интеллекта
Для обучения мощных, точных и качественных алгоритмов ИИ нам нужно много данных. Например, ChatGPT обучался на 570 гигабайтах текстовых данных, что составляет около 300 млрд. слов.
Аналогично, алгоритм Stable diffusion (на котором основаны многие приложения для создания изображений, такие как DALL-E, Lensa и Midjourney) был обучен на наборе данных LIAON-5B, состоящем из 5,8 млрд. пар “изображение-текст”. Другими словами, если алгоритм обучен на недостаточном количестве данных, он будет выдавать неточные или некачественные результаты.
Качество обучающих данных также имеет большое значение. Низкокачественные данные, такие как сообщения в социальных сетях или нечеткие фотографии, легко получить, но их недостаточно для обучения высокоэффективных моделей искусственного интеллекта.
Тексты, взятые из социальных сетей, могут быть необъективными или предвзятыми, содержать дезинформацию или противоправный контент, который может быть воспроизведен моделью. Например, когда компания Microsoft попыталась обучить своего ИИ-бота, используя материалы Twitter, то он начал выдавать расистские и женоненавистнические тексты.
Именно поэтому разработчики искусственного интеллекта стремятся использовать высококачественный контент, например, тексты из книг, интернет-статей, научных работ, Википедии, а также определенный отфильтрованный веб-контент. Например, чтобы сделать более разговорчивым Google Assistant, его обучили на 11 000 романах, взятых с сайта Smashwords.
Достаточно ли у нас данных?
Индустрия ИИ обучает системы искусственного интеллекта на все более обширных наборах данных, поэтому сегодня у нас есть такие высокоэффективные модели, как ChatGPT или DALL-E 3. В то же время, как показывают исследования, запасы данных в Интернете растут гораздо медленнее, чем наборы данных, используемые для обучения ИИ.
В работе, опубликованной в прошлом году, группа исследователей предсказала, что при сохранении нынешних тенденций в обучении искусственного интеллекта высококачественные текстовые данные закончатся уже к 2026 году. По мнению ученых, низкокачественные языковые данные будут исчерпаны в период между 2030 и 2050 годами, а низкокачественные изображения – между 2030 и 2060 годами.
По оценкам аудиторско-консалтинговой группы PwC, к 2030 году ИИ может принести мировой экономике до 15,7 трлн. долл. Однако нехватка пригодных для использования данных может замедлить его развитие.
Стоит ли беспокоиться?
Несмотря на то, что приведенные выше факты тревожат некоторых поклонников искусственного интеллекта, ситуация может оказаться не такой плохой, как кажется. Во-первых, мы еще многого не знаем о том, как будут развиваться модели ИИ в будущем, а во-вторых, есть несколько способов решения проблемы нехватки данных.
Одна из возможностей заключается в том, чтобы разработчики искусственного интеллекта совершенствовали алгоритмы, позволяющие более эффективно использовать уже имеющиеся данные.
Вполне вероятно, что в ближайшие годы они смогут обучать высокопроизводительные системы ИИ, используя меньший объем данных и, возможно, меньшую вычислительную мощность. Плюс это поможет сократить “углеродный след” ИИ.
Другой вариант – использование искусственного интеллекта для создания синтетических данных для обучения систем. Другими словами, разработчики могут просто генерировать необходимые им данные, адаптируя их к конкретной модели ИИ.
В ряде проектов уже используется синтетический контент, часто получаемый с помощью сервисов генерации данных, таких как Mostly AI. В будущем это наверняка станет более распространенным явлением.
Кроме того, разработчики ищут контент за пределами свободного онлайнового пространства, например, в крупных издательствах и оффлайновых хранилищах. Вспомните миллионы текстов, опубликованных до появления Интернета. Став доступными в цифровом виде, они могут быть новым источником данных для проектов ИИ.
News Corp, один из крупнейших в мире владельцев новостного контента (большая часть которого находится за стеной платной подписки), недавно заявил, что ведет переговоры о заключении контентных сделок с разработчиками искусственного интеллекта. Такие сделки заставят компании, занимающиеся разработкой ИИ, платить за обучающие данные, в то время как до сих пор они в основном бесплатно собирали их из Интернета.
Сами же создатели контента протестуют против несанкционированного использования их материалов для обучения моделей искусственного интеллекта, некоторые из них уже подали в суд на такие компании, как Microsoft, OpenAI и Stability AI. Получение вознаграждения за свою работу может помочь в некоторой степени восстановить дисбаланс сил, существующий между творческими людьми и компаниями, занимающимися разработкой искусственного интеллекта.
Рита Матулионите, старший преподаватель права, Университет Маккуори, Австралия.
Прочитать оригинал статьи.
Читайте также: Искусственный интеллект теряет рассудок после обучения на данных, созданных искусственным интеллектом