ИИ связывают с резким ростом числа низкокачественных биомедицинских исследований

Анализ выявил сотни исследований, которые, по-видимому, написаны по шаблону и сообщают о корреляциях между сложными заболеваниями и отдельными переменными на основе общедоступных наборов данных.

Научная литература рискует быть наводненной статьями, содержащими вводящие в заблуждение утверждения о здоровье, основанные на общедоступных данных, которые легко обрабатывать с помощью инструментов искусственного интеллекта (ИИ), предупреждают исследователи.

В исследовании, опубликованном 8 мая в журнале PLoS Biology¹, ученые проанализировали более 300 статей, использовавших данные Национального обследования состояния здоровья и питания США (NHANES) — открытого набора данных о состоянии здоровья.

Все эти статьи, по-видимому, следовали схожему шаблону, связывая одну переменную — например, уровень витамина D или качество сна — со сложным расстройством, таким как депрессия или сердечные заболевания, игнорируя тот факт, что эти состояния имеют множество способствующих факторов.

«Мы наблюдаем внезапный взрывной рост числа публикаций, которые чрезвычайно шаблонны и могли быть легко сгенерированы большими языковыми моделями», — говорит соавтор исследования Мэтт Спик, биомедицинский ученый из Университета Суррея в Гилфорде, Великобритания.

Спик и его коллеги обнаружили, что связи во многих из этих статей не выдерживали статистической проверки, а некоторые исследования, по-видимому, использовали выборочно отобранные данные («черри-пикинг»).

«Представьте, что вы пытаетесь сдать экзамен с определенным проходным баллом, и вы можете добавлять сколько угодно вопросов. Вы смотрите, на какие ответили правильно, и убираете те, на которые ответили неправильно. По сути, это то, что они делают», — объясняет Чарли Харрисон, вычислительный биолог из Университета Аберистуит, Великобритания, который также работал над исследованием.

Иоана Алина Кристя, клинический психолог и мета-исследователь из Падуанского университета, Италия, согласна, что статьи «кажется, написаны по рецепту».
«Нам нужны эти систематические оценки, чтобы как-то измерить масштаб проблемы», — говорит она.

Резкий рост числа исследований

NHANES — это многолетнее исследование, в рамках которого собираются данные от тысяч людей в США об их здоровье, питании и образе жизни. Набор данных общедоступен и готов к использованию в программах для анализа или системах ИИ, что привело к увеличению числа исследований на основе данных NHANES за последние два года, говорит Спик. Только в 2023 году было опубликовано более 2200 исследований корреляций с использованием данных NHANES, и более 1200 было опубликовано с начала этого года, согласно индексу биомедицинской литературы PubMed.

Харрисон, Спик и их коллеги сосредоточились на выборке из 341 исследования, опубликованного в период с 2014 по 2024 год и основанного на данных NHANES. Статьи вышли в 147 журналах различных издательств, включая Frontiers Media, Elsevier и Springer Nature (новостная команда Nature редакционно независима от своего издателя).

Исследователи выявили в этих статьях 169 переменных, которые, как предполагалось, имели статистически значимые связи с состояниями здоровья. В некоторых случаях одни и те же переменные, по-видимому, указывались как причины или как следствия в разных исследованиях. Например, в одной статье предполагалось, что уровни воспалительного белка в крови связаны с развитием заболеваний десен, тогда как в другой рост уровня того же белка связывался с диетой, богатой углеводами. «Все они несут на себе явные отпечатки шаблонного производства», — говорит Спик.

Авторы дополнительно проанализировали подгруппу из 28 статей, которые связывали отдельные переменные с депрессией — состоянием, которое чаще всего встречалось в их выборке. Они провели тест статистической коррекции, чтобы помочь выявить результаты, которые кажутся значимыми, но могли возникнуть случайно. После этого теста заявленные связи остались значимыми только в 13 из 28 статей. «Значимость связей больше не подтверждается. Они больше не валидны», — говорит Харрисон.

Некоторые статьи также опускали части доступного набора данных NHANES в своих анализах, сосредотачиваясь только на определенных годах или возрастных группах без объяснения причин. Из 14 статей, рассматривавших связи между маркером воспаления крови и состояниями, включая диабет и потерю слуха, только 4 использовали полные наборы данных NHANES.

И большинство проанализированных в исследовании статей ограничивали свой охват несколькими годами данных. «Трудно представить, чтобы это произошло случайно», — говорит Спик. Он предполагает, что в некоторых случаях данные могли быть отобраны или опущены для достижения положительной корреляции или для создания нескольких статей из одного набора данных. «Можно перебрать все возможные комбинации, чтобы найти что-то, что покажет некоторую статистическую значимость».

Легкая мишень

Хотя исследование не изучало, могли ли какие-либо из этих статей быть созданы «фабриками статей» — компаниями, которые массово производят поддельные научные работы на заказ, — тот факт, что данные NHANES легко подключить к системам ИИ, делает их легкой мишенью для тех, кто стремится к массовому производству низкокачественных статей, утверждают авторы.

Они обнаружили, что для их выборки статей темпы публикаций начали заметно расти в 2022 году, примерно в то время, когда большие языковые модели стали более совершенными и общедоступными. И 190 статей — более половины из выборки — были опубликованы в 2024 году.

Исследователи предлагают, чтобы общедоступные базы данных, такие как NHANES, требовали от исследователей регистрировать свои планы исследований перед предоставлением им доступа к данным. Такие меры стали бы «контролируемым шагом, чтобы попытаться остановить людей, массово эксплуатирующих подобные наборы данных», — говорит Харрисон. «Когда их эксплуатируют подобным образом, это заглушает любые значимые результаты».

Кристя согласна, что необходимы действия, чтобы остановить распространение сомнительных исследований одиночных корреляций. «Знать, что один фактор связан, например, с депрессией, больше не информативно, потому что существует так много» других факторов, — говорит она. «Это не приведет к разработке методов лечения».

Читайте также: Новый “ИИ-ученый” собирается начать генерировать исследования

Назад

Сообщение отправлено

Внимание!
Внимание!

zmei
Древний ужас или эволюционный щит? Почему мы на самом деле боимся змей
Древний ужас или эволюционный щит? Почему мы на самом деле боимся змей
previous arrow
next arrow

Комментировать можно ниже в разделе “Добавить комментарий”.

Поделиться

Добавить комментарий

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.

Вы не можете скопировать содержимое этой страницы