«Важно знать, не вредят ли обновления ChatGPT его возможностям».
Тупой и еще тупее
Независимо от того, что утверждает руководство компании, исследователи теперь говорят, что да, большая языковая модель (LLM) ChatGPT от OpenAI, похоже, становится все глупее.
В новом, пока еще не рецензируемом исследовании, ученые из Стэнфорда и Беркли обнаружили, что в течение нескольких месяцев GPT-3.5 и GPT-4 значительно изменили свое «поведение», а точность их ответов снизилась, что подтверждает сообщения пользователей о явной деградации последних версий программного обеспечения за несколько месяцев после их выхода.
«GPT-4 (март 2023 года) очень хорошо определял простые числа (точность 97,6%), — пишут исследователи в аннотации к своей работе — но GPT-4 (июнь 2023 года) очень плохо справлялся с теми же вопросами (точность 2,4%)».
«Как в GPT-4, так и в GPT-3.5, — говорится далее в аннотации — при генерации кода в июне было допущено больше ошибок форматирования, чем в марте».
Утечка мозгов
Данное исследование подтверждает то, о чем пользователи говорят уже не первый месяц: по мере использования ChatGPT на базе GPT-3 и GPT-4 они замечают, что он становится все глупее и глупее.
Кажущееся снижение точности стало настолько неприятным, что вице-президент OpenAI по продуктам Питер Велиндер вынужден был попытался развеять слухи о том, что это изменение было намеренным.

«Нет, мы не делали GPT-4 глупее», — написал Велиндер в своем твиттере на прошлой неделе. — «Совсем наоборот: мы делаем каждую новую версию умнее предыдущей».
Он добавил, что изменения в пользовательском опыте могут быть вызваны постоянным использованием, сказав, что «при более интенсивном использовании ChatGPT вы начинаете замечать проблемы, которых раньше не замечали».
Классный клоун
Однако, исследование Стэнфорда и Беркли убедительно опровергает эту гипотезу. Хотя ученые не называют причин, по которым происходят эти нисходящие «дрейфы» в точности и способностях, они отмечают, что это очевидное ухудшение опровергает утверждение OpenAI о том, что ее модели, наоборот, совершенствуются.
«Мы обнаружили, что производительность и поведение GPT-3.5 и GPT-4 существенно различаются в этих двух релизах и что их производительность на некоторых задачах стала существенно хуже с течением времени», — отмечается в статье, и добавляется, что «интересно» бы задаться вопросом, действительно ли GPT-4 становится сильнее.
«Важно знать, не ухудшают ли обновления модели, направленные на улучшение одних аспектов, ее возможности в других», — пишут исследователи.
Другими словами, быстрые обновления, проводимые OpenAI, могут принести больше вреда, чем пользы ChatGPT, которая уже прославилась своими неточностями.
Читайте также: Удивительное сходство между мозгом и Вселенной


