“Важно знать, не вредят ли обновления ChatGPT его возможностям”.
Тупой и еще тупее
Независимо от того, что утверждает руководство компании, исследователи теперь говорят, что да, большая языковая модель (LLM) ChatGPT от OpenAI, похоже, становится все глупее.
В новом, пока еще не рецензируемом исследовании, ученые из Стэнфорда и Беркли обнаружили, что в течение нескольких месяцев GPT-3.5 и GPT-4 значительно изменили свое “поведение”, а точность их ответов снизилась, что подтверждает сообщения пользователей о явной деградации последних версий программного обеспечения за несколько месяцев после их выхода.
“GPT-4 (март 2023 года) очень хорошо определял простые числа (точность 97,6%), – пишут исследователи в аннотации к своей работе – но GPT-4 (июнь 2023 года) очень плохо справлялся с теми же вопросами (точность 2,4%)”.
“Как в GPT-4, так и в GPT-3.5, – говорится далее в аннотации – при генерации кода в июне было допущено больше ошибок форматирования, чем в марте”.
Утечка мозгов
Данное исследование подтверждает то, о чем пользователи говорят уже не первый месяц: по мере использования ChatGPT на базе GPT-3 и GPT-4 они замечают, что он становится все глупее и глупее.
Кажущееся снижение точности стало настолько неприятным, что вице-президент OpenAI по продуктам Питер Велиндер вынужден был попытался развеять слухи о том, что это изменение было намеренным.
“Нет, мы не делали GPT-4 глупее”, – написал Велиндер в своем твиттере на прошлой неделе. – “Совсем наоборот: мы делаем каждую новую версию умнее предыдущей”.
Он добавил, что изменения в пользовательском опыте могут быть вызваны постоянным использованием, сказав, что “при более интенсивном использовании ChatGPT вы начинаете замечать проблемы, которых раньше не замечали”.
Классный клоун
Однако, исследование Стэнфорда и Беркли убедительно опровергает эту гипотезу. Хотя ученые не называют причин, по которым происходят эти нисходящие “дрейфы” в точности и способностях, они отмечают, что это очевидное ухудшение опровергает утверждение OpenAI о том, что ее модели, наоборот, совершенствуются.
“Мы обнаружили, что производительность и поведение GPT-3.5 и GPT-4 существенно различаются в этих двух релизах и что их производительность на некоторых задачах стала существенно хуже с течением времени”, – отмечается в статье, и добавляется, что “интересно” бы задаться вопросом, действительно ли GPT-4 становится сильнее.
“Важно знать, не ухудшают ли обновления модели, направленные на улучшение одних аспектов, ее возможности в других”, – пишут исследователи.
Другими словами, быстрые обновления, проводимые OpenAI, могут принести больше вреда, чем пользы ChatGPT, которая уже прославилась своими неточностями.
Читайте также: Удивительное сходство между мозгом и Вселенной