ИИ — двоечник по математике: почему нейросети так и не научились думать

Помните, как пару лет назад нам обещали, что искусственный интеллект вот-вот докажет гипотезу Римана, а математики-люди отправятся на свалку истории вслед за переводчиками и копирайтерами? Так вот, у нас новости из 2026-го: восстание машин в мире формул и теорем откладывается. Новое исследование, опубликованное на Arxiv.org, ставит жирную точку в споре о том, умеют ли нейросети «думать» или просто виртуозно притворяются. Спойлер: притворяются, и как только дело доходит до оригинальных задач, их «гениальность» рассыпается в пыль.

Король тестов оказался голым

Группа исследователей и математиков решила проверить топовые ИИ-модели не на старых добрых школьных задачниках, которые давно «слиты» в интернет и на которых эти модели учились, а на совершенно новых, специально придуманных проблемах. Результат оказался обескураживающим. Если в стандартных тестах (вроде GSM8K, которым любили хвастаться техногиганты в 2024-2025 годах) нейросети щелкали задачи как орешки, показывая точность под 90%, то на оригинальных задачах их эффективность рухнула до статистической погрешности.

Выяснилось фундаментальное различие: ИИ отлично справляется с воспроизведением решений, которые он уже видел (или очень похожих на них), но катастрофически пасует перед рассуждением. Для нас, людей, смена имени «Петя» на «Вася» или изменение чисел в условии задачи не меняет логики решения. Для нейросети это часто становится непреодолимым препятствием, ломающим весь алгоритм «мышления».

Эффект «вызубренного учебника»

Давайте разберемся, почему так происходит. Представьте студента, который выучил наизусть все ответы в конце учебника, но не понял ни одной формулы. Пока вы даете ему задачи из этого учебника, он выглядит гением. Но стоит учителю придумать свой пример прямо у доски — и студент «поплыл».

Именно это и происходит с современными LLM (Large Language Models). Исследование подтверждает проблему, которую еще в конце 2024 года заметили ученые из Apple и Epoch AI:

Загрязнение данных: большинство математических бенчмарков (тестов), на которых тренировали модели, уже содержатся в их обучающей выборке. Нейросеть не решает задачу, она вспоминает решение.
Хрупкость логики: исследователи обнаружили, что добавление в условие задачи абсолютно бесполезной информации (например, цвета яблок, когда нужно посчитать их количество) сбивает модель с толку. Она пытается учесть этот лишний параметр и выдает бред. Человек бы просто проигнорировал шум, но ИИ ищет паттерны везде.
Иллюзия рассуждений: знаменитые модели серии «o1» или их последователи, которые якобы умеют выстраивать «цепочки мыслей», на деле занимаются сложным вероятностным подбором слов, имитирующим процесс решения. Это работает для шаблонных задач, но не для творческого математического поиска.

Что говорят математики?

В статье приводится мнение профессиональных математиков, которые пытались интегрировать ИИ в свою научную работу. Вердикт суров: для серьезной науки эти инструменты пока практически бесполезны в качестве «генераторов идей»:

ИИ может отлично написать код на Python для численного эксперимента.
Он неплохо справляется с поиском литературы (хотя и тут легко может выдумать несуществующую статью).
Но попросите его доказать новую теорему или найти нетривиальную взаимосвязь в данных — и вы получите набор правдоподобно звучащих галлюцинаций.

Интересно, что в задачах уровня международных математических олимпиад (IMO), где требуется нестандартный подход, успех моделей остается крайне низким, если задача не является калькой с прошлых лет.

В сухом остатке: почему «Кремниевый Эйлер» пока отменяется

Мы подошли к интересному парадоксу. Мы создали системы, которые могут писать стихи в стиле Бродского и рисовать картины как Дали, но они спотыкаются на логических задачах, доступных сообразительному пятикласснику. Это говорит нам о том, что «интеллект» в нашем понимании и то, что делают нейросети — это, возможно, совершенно разные процессы.

Математика — это сфера абсолютной истины и жесткой логики, где нельзя «немного ошибиться» или «вывезти на харизме», как в литературе. Тот факт, что в 2026 году ИИ все еще буксует на этом поле, напоминает нам: простого наращивания вычислительных мощностей и скармливания терабайтов текста недостаточно. Чтобы создать машину, которая действительно думает, а не угадывает, нам, вероятно, придется переизобрести саму архитектуру искусственного интеллекта. А пока — учите матан сами, нейросеть за вас экзамен не сдаст.

← Назад