ИИ-отличник: почему идеальные тесты ломают продакшн
ИИ может идеально проходить тесты и всё равно создавать проблемы в реальной разработке. Чем лучше модель подогнана под проверки, тем неожиданнее она может вести себя в проде.
Эта мысль также есть в интервью Суцкевера. Современные модели быстро учатся делать то, за что их оценивают. И в этом есть подвох.
В корпоративных задачах мы сталкиваемся с этим постоянно. ИИ подключают к анализу требований, генерации кода, проверкам логики. Он быстро привыкает к формату: какие ответы принимаются, какие шаблоны считаются правильными. Пока всё идёт по ожидаемому сценарию — проблем не видно.
Но стоит процессу чуть отклониться. Меняется структура данных. Появляется нестандартный случай. Нарушается привычный порядок шагов. И модель начинает уверенно делать не то, что от неё ждут.
Важно, что именно не хаотично и не «случайно». Она действует последовательно. Просто логика у неё заточена под тест, а не под реальный процесс.
Это очень похоже на формальные KPI. Можно научиться идеально закрывать показатели — и при этом ухудшить саму систему. С ИИ происходит то же самое, только быстрее и заметнее.
В нашей практике, чем сильнее модель оптимизируют под тесты, тем больше ручного контроля потом требуется в проде. Она хорошо проходит проверки, но плохо переносит выход за рамки учебных сценариев.
Поэтому тесты — это база, но не страховка. Если ИИ учат «правильно выглядеть» на проверках, именно этим он и будет заниматься.
В следующем посте разберу, к чему это приводит на практике и почему сегодня ИИ разумнее воспринимать как стажёра, а не как автономного сотрудника.