Иллюзия масштаба: почему размер модели больше не решает
Большая модель — не значит более полезная. В корпоративных системах это проявляется довольно быстро.
Продолжаю ковырять интервью Суцкевера — идей в нем хватает, но важнее то, на чём и мы регулярно спотыкаемся. Сегодня про рассуждения о масштабировании и его пределы.
Ставка «давайте просто увеличим модель» перестаёт давать ожидаемый эффект. И дело не в вычислениях. В продакшене это видно без долгих экспериментов. Берёшь модель мощнее — она лучше пишет, увереннее рассуждает, сильнее производит впечатление на тестах. Но в живом процессе это редко решает ключевые проблемы:
Контекст по-прежнему теряется
Нетиповые случаи по-прежнему ломают логику
Ошибки становятся реже, но больнее
Иногда становится даже хуже. Большая модель рассуждает убедительнее. Ошибается спокойнее. И из-за этого ошибки сложнее заметить. Особенно там, где ИИ встроен глубоко в цепочку шагов.
В корпоративной разработке это критично. Процессы длинные. Ответственность распределённая. Цена неточного решения высокая. И «умнее» здесь не равно «надёжнее».
В нашей практике результат почти никогда не упирается в размер модели. Он упирается в другое:
где именно ИИ стоит в процессе
какие решения он может предлагать, а какие — нет
в какой момент включается человек
Если архитектура слабая, большая модель её не спасает. Она просто быстрее доходит до тех же проблем.
Поэтому в проде чаще выигрывают не самые мощные модели, а те, которые правильно ограничены и встроены. Там, где ИИ усиливает процесс, а не пытается заменить его целиком.