Весь шум вокруг ChatGPT, на мой взгляд, скрывает некоторые более важные последствия революции LLM и RLFH в NLP. О них никто не говорит, но мне почему-то они кажутся более существенными для нашего (программистского) бытия.
Во-первых, ChatGPT красиво выводит из области практического интереса значительную часть лингвистики. Поясню этот печальный тезис подробно.
Маргинализуется всё, что касается теорий синтаксиса, генеративных и распознающих грамматик, диалогового поведения. Ведь тут что произошло. Ни одна из десятков спекулятивных теорий, тысяч статей, сотен диссертаций не были применены при разработке GPT вообще и ChatGPT в частности. А успех налицо, его можно пощупать прямо в браузере! В аду ML царит суровый матан - частные производные, оптимизация, всякие вычислительные трюки. Я уверен, что даже в пайплайнах подготовки данных для обучения ChatGPT ничего интереснее регулярок не было. Онтологии? Словари? НКРЯ? Все мимо. Более того, ChatGPT это по сути англоязычная модель, которая достаточно эффективно работает с другими языками. Это прямо демонстрация того, как матан разруливает некоторые вещи, которые лингвистика обещала, но не смогла осилить за свои 70 лет.
Как думаете, использовали инженеры и ученые OpenAI бесценный опыт кафедр лингвистики МГУ и т.д., чтобы ChatGPT могла сочинять русскоязычные шутки и отмачивать корки на уровне манипуляции морфемами? Нет. Честно говоря, я пока не знаю, что об этом думают лингвисты и филологи в универах. Насколько я знаком с отдельными представителями этой тусовки, там скорее всего воспринимают это как очередную причуду этих узкомыслящих ML инженеров. Мол уляжется и будет все как раньше. И это реально тоскливо, потому что как лингвистика просто выпадает из научно-практического тренда в NLP. Действительно, зачем разбираться во всем этом наследии, начиная с Хомского, если оно вообще никак не используется в таких штуках, как ChatGPT? Не слышал, чтобы какой-нибудь завкафедрой в МГУ или завлабой по NLP сказал: а давайте вбуримся в эту тему, проанализируем, поймем слабые стороны и наметим свою стезю на этом пути. Нет, они будут пилить госгранты, писать никому не нужные статьи, которые читают 5 человек и нигде не используются на практике :( Тоска и печаль.
Во-вторых, ChatGPT подняла планку и создала угрозу для бизнеса кучи мелких компаний, которые паслись на диалоговой поляне. Например, JustAI с их руловым движком скриптования. Конечно, правиловый подход никуда не денется. В конце концов, регулярки мы используем постоянно, их поддержка есть во всех современных ЯП из коробки. Но часто ли вы слышали про новые фичи в регулярках? Пусть даже не "вау", а просто хоть что-то? Нет, регулярки стали просто удобным нишевым инструментом. Но это не инженерный фронтир, это разводной ключ для сантехника. Мы - сантехники 98% времени, но мы мечтаем о AGI :)
А что касается JustAI: вспомните, сколько компаний делало бизнес на машинном переводе в 90-х годах. PROMT и прочие. И сколько из них осталось сейчас? А никого не могу вспомнить. Все ушли из бизнеса, потому что технологически проиграли конкуренцию NMT подходу в массовом сегменте. Примерно как производители паровых машин програли дизелям. Не нужно быть особым пророком, чтобы предвидеть, как много компаний станет out of business из-за того, что можно будет купить доступ к API ChatGPT или гугловского Bard и кастомизировать их модели, дописав свою бизнес-логику и отфайнтюнив модель, благо сервис OpenAI позволяет и это.