Вымирание языков, современный учёный и компьютерная лингвистика: lingvoistorii

ek_21 in lingvoistorii

Вымирание языков, современный учёный и компьютерная лингвистика

Jul 16, 2019 00:34

Прямая речь: 12 марта 2019

Лингвист Александр Пиперски о вымирании языков, образе современного ученого и перспективах компьютерной лингвистики

Я родился в двуязычной семье, поэтому интерес к филологии появился у меня еще в детстве. Материнский язык у меня русский, а отцовский - сербский. И соответственно, мне всегда было понятно, что существует языковое разнообразие и оно устроено интересным образом. Например, в детстве мама поймала меня на том, что, играя с пирамидками, я говорю: «По-русски - “пирамида”, а по-сербски - “пырамыда”». Строго говоря, это не совсем так, но значит, что уже тогда мне приходила в голову мысль о том, что в сербском языке нет смягчения согласных перед буквой «и», а в русском есть. Можно считать, что это мое первое открытие из области сравнительной грамматики славянских языков. Кроме того, я довольно рано научился читать, и все это формировало желание заняться филологией.

В детстве мои интересы были разнообразнее, чем сейчас. В школьные годы я увлекался всеми науками подряд, в первую очередь языками и математикой - наверное, они всегда были объектами интереса для меня. Однако это совершенно не мешало мне ходить на олимпиады по химии и физике. Сейчас даже страшно представить себе такое. Но в восьмом классе мне было интересно.

Художественную литературу я любил всегда. В детстве самыми любимыми были книги про Незнайку. Получается, что из таких вкусов вырастает на самом деле все, чем я сейчас занимаюсь: языками, компьютерной лингвистикой и лингвистикой в применении к литературным произведениям в том числе. В каком-то смысле это происходит на протяжении всей жизни.

Об образовании в России и за рубежом

Я учился в Московском университете на филологическом факультете, ездил на полугодичную стажировку в Вену, а потом учился в магистратуре в Бремене, в Порту и Палермо - это совместная магистратура по исторической германистике.

Образование в России и за рубежом сложно сравнивать. В каком-то смысле российское образование, если получать все, что тебе предлагается, заваливает с головы до ног знаниями, особенно на первых курсах. Думаю, значительную часть знаний я получил за первые два курса в МГУ. В моем немецком опыте гораздо больше свободного времени, но нужно понимать, что в эти промежутки приходится много работать самостоятельно, без наставлений и понуканий. И это ключевое различие в подходах.

В каком-то смысле мой лучший академический опыт - поездка в Вену: никто ничего не требовал, и я мог учиться, чему хочется, в нужном прежде всего мне объеме. Ходил примерно на девять пар в неделю, шокируя окружающих, потому что это очень много. Для меня с московской выучкой это было совершенно ничтожно. И это совершенно разные занятия, которые я не мог бы посещать в рамках нормальной программы, потому что я ходил и на занятия по переводу, и на занятия по компьютерной лингвистике, по германистике, по скандинавистике и по индоевропеистике.

Конечно, каждый все равно подбирает систему и адаптирует ее под себя. Кому-то лучше удается распоряжаться свободным временем, кому-то, наоборот, работать в условиях большого количества требований и проверок.

О выборе научной деятельности

Я никогда целенаправленно не решал выбрать научную деятельность, просто всегда так получалось, что мне было интересно этим заниматься. Всегда возникали какие-то привлекательные научные проекты. Но я вполне могу представить, что занялся бы чем-то другим. Собственно, у меня была и ненаучная деятельность. Первая моя должность официально называлась «ведущий редактор третьей категории». Я редактировал описания телевизионных программ, сериалов, фильмов и передач, которые никогда в жизни не смотрел. Но тем не менее делал записи для программы на 150 знаков о том, что ожидает зрителей. Переводами тоже довольно много занимался. Программированием в каком-то количестве. То есть я могу представить, что стал бы программистом или переводчиком. Почему бы и нет?

Из редакторской деятельности, проработав в ней шесть лет, я ушел, потому что отдел, в котором я работал, закрылся. Описания телепрограмм приносили деньги и давали возможность работать из дома, но потом в результате какой-то очередной оптимизации эти описания стали покупать где-то на стороне, и наша деятельность оказалась не нужна. Это произошло к некоторому моему облегчению, потому что к моменту закрытия я уже довольно активно занимался наукой. Как раз защищал диссертацию в тот год. Я в принципе настроен считать, что происходящим со мной распоряжается судьба. Это все серия случайностей. Закрылся редакторский отдел, и хорошо: стало больше времени на науку.

Современная наука рождается во взаимодействии не только и не столько в преподавании, а скорее в рамках каких-то коллабораций, совместных проектов.

Лингвистика стала в значительной степени наукой больших проектов. Если раньше человек сидел и делал что-то свое, то сейчас это становится все менее и менее возможным. Люди работают большими командами: кто-то собирает данные, кто-то программирует и обрабатывает, кто-то пишет статьи по итогам. Мне кажется, что это будущее современной лингвистики.

Иногда бывает сложно вписываться в проекты, потому что проще сделать что-то самому, не подстраиваясь под других людей. Но это становится менее осуществимым. Точно так же, как сложно представить физика-одиночку, который ни с кем не взаимодействует, сидит в своей лаборатории и что-то изобретает.

Конечно, это все еще возможно, но такая ситуация встречается значительно реже, чем раньше. Социальная жизнь, в том числе и в лингвистике, приобретает все большую значимость.

О конструировании языков

Активный интерес к конструированию языков у меня появился, наверное, в детстве. Я изобретал какие-то языки для себя. До сих пор в доме остались какие-то карточки с изобретенными словами. Потом, примерно в пятнадцать лет, меня заинтересовал язык эсперанто. Хотелось читать поэзию на нем. Так я немного выучил язык: могу свободно читать, но не говорить, и, хотя сообщество эсперантистов существует, я никогда не пытался в него встроиться. Помимо этого, читал Толкина, интересовался, что там за языки. Это первые шаги к искусственным языкам. Но, думаю, я бы не стал заниматься им дальше: странная тема для академического ученого. Если вы приходите в приличное лингвистическое место и говорите, что знаете язык эсперанто, скорее всего, на вас посмотрят косо.

Но судьба распорядилась так, что я стал заниматься искусственными языками. На самом деле это произошло из-за некоторой истории, которая случилась здесь, в редакции ПостНауки. В 2015 году я пришел записывать ролики про германские языки, частотность и тому подобное. После записи я рассказал Ане Козыревской про вымышленный язык из пьесы Вацлава Гавела «Меморандум», в котором все слова очень непохожи друг на друга, чтобы они хорошо различались.

Тогда Аня посмотрела на меня хищным взглядом и сказала: «Прекрасно, вот ты нам напишешь лонгрид про искусственные языки в литературе и кино». Я говорю: «Какой лонгрид? Ты что, с ума сошла?» Дальше я, конечно, согласился, но не придал этому большого значения и спокойно ушел. Через какое-то время она написала: «Кстати, что насчет лонгрида?» Я говорю: «Ну… Через месяц». Через месяц у меня, разумеется, даже файл не появился. Аня снова напомнила, но и по окончании второго месяца файл так и не был создан. После чего она мне позвонила, и стало понятно, что придется все-таки его сделать. И тут оказалось, что лонгрид интересно писать и вообще полезно обобщить те знания, которые у меня уже были, представить их, так скажем, в более научном формате. Материал вышел на сайте ПостНауки. Позднее из него родилась книга «Конструирование языков».

О проектной работе

Идеи проектов в лингвистике часто появляются потому, что объект изучения окружает нас все время. То есть мы все время о чем-то с кем-то говорим.

Лингвист подмечает происходящее в языке. Если, скажем, я занимаюсь изучением русского языка, то идеи появляются более или менее внезапно просто потому, что я слушаю говорящих на русском языке.

Простой пример. В какой-то момент я в маршрутке услышал, как человек сказал один раз «про́дали», а другой - «прода́ли» буквально в соседних предложениях. Я подумал: «Интересно, а почему он говорит то “про́дали”, то “прода́ли”? Так вообще бывает? А может быть, это зависит от соседних слов?» В результате появился довольно большой проект - изучение акцентной вариативности в русском языке, который мы делаем с коллегами, в том числе и со студентами, - просто потому, что однажды я подслушал, как какие-то люди обсуждали, что происходит за окном.

Другой вопрос - как найти людей в команду. Мне проще, потому что я много преподаю, в Вышке и РГГУ, так что студенты всегда в доступе. Кроме того, я примерно понимаю, кто чем интересуется в окружении. Если я захочу изучать ударения, то это к тому ученому, а если интернет-сленг, то к другому.

Я работаю в научно-учебной лаборатории в Вышке под руководством Максима Кронгауза. Она устроена так, что мы занимаемся абсолютно разными конкретными проектами. Например, недавно мы выпустили книгу под названием «100 языков». Сейчас идет проект по изучению этикетных формул, формул вежливости, формул обращения в школе и семье. В рамках проекта студенты активно проводят опросы и участвуют в обработке их результатов. Система строится следующим образом: сначала придумывается какая-то тема, затем под эту тему подбираются люди, которые решают задачи проекта.

Об образе современного ученого

Может, мне обидно это говорить, но образ современного ученого - это не лингвист. Лет пятьдесят назад лингвистика была передовой наукой. У Стругацких «вышел в подпространство структуральнейший лингвист». Казалось, что это наука будущего, которая в смычке с математической логикой приведет нас к пониманию каких-то основ всего на свете. Сейчас, на мой взгляд, образ ученого - это человек, который занимается биологией. Это заметно даже по популяризации: на виду в первую очередь биологи, в меньшей степени - физики. Если бы меня попросили нарисовать ученого, то это биолог, который изучает молекулярную биологию, что-то связанное с генетикой.

Конечно, не все так пессимистично в отношении лингвистики. Должен же кто-то быть на первом плане, а моды меняются, и это нормально. Лингвистика дала то, что могла, и обществу, и другим наукам. Например, много идей лингвистики оказались востребованными в других гуманитарных науках: в литературоведении, в социологии. Иногда надо уступать пальму первенства, и я не вижу тут ничего страшного. Хотя, конечно, бывает обидно, что лингвисты занимаются какими-то частными вещами без выхода на общественную значимость. Раньше люди действительно занимались чем-то более глобальным, например наукой о знаковых системах - семиотикой. Можно было сказать, что лингвистика - это наука про все, а сегодня это верно уже в гораздо меньшей степени.

О продвижении в изучении языков

Крупных продвижений в изучении языков, наверное, нет. Сейчас мы постепенно накапливаем материал, и это особенно важно в свете вымирания языков.

Глобализация приводит к тому, что людям оказывается невыгодно использовать язык, на котором говорят сто человек. Молодежь переходит на более крупный язык, а мелкий оказывается вымирающим. В этом смысле радикальных скачков, наверное, не происходит. Документация языков развивается примерно так же, как и сто лет назад. То есть часто бывает так, что на один язык приходится один исследователь.

С другой стороны, появляется все больше возможностей для электронного документирования. Создаются, например, корпуса малых языков, но и на этом пути есть много преград - в частности, потому, что исследователи не очень охотно отдают свои данные, не хотят делиться накопленными трудами.

О вымирании языков

Примерно раз в две недели умирает один язык. Это 25 языков в год. И если так будет продолжаться сто лет, то исчезнет две с половиной тысячи. Всего существует семь тысяч языков, то есть через сто лет их станет на треть меньше.

Спрогнозировать, что будет с конкретным языком, очень просто: надо посмотреть, передают ли родители этот язык детям и говорят ли на нем молодые люди. В случае с малыми языками еще важно, сохраняет ли молодежь исходное местообитание или переезжает в города. Если на языке говорят только пожилые люди, а молодые люди относятся к нему с презрением, тогда, скорее всего, судьба языка печальна. Однако бывают даже некрупные языки, на которых поддерживается традиция говорить, и поэтому они продолжают жить. Например, каждый раз, когда я приезжаю в Исландию, меня глубоко поражает, что бегают маленькие дети и говорят по-исландски, хотя, вообще-то, это совершенно нормально. А бывает наоборот: язык, на котором говорит большое количество людей, но он не в лучшем положении. Скажем, башкирский язык люди в городах знают достаточно плохо. Конечно, этот язык не исчезнет завтра, но нет уверенности, что спустя длительное время на нем все еще будут говорить.

О перспективах компьютерной лингвистики

Ближайшие перспективы очень сильно связаны с пониманием, до каких пределов искусственные нейронные сети в компьютерной лингвистике могут нас довести. За последние годы случился прорыв, например, в машинном переводе, когда статистический машинный перевод заменился нейросетевым. Стало на порядок лучше, хотя все равно какие-то баги остаются. Возникает вопрос: преодоление неполадок потребует абсолютно новых технологий или просто постепенного развития того, что есть сейчас? Это, наверное, то, что нас ожидает и что пока непонятно. Сложно предсказать, будут ли имеющиеся технологии развиваться до того уровня, пока компьютер не превзойдет уже человека в умении говорить.

В целом нейронные сети используются сейчас практически для всего в компьютерной лингвистике. Мы подаем на вход тексты, при этом преобразуя отдельные слова в наборы чисел, опираясь на их сочетаемость в текстах на естественном языке. Затем под конкретную задачу создается нейронная сеть, которая смотрит, как эта задача решалась на каких-то конкретных примерах, и пытается подобрать такие параметры, чтобы она решалась в том числе и на новых примерах. Вполне понятное машинное обучение.

Примечательно, что нейронная сеть, решая одну задачу, может научиться решать другую. Например, исследования, связанные с нейросетевым распознаванием изображений, показывают, что есть несколько уровней анализа данных и по мере продвижения по ним могут быть обнаружены более глубокие закономерности. Условно говоря, где-нибудь глубоко появляется нейрон, который отвечает за распознавание котов. С языком происходит то же самое. Возникает вопрос: что будет, если мы научим нейронную сеть решать какую-то простенькую задачу? Например, предсказывать следующее слово в предложении. Обучающими данными может выступать любой текст. Но что в процессе этого выучит машина? Выучит ли она какие-то структуры, которые можно применить к решению более сложных задач? Может оказаться, что она научилась понимать, к какому слову в предшествующем тексте относится местоимение.

Проверить, чему научилась машина, очень просто. Если у нас есть конкретная задача, то мы можем построить тестовую выборку, в которой есть условия задач и решения к ним. Затем мы проверяем, какого качества машина достигает на этом материале. В некоторых задачах это проще, в некоторых - сложнее. Например, есть задача классификации текстов. На вход поступают новости, которые надо разложить по категориям: политика, экономика, спорт, культура. Приглашается эксперт, который определяет, что должно находиться в каждой из них. Затем сравнивается, насколько хорошо компьютерная классификация совпала с человеческой.

Ситуация с машинным переводом гораздо сложнее, потому что сами переводы могут сильно различаться. Здесь применяются специальные метрики, которые основываются на оценке приближенности к результатам человеческих переводов. Вся компьютерная лингвистика действительно очень завязана на оценке и сконцентрирована вокруг количественных метрик. Мы увеличиваем качество чего-то на 0,1%, и вот уже можно написать статью.

Я бы сказал, что важный аспект компьютерной лингвистики - извлечение фактов и знаний из текстов, умение делать логические выводы - иными словами, умение понимать тексты так, как их понимает человек. Если написано: «Петя шел по улице, ярко светило солнце, пели птички», то для человека очевидно, что Петя шел, например, в школу, а не в ночной клуб: светило солнце, значит, это утро или день. Компьютеру сложно понимать такие вещи. Иронию он тоже плохо распознает. Когда мы, анализируя отзывы о компании, читаем: «Просидел в банке в очереди два часа. Прекрасный сервис!», то понимаем, что это отрицательный отзыв. Но машине это определить непросто. Поэтому задача научить ее анализировать текст крайне сложная.

О дальнейших планах

У меня есть мечта когда-нибудь написать популярную книгу про компьютерную лингвистику. Может быть, даже в серии «Библиотека ПостНауки». Надо собраться и в письменном виде рассказать широкой аудитории о том, чем вообще занимается компьютерная лингвистика, потому что я и так постоянно читаю про это лекции.

Масштабных планов и идей довольно много. Например, хочется сделать глобальный проект про вариативность ударений в русском языке и про то, как оно менялось с годами. Для этого надо создать большой коллектив и много всего продумать. А еще мне бы хотелось заняться сбором корпусов поэзии на разных языках. Существует хороший поэтический корпус для русского языка в составе Национального корпуса русского языка, для чешского языка существует. Но, скажем, даже для английского нет внятного корпуса, то есть внятного собрания поэтических текстов в электронной форме с удобным поиском и хорошей лингвистической разметкой. Было бы интересно попробовать для разных языков что-то такое сделать с единым интерфейсом. Это большие проекты, которыми хотелось бы заняться, но не гарантирую, что в ближайшие месяцы или даже годы возьмусь за них: не на все хватает сил и времени.

Александр Пиперски
кандидат филологических наук, доцент Института лингвистики РГГУ, научный сотрудник Школы филологии НИУ ВШЭ

Источник: postnauka.ru

Изобретение знаков
Отрывок из книги Александра Пиперски об универсальном языке, блиссимволике и теории знака
26 сентября 2016

Мы публикуем главу из книги лингвиста Александра Пиперски «Конструирование языков: от эсперанто до дотракийского», которая появится на книжных полках в ноябре 2016 года. Эта книга входит в книжную серию научно-популярных книг «Библиотека ПостНауки», выпускаемую нами совместно с издательством «Альпина нон-фикшн».

компьютерная лингвистика, многоязычие, сравнительная лингвистика, искусственный язык, сравнительное языкознание, эсператно, лингвист, образование, филолог