https://knife.media/nets-of-meaning/ Источник: ©
НОЖ https://knife.media/nets-of-meaning/ Преподаватель русского языка в Университете Лотарингии Николай Чепурных и докторантка Национального центра научных исследований (CNRS) Франции Полина Михель рассказывают о составлении словарей, трудностях машинного перевода и теории «Смысл ⇔ Текст».
- Расскажите о себе и о научной работе во Франции.
Николай Чепурных: Мы окончили Европейскую магистратуру по лексикографии (EMLex) в Университете Лотарингии, и теперь я преподаю здесь русский. Моя позиция называется «лектор». Обычно это приглашенные на кафедру носители языка, часто, как и я, вчерашние выпускники вуза.
Мои студенты изучают в университете два или три иностранных языка. Скажем, английский - первым, русский - вторым, итальянский - третьим.
Мы с Полиной учились два года при Лаборатории автоматической обработки французского языка (ATILF), но в итоге занимаемся разными языками на современном этапе их развития (условно - с полета Гагарина в космос). Наш руководитель - Ален Польгер, ученик Игоря Александровича Мельчука, автора
теории «Смысл ⇔ Текст», почетного профессора Монреальского университета. Ален занимается разработкой лексических сетей для разных языков, и мы входим в группу «Сети русского языка». Руководитель, Светлана Крылосова, и большая часть нашей команды базируются в парижском университете INALCO.
- Что такое лексические сети?
Н. Ч.: Одни словари помогают понимать [слова, их значения и т. д. - Ред.], а другие - изъясняться на иностранном. Нас интересуют прежде всего последние, в частности предназначенные для тех, кто изучает язык. Таких трудов не очень много, нередко это просто коммерческий продукт с минимумом полезной информации для активации речи. Сделать хороший словарь - долго и дорого. Наверное, подобные проекты должны финансировать правительства, заинтересованные в продвижении собственного языка и культуры.
Для тех, кто хочет не только понимать иностранную письменную или устную речь, но и говорить, в словаре должны быть сведения, позволяющие человеку превратить свою мысль в текст.
Допустим, в статье для глагола «покупать», кроме дефиниции, необходимо дать еще и информацию о его связи с другими лексическими единицами языка, значимыми для понимания и, главное, активного использования слова в речи: кто покупает, у кого, что, за сколько, где. То есть должна прослеживаться связь с существительными «покупатель» и «покупка», а также «продавец», «товар», «деньги» и т. д. Так и выстраивается наша сеть.
- То есть облако ассоциаций вокруг каждого понятия?
- Н. Ч.: Можно и так сказать, ассоциативные связи вокруг определенного слова. Подобная репрезентация лексики - это попытка показать, как слова связаны между собой в нашей голове. Обычные словари часто дают скудные и далеко не полные сведения о сочетаемости лексических единиц. Потому у изучающих языки велико искушение просто переводить слово за словом и надеяться, что в итоге получится та же мысль. Но так это не работает, всё устроено гораздо сложнее. Есть явление лексической сочетаемости - коллокации, которые перевести дословно с одного языка на другой не выходит.
Полина Михель: Например, «сильный дождь» дословно будет по-французски forte pluie и по-немецки starker Regen, но по-английски мы, скорее, скажем heavy rain, что, в свою очередь, при буквальном переложении на русский превратится в «тяжелый дождь».
Идея усиления выражается в разных языках неодинаково, и тут не всегда работает дословный перевод.
«Сильная боль», «сильный соперник», «сильная книга» - для каждого из этих выражений найдется свое прилагательное-усилитель в разных языках. Это и есть проблема сочетаемости.
- Как это можно формализовать?
П. М.: В своей магистерской диссертации я работала в том числе и над словарной статьей для прилагательного «сильный». В первую очередь мы разбирались с полисемией, то есть многозначностью, пользовались данными
«Национального корпуса русского языка» и выясняли, какие существительные сочетаются с этим прилагательным. Например, сначала в словарной статье идут прямые значения, связанные с физической силой людей и животных, их частей тела («сильные руки, плечи»), затем - метафорические: «сильные моторы», «сильная личность», «сильный соперник», «сильный фильм». Обычно к каждому из них можно подобрать свой синоним. Именно из-за таких семантических нюансов в других языках сочетаемость может варьироваться от существительного к существительному. Например, в русском бо́льшая часть слов, называющих атмосферные явления, эмоции, физические ощущения и пр., сочетается с прилагательным «сильный» в разных его значениях. Такие выводы, к которым мы приходим на основе корпусного анализа, позволяют сделать лексикографическое описание единообразным. Каждое слово в нашей сети соответственно связано с прилагательным, обозначающим усиление.
Н. Ч.: Формализация связей возможна благодаря системе лексических функций, разработанной Игорем Мельчуком и группой московских лингвистов в середине прошлого века.
Они проанализировали ряд языков и поняли, что существует универсальный набор связей между словами, всего около 65.
Каждая из них получила название: например, усиление - это функция Magn. Оно встречается в уже приведенных примерах, а также в следующих выражениях, где мы можем заменить обстоятельство словами «очень» или «сильно»: «страшно устал», «устал как собака», «голодный как волк».
Мельчук и его коллеги пришли к идее лексических функций в рамках работы по созданию машинного перевода в СССР (хотя в США, естественно, тоже существовали подобные проекты - их результаты планировалось использовать в военных целях). Это ключевое открытие в учении Мельчука (а может быть, и главное в лингвистике XX века). Оно послужило основой для создания лексических сетей франко-канадским лингвистом Аленом Польгером. Сейчас в этом направлении работает ряд ученых в Канаде, Европе, в частности в нашей лаборатории ATILF.
- Какие еще есть лексические функции?
П. М.: Самые простые и всем понятные - это синонимы и антонимы. Лексические функции описывают оба вида связей в языке - как парадигматические (например, производные: «реакция», «реагировать», «реактор» и др.), так и синтагматические (сочетаемость слов на уровне фразы: «мощная/сильная/бурная реакция»).
Лексические сети можно сравнить с социальными.
Все пользователи соцсетей теоретически связаны друг с другом, и ни один не находится в изоляции (как и не существует слова, которое не было бы связано с каким-то другим словом). Во «ВКонтакте» пытались в какой-то момент внедрить практику разделения друзей на подгруппы (в нашей аналогии - кластеры слов): «родственники», «коллеги», «лучшие друзья», «друзья по университету» и пр. Эти множества постоянно пересекаются, можно находить знакомых через знакомых твоих знакомых, алгоритмы также сами «предлагали» пользователям друг друга.
Читайте интервью полностью в источнике:
https://knife.media/nets-of-meaning/