(no subject)

Feb 25, 2017 06:17


- Трения нет?
- Трения нет.
Солнце не светит, воздуха тоже нет.
Идеальный мир.
(на уроке школьной физики)

В рамках "писать о том, что "всем известно"", буду писать про язык
Сегодня о том, почему компьютерная лингвистика на самом деле не лингвистика.
В планах - краткая история лингвистики-вообще, универсальная грамматика, что сделал для нас Хомский, если на самом деле нет никакой универсальной грамматики, метафора как основа мышления, немного о креолизации пиджинов, пираха, потому что вы неизбежно спросите меня про пираха (и почему вероятностные алгоритмы куда интереснее каких-то индейцев), почему с зоной Брока все не так просто (и, кстати, что такое зона Брока), энд мач моар.

Итак. Начнем.

Разрыв между теоретической и прикладной лингвистикой больше, чем между теоретической и прикладной математикой.
Прикладная математика actually пользуется инструментарием своей теоретической сестры. Все, что напридумывали бородатые ученые в университетах, быстро идет в дело, просто с поправкой на неидеальные условия. "У нас нет идеального круга, поэтому договоримся в каких пределах отклонений мы все еще считаем это кругом."



(люди с ОКР, простите меня)

Лингвистике повезло меньше. Инструментарий прикладной лингвистики не имеет отношения к теории чуть менее, чем полностью. По сути, это другие науки/занятия, завернутые в обертку "тоже про язык".
Составление словарей, теории "как нам лучше учить иностранный язык", переводоведение и - любимая моя часть! - все попытки взаимодействия лингвистов и айтишников.

Теоретическая ветвь изучает язык как живую систему, в которой все взаимосвязано.
Реконструирует как звучал давно мертвый хеттский, например. Потому что мы знаем более поздние языки и знаем как сменяли друг друга согласные с течением времени.
Обнаруживает, что в русском "мертвец" и "покойник" - одушевленные существительные (и склоняются как одушевленные существительные), а "труп" - неодушевленное.
Исследует как формируется язык у детей. Как это ребенок, не имея ни словаря, ни грамматики, вдруг в совершенстве осваивает речь. Взрослый с иностранным языком так не может.
Спорит о том, что такое смысл слова. И как мы выводим из слов смысл предложения.
Спорит о том, является ли способность к метафоре производной от базового механизма или базовым механизмом.

Для этого придумана масса сложнейших моделей.
В практических задачах эти модели широкого применения не нашли. Исключением можно считать фонетику (она вписалась в распознавание речи).
Они настолько сложны, что у нас нет под них вычислительных мощностей. Мы, конечно, можем разобрать каждое предложение текста как классическое синтаксическое дерево, выяснить зависимости между объектами и "посчитать" смысл предложения.

Ели что, синтаксическое дерево - это вот такая штука (я еще буду о них писать):



Но это долго.
Проще считать, что предложение - это "мешок слов". И не делать операций сложнее "проверить, есть ли это слово в предложении" и "на каком расстоянии эти два слова находятся". Перейти, то есть, от иерархичности и связей нескольких типов к плоской линейности и единственному типу связи.
Текста в мире много, весь его нужно разбирать, интернет тем временем все растет, а такие штуки быстрее всего вычислять.

Так называемая компьютерная лингвистика (машинный перевод, поисковые системы) пользуется на самом деле теорией кодирования.
То есть, наукой о том какой минимальный объем данных нужен чтобы донести информацию. Брать нам кусочки по одному слову или по два? Или обнаглеть и по три? Что именно в этих фрагментах содержится ей нет особого дела.
И еще статистикой. Можем ли мы считать, что этот фрагмент из двух английских слов является переводом этого фрагмента из двух русских слов, если они часто встречаются в похожих разноязычных текстах в похожей позиции?
Никого не интересует даже связаны ли эти слова между собой в предложении. Из предыдущего абзаца может быть выдрано "слов является", например. Никого не интересует что там внутри языка.

Прекрасным примером является недавний deepdrumpf, создающий психоделические тексты по мотивам твиттера Трампа (извините).
Натравившие нейросеть на президентский твиттер люди брали за базовую единицу анализа буквы. Не слова, не морфемы. Статистическую вероятность следования одной буквы за другой.
Грамматика английского отлично воспроизведена, как видите. Как и уникальный авторский стиль.

В этом подходе большее количество данных для обучения работает лучше, чем более сложные алгоритмы, и айтишников это совершенно устраивает.
На конференциях лингвисты неизменно подходят к моим постерам и выражают восторг тем, что кто-то еще использует языковые теории, а не только простую статистику (я олдфаг).
В итоге теоретическая лингвистика пока существует сама в себе и сама для себя.

На самом деле, не все так плохо, и сейчас теория с практикой снова начали друг друга обогащать (по крайней мере, я вижу нынешний процесс именно так). Но об этом позже.
А последние двадцать лет они существовали вот в таком разделенном состоянии.
Поэтому не предлагайте вашему знакомому теоретическому лингвисту идти в Яндекс. Или в ABBYY.
Он не хочет в ABBYY.

***

Если вы дочитали до конца, буду благодарна плюсику в комментариях.
Буду также благодарна запросам о чем еще вы хотите чтобы я написала.

Upd: комментарии тут лучше лайков, потому что так я увижу на какую аудиторию пишу.

Upd2: еще я приветствую вопросы и критику что именно непонятно. учусь сейчас рассказывать о сложных темах на широкую аудиторию.

дождевые черви, blasphemy-driven development, performance latte art, белый храм науки, exterminative grammar, а голова предмет темный

Previous post Next post
Up