Генерация OOV лексики

Jul 21, 2020 14:37


Есть вот такой побочный результат небольшого ресеча в области русского словоизменения и словообразования. Относительно небольшой код генерирует словоформы в любых количествах, позволяя получить "out-of-vocabulary грамматический словарь" любого объема. Процесс unsupervised, то есть никаких ручных правил не требуется, псевдокорни и флексии берутся из имеющегося грамматического словаря. Без GPT-2 :).
Для примера - некоторые формы существительных:

Номинатив (кто? что?), единственное число:

труженолюбец
алхимчанин
весельчанин
служничек
мазонопятник
распрысенок
автовордист
коротрейдер

Инструменталис (кем? чем?), единственное число:

недержантом
буденоносом
исцеядцем
руководилой
аргационером

Датив (кому? чему?), единственное число:

наркомутнику
совещатнику
трилобалисту
сухоносчику
насептикону

Интересный, и возможно умный вопрос возникает при просмотре этого безобразия. Многие формы забавны для русскоязычного нейтива, при том, что вот именно эти слова точно не входят ни в активный, ни в пассивный словарный запас. Должен быть какой-то объективный процесс из области когнитивной лингвистики, который обеспечивает эту самую "забавность".

PS: еще немного забавных номинативов:


соисканчик
соображатель
мурлыкастик
химист
судоводник
пастолюбец
гаражечник
ходитель
медработчик
лирушка
скупченец
стайщик
пофинушка
чинукченок
кубанчик
папочник
завивчик
мамонщик
продюсерист
виноградец
второкурсант
артритолог
москвичист
подкционер
бутболист
погонниколог
общелыга
задолюбец
услужитель
нажимщик
цыганчанин
сатанец
халтурист
профанец
богоноситель
стройлесхоз
электропоход
кожзаводишко
компиляторий
фейсбулятор
карьергард
червятильник
хлороценоз
протохлорит

генеративная грамматика, существительное, генерация текста, морфология, лексика

Previous post Next post
Up