Автоматизация леммантизации

Sep 20, 2017 18:54

За суетой по поводу всяких блокчейнов с биткойнами напоминаю, что реальное полезное свойство компьютеров - это автоматизация. Мой собственный пример автоматизации работы с текстом, позволяющий получить словарь содержащихся в тексте слов в базовой (леммантизированной) форме. Например, вводите какой-нибудь текст из своего бложика и получаете список слов для тегов, или же убеждаетесь, что ваш словарный запас немногим больше чем у Эллочки Людоедки.

Создание списка слов из текста

У меня используется стандартный словарик ISPELL, в котором есть ошибки. Со временем словарик по возможности усовершенствую.

З.Ы. Исходники пока не выкладываю, потому что это жуткий быдлокод, и мне стыдно их показывать. Потом выложу.
З.З.Ы. Некоторые словоформы могут приводится к нескольким базовым формам. Например слово "меня" будет приведено к леммам "я" и "мень".
Previous post Next post
Up