Лемматизация на GPU с помощью рекуррентной сетки

Apr 25, 2016 11:21

(продолжение начатого здесь http://kelijah.livejournal.com/181292.html)

Хм, забавно будет, если доделать задачу лемматизации до сопоставимых с табличным поиском результатов. Тогда переезд на GPU будет тривиальным со всеми вытекающими бонусами. Лемматизация на графической карточке...

Удвоил количество пар в тренировочном датасете с 100k до 200k, модель сразу отозвалась падением validation loss в полтора раза.

Визуализация некоторых лемматизаций (строка Lemma это эталонная лемма, ниже с графическим символом идет результат лемматизации сеткой):

Wordform: мира
Lemma:   мир
☑ мир
---
Wordform: кратчайший
Lemma:   короткий
☒ кратоий
---
Wordform: выглядите
Lemma:   выглядеть
☑ выглядеть
---
Wordform: сильным
Lemma:   сильный
☒ сильнай
---
Wordform: старей
Lemma:   старый
☒ старе
---
Wordform: получаю
Lemma:   получать
☑ получать
---
Wordform: наивысочайшими
Lemma:   высокий
☒ посовый
---
Wordform: мертвейшему
Lemma:   мертвый
☒ мертвшой
---
Wordform: никакой
Lemma:   никакой
☒ никкка
---
Wordform: вина
Lemma:   вино
☒ вина
---
Wordform: наиярчайшей
Lemma:   яркий
☒ яяркий
---
Wordform: краснейшие
Lemma:   красный
☒ краснойй
---
Wordform: бывший
Lemma:   бывший
☑ бывший
---
Wordform: появляются
Lemma:   появляться
☑ появляться
---
Wordform: пой
Lemma:   петь
☒ пой
---
Wordform: дыхания
Lemma:   дыхание
☑ дыхание
---
Wordform: тяжелейший
Lemma:   тяжелый
☑ тяжелый
---
Wordform: деревни
Lemma:   деревня
☒ деревнит
---
Wordform: наиприятнейших
Lemma:   приятный
☒ притяный
---
Wordform: открытую
Lemma:   открытый
☑ открытый

PS: замечательный случай:

Wordform: наиприятнейших
Lemma:   приятный
☒ притяный

То есть рекуррентная сетка в данном случае отсекла и приставку НАИ-, и аффикс. Это говорит о том, что она действительно видит морфологическую структуру слова, а не просто отсекает окончания. Ну а перестановка букв -тя- - это как дети многие слова произносят, ничего страшного.

нейросети, лемматизатор, lstm, rnn, keras, character language model, рекуррентные сети, char-rnn, python, machine learning

Previous post Next post
Up