(продолжение начатого здесь
http://kelijah.livejournal.com/181292.html)
Хм, забавно будет, если доделать задачу лемматизации до сопоставимых с табличным поиском результатов. Тогда переезд на GPU будет тривиальным со всеми вытекающими бонусами. Лемматизация на графической карточке...
Удвоил количество пар в тренировочном датасете с 100k до 200k, модель сразу отозвалась падением validation loss в полтора раза.
Визуализация некоторых лемматизаций (строка Lemma это эталонная лемма, ниже с графическим символом идет результат лемматизации сеткой):
Wordform: мира
Lemma: мир
☑ мир
---
Wordform: кратчайший
Lemma: короткий
☒ кратоий
---
Wordform: выглядите
Lemma: выглядеть
☑ выглядеть
---
Wordform: сильным
Lemma: сильный
☒ сильнай
---
Wordform: старей
Lemma: старый
☒ старе
---
Wordform: получаю
Lemma: получать
☑ получать
---
Wordform: наивысочайшими
Lemma: высокий
☒ посовый
---
Wordform: мертвейшему
Lemma: мертвый
☒ мертвшой
---
Wordform: никакой
Lemma: никакой
☒ никкка
---
Wordform: вина
Lemma: вино
☒ вина
---
Wordform: наиярчайшей
Lemma: яркий
☒ яяркий
---
Wordform: краснейшие
Lemma: красный
☒ краснойй
---
Wordform: бывший
Lemma: бывший
☑ бывший
---
Wordform: появляются
Lemma: появляться
☑ появляться
---
Wordform: пой
Lemma: петь
☒ пой
---
Wordform: дыхания
Lemma: дыхание
☑ дыхание
---
Wordform: тяжелейший
Lemma: тяжелый
☑ тяжелый
---
Wordform: деревни
Lemma: деревня
☒ деревнит
---
Wordform: наиприятнейших
Lemma: приятный
☒ притяный
---
Wordform: открытую
Lemma: открытый
☑ открытый
PS: замечательный случай:
Wordform: наиприятнейших
Lemma: приятный
☒ притяный
То есть рекуррентная сетка в данном случае отсекла и приставку НАИ-, и аффикс. Это говорит о том, что она действительно видит морфологическую структуру слова, а не просто отсекает окончания. Ну а перестановка букв -тя- - это как дети многие слова произносят, ничего страшного.