Привел в порядок и выложил
пакет rupostagger - простую (и не SOTA) реализацию алгоритма для разметки слов тегами. Пакет не делает ничего, кроме разметки, поэтому токенизацию надо делать самостоятельно. Я использую пакет под 2 и 3 веткой питона, под Windows и Linux. Батарейки (обученная русская языковая модель) входят в комплект, ничего
(
Read more... )
Comments 3
Попытался воспользоваться вашим лематайзером.
Всё уставновил.
Токенайзер работает.
А вот tagger.tag(tokens)
выдаёт ошибку:
file is encrypted or is not a database
Я в интернете поискал, вроде что-то связано с SQL, но толком ничего не нашёл. Может, вы подскажете?
Спасибо.
Reply
>А вот tagger.tag(tokens)
>выдаёт ошибку:
>file is encrypted or is not a database
да, известная беда. Почему-то на этом репозитории (https://github.com/Koziev/ruword2tags) LFS не хочет иногда выгружать файл ruword2tags.db (https://github.com/Koziev/ruword2tags/blob/master/ruword2tags/ruword2tags.db). Он имеет размер около 180 Мб. Но на некоторых хостах git clone выгружает его с размером ~150 байтов и ничего не помогает. Я так и не понял причину :(
Единственный рабочий способ - клонировать этот реп локально, затем подменить файл базы данных, скачав его отсюда https://drive.google.com/open?id=1xlL8ijnwE6tAPpsil7Q1yWkXY4mn2YCd, затем установить пакет через "pip3 install .". После этого rupostagger станет работать.
Reply
Reply
Leave a comment