rupostagger - простой пакет для частеречной разметки русскоязычных предложений

Jan 20, 2019 17:16

Привел в порядок и выложил пакет rupostagger - простую (и не SOTA) реализацию алгоритма для разметки слов тегами. Пакет не делает ничего, кроме разметки, поэтому токенизацию надо делать самостоятельно. Я использую пакет под 2 и 3 веткой питона, под Windows и Linux. Батарейки (обученная русская языковая модель) входят в комплект, ничего ( Read more... )

part-of-speech tagging, nlp, русский язык, python, частеречная разметка, pos tagger

Leave a comment

Comments 3

rupostagger ext_5407563 May 23 2020, 01:25:21 UTC
Здравствуйте.
Попытался воспользоваться вашим лематайзером.
Всё уставновил.
Токенайзер работает.
А вот tagger.tag(tokens)
выдаёт ошибку:
file is encrypted or is not a database
Я в интернете поискал, вроде что-то связано с SQL, но толком ничего не нашёл. Может, вы подскажете?
Спасибо.

Reply

Re: rupostagger kelijah May 25 2020, 06:08:50 UTC
Привет,

>А вот tagger.tag(tokens)
>выдаёт ошибку:
>file is encrypted or is not a database

да, известная беда. Почему-то на этом репозитории (https://github.com/Koziev/ruword2tags) LFS не хочет иногда выгружать файл ruword2tags.db (https://github.com/Koziev/ruword2tags/blob/master/ruword2tags/ruword2tags.db). Он имеет размер около 180 Мб. Но на некоторых хостах git clone выгружает его с размером ~150 байтов и ничего не помогает. Я так и не понял причину :(

Единственный рабочий способ - клонировать этот реп локально, затем подменить файл базы данных, скачав его отсюда https://drive.google.com/open?id=1xlL8ijnwE6tAPpsil7Q1yWkXY4mn2YCd, затем установить пакет через "pip3 install .". После этого rupostagger станет работать.

Reply

Re: rupostagger ext_5407563 May 25 2020, 18:30:36 UTC
Спасибо, заработало :)

Reply


Leave a comment

Up