онлайн-словарь

Русский part-of-speech tagger, тренированный на 180 тыс. предложениях

kelijah Dec 03, 2013 07:37

Вероятностная модель для снятия морфологической неоднозначности после тренировки на корпусе в 180,000 предложений показывает точность ~97.81% (или 2.19% ошибочных тегов ( Read more... )

part-of-speech tagging, морфологический разбор текста, онлайн-словарь, вероятностная русская морфология, Морфологический анализ, частеречная разметка, pos tagger

Leave a comment

Пересчет русской морфологической модели и обновление парсера - 110 тысяч эталонных предложений

kelijah Oct 03, 2013 18:21

Вероятностная модель пересчитана по эталонному корпусу в 110 тысяч предложений.
Время пересчета - около 8 часов.
Файл данных модели - 78 Мб.

В синтаксическую модель внесено несколько изменений для среднечастотных конструкций.

Ссылки на онлайн-версию словаря с обновлением:

Part-Of-Speech Tagger http://178.64.252.139:8080/POSTagger.aspxDependency ( Read more... )

синтаксис, онлайн-словарь, русский язык, вероятностная русская морфология, вероятностная модель, pos tagger

Leave a comment

Part-Of-Speech Tagging for Russian: текущий пересчет модели

kelijah Sep 30, 2013 18:14

Модель обучена на ~50,000 эталонных предложений с частеречной разметкой из нашего тестового TreeBank.

Объем файла сохраненной модели ~52 Мб

Время построения модели ~2 часа

Part-Of-Speech Tagger с этой моделью доступен на тестовом сервере по ссылке http://178.64.252.139:8080/POSTagger.aspx.

онлайн-словарь, вероятностная русская морфология, вероятностная модель, pos tagger

Leave a comment

Обновление вероятностной модели морфологии на http://178.64.252.139:8080/POSTagger.aspx

kelijah Sep 27, 2013 18:44

Закончился пересчет на 30 тысячах предложений (из 130 тысяч в эталонном корпусе) для модели морфологии на основе CRF + переходные вероятности, так что получается нормальный sequence labeling алгоритм.

Оптимизация системы занимает примерно час.

Получается файл размером около 38 Мб.

Вероятностная модель доступна в отладочном режиме (не круглосуточно) по ( Read more... )

онлайн-словарь, вероятностная русская морфология, Морфологический анализ

Leave a comment

Распознавание слов: утилита WordRecognition как пример в SDK и онлайн

kelijah Sep 26, 2013 08:58

Сделал очередной пример использования API грамматического словаря.
Программа WordRecognition, реализованная на C++, выполняет чтение слова из указанного в аргументах запуска текстового файла (utf-8), загружает грамматический словарь (http://www.solarix.ru/api/ru/sol_LoadDictionary.shtml), заполняет распознавание слова (http://www.solarix.ru/api/ ( Read more... )

online parser, онлайн-словарь, Морфологический анализ

Leave a comment

Online Part-of-speech Tagger for Russian

kelijah Sep 14, 2013 12:22

Выложил в тестовый онлайн утилиту POSTagger и текущую версию грамматического словаря с вероятностной моделью русской морфологии (Conditional Random Fields + Hidden Marcov Model):

http://178.64.252.139:8080/POSTagger.aspx

Модель обучена по относительно небольшой части корпуса (примерно 20%), что можно увидеть по некоторым результатам:

( Read more... )

морфологический разбор текста, онлайн-словарь, crf, вероятностная русская морфология, Морфологический анализ, hmm, pos tagger, conditional random fields, вероятностная модель, снятие омонимии, hidden markov model

Leave a comment

Глубокая переработка правил разбора сказуемого

kelijah Sep 02, 2013 07:57

1. Переработан парсинг именного сказуемого в случаях, когда оно включает краткую форму прилагательного или страдательное причастие:

http://178.64.252.139:8080/Morphology.aspx?Phrase=%d0%a7%d0%b5%d0%bb%d0%be%d0%b2%d0%b5%d0%ba+%d0%b4%d0%be%d0%bb%d0%b6%d0%b5%d0%bd+%d0%b2%d1%8b%d0%bf%d0%be%d0%bb%d0%bd%d0%b8%d1%82%d1%8c+%d1%82%d0%be%2c+%d1%87%d1%82%d0% ( Read more... )

парсер, онлайн-словарь, русский язык, глаголы, синтаксический анализатор

Leave a comment

Тестовые предложения для парсера

kelijah Feb 06, 2013 19:17

Первая страница (первое, самое длинное предложение будет разбираться очень долго из-за текущих особенностей алгоритма):
http://178.64.252.139:8080/syntactic_test_sentences.html

парсер, онлайн-словарь, web api

Leave a comment

Кликабельные списки тестовых предложений

kelijah May 26, 2012 16:25

английский тестовый корпус

русский тестовый корпус

онлайн-словарь, русский язык, английский язык, синтаксический анализатор

Leave a comment

Страница статистики после починки

kelijah Feb 19, 2012 15:39

Дошли руки до исправления ошибок при выводе страницы статистики. Заодно залил текущую экспериментальную версию словарной базы, это можно заметить по увеличению объема русского лексикона до ~ 176 тысяч статей.

SQL словарь, грамматический словарь, онлайн-словарь

Leave a comment