Открытый Корпус: пасьянс для слабаков. Пришло время снять неоднозначность.

Jun 04, 2012 19:35


Друзья,

1. спасибо всем, кто откликнулся на призыв разрешить использовать тексты ваших журналов в августе 2011 ( http://lazy-frog.livejournal.com/151835.html )!

2. теперь мы начали работу по ручной морфологической разметке текстов, и я прошу вас помочь нам в этом.

Под катом текст про Открытый Корпус и про то, какая именно помощь нам сейчас нужна.


Корпуса текстов со снятой морфологической неоднозначностью - очень полезный инструмент для решения целого ряда лингвистических задач. Решённые лингвистические задачи становятся потом частью интернет-поисковиков, автоматических переводчиков и других компьютерных систем включающих обработку текста. В проекте Открытый Корпус мы создаём первый свободно доступный (на условиях CC-BY-SA) корпус текстов на русском языке со снятой морфологической неоднозначностью.

Морфологическая неоднозначность - это совпадение написания разных форм одного или нескольких слов. Например:

"БЫЛИ", "СТАТЬ", "СТЕКЛО" - это существительные или глаголы?
"ДИСКУССИИ", "ШКОЛЫ", "ИНТЕРВЬЮ" - это единственное или множественное число?
...

Мы подготовили очень много (несколько миллионов) таких вопросов и будем рады, если Вы поможете нам на них ответить. На большинство вопросов может ответить любой носитель русского языка: не нужно заканчивать филфак, чтобы отличить единственное число от множественного, а женский род от мужского.

Для того, чтобы нам помочь, нужно:

1. Зарегистрироваться и залогиниться на opencorpora.org

2. Прочитать список предлагаемых пулов заданий и выбрать тот, который Вам больше нравится в данный момент (нажать "взять на разметку"). Задания про падеж сложнее заданий про род, число и часть речи. Выбирайте тот пул, который Вам понятен.

3. Ответить на вопросы про выделенные зелёным слова нажимая на кнопки под текстом.

Например: "Правда , БЫЛИ задержания , но , ... "

- кнопки "глагол" и "существительное" обозначают варианты ответа, в котором Вы уверены. В данном случае "БЫЛИ" - это глагол ;)

- кнопку "другое" нужно нажать, если Вы уверены, что хорошо понимаете этот пример, и все варианты ответа неправильные (это случается, если у нас есть ошибка в словаре). При нажатии этой кнопки нужно будет также написать комментарий, объясняющий Вашу точку зрения.

Писать комментарий также стоит, если Вы видите явную опечатку в самом примере. Они встречаются.

- кнопку "пропустить" нужно нажать, если Вы сомневаетесь в ответе. Тогда этот конкретный пример Вам больше не будут показывать. Это нормально. Никто не обязан знать всё.

- кнопки "..." слева и справа от примера нужно нажимать, если показанного контекста недостаточно для ответа на вопрос. Если после нажатия обеих кнопок с многоточием контекста всё ещё будет мало, то надо нажать кнопку "другое" и написать об этом в комментарии (неснимаемая в данном контексте неоднозначность).

- кнопка "Хочу ещё примеров!" загружает следующие пять примеров.

Если Вы нажали какую-то из кнопок-ответов ошибочно, то просто нажмите правильную - новый ответ запишется поверх старого.



4. Сделать перепост этой просьбы в ЖЖ, рассказать друзьям ( http://vk.com/wall-29874644_8 ) вконтакте, переслать ссылку своим знакомым.

Вопросов много. Любое количество ответов будет полезно. Когда кончатся те пулы, которые вывешены сейчас - опубликуем новые (мы их делим на небольшие группы, чтобы сводная таблица потом не очень долго открывалась). Один и тот же вопрос задаётся нескольким людям, чтобы мы смогли потом найти случайные ошибки.

Ответы и комментарии к ним будут просматриваться модератором перед переносом их в корпус. Т.е. это нормально, что в разборе предложений снятая омонимия появится не сразу. Но она там обязательно появится.

Кроме этого появятся:

- рейтинги пользователей по объёму, согласованности и точности разметки
- новые типы вопросов (сейчас выложены самые простые)
- логи сессий разметки с указанием времени нажатия на кнопки (специально для психолингвистов и других интересующихся процессами восприятия текста)

Спасибо!
Бочаров Виктор
OpenCorpora.org

Previous post Next post
Up