Comments | lazy_frog: О проекте Открытый Корпус (обращение к ЖЖ-пользователям)

lazy_frog

О проекте Открытый Корпус (обращение к ЖЖ-пользователям)

Aug 26, 2011 19:38

Друзья, пришло время рассказать, чем я занимаюсь. И попросить о содействии в этом деле ( Read more... )

Comments 51

al_silonov August 26 2011, 20:40:56 UTC

А от НКРЯ этот корпус по сути будет отличаться только лицензией (и соответственно - подбором текстов по данному критерию)? Там уже имеются сотни млн. словоупотреблений, и на этом фоне 1 млн выглядит не очень серьезно (при том что и НКРЯ считается недостаточным для полноценных лексических исследований). Или же вы готовите более совершенный инструментарий, более качественную разметку, снятие омонимии и т. п.?

lazy_frog August 27 2011, 07:56:01 UTC

Лицензией, возможностью редактировать разметку. Для полноценных лексических исследований OpenCorpora не годится, т.к. маленький, очень смещённый в связи с лицензией. Кроме того, у нас нет поиска - без него лексические исследования будет делать трудно.

НКРЯ закрывает довольно много потребностей благодаря своему размеру, разнообразию материала, наличию поиска ... мы хотим в первую очередь сделать то, чего там нет - разметку, на которой можно делать машинное обучение и другие работы, требующие доступа ко всем данным напрямую.

В будущем разной степени отдалённости мы планируем: снимать морф. и лексическую омонимию, делать синтаксическую разметку, выделять объекты. Говорить о том, что мы сделаем разметку качественнее, чем в НКРЯ трудно, но возможность автоматической обработки и исправления разметки онлайн будет этому способствовать.

l_i_d_y_a August 27 2011, 04:55:23 UTC

О, вы тоже пришли к этой идее.
Я думала такое предложить, но меня смущает вот что: не произойдет ли смещение выборки, если информация будет распространяться таким образом, через твою френдленту? Ну, тебя читают в основном люди с высшим образованием, много компьютерщиков и лингвистов. На просьбу тоже скорее отреагируют люди, нечуждые корпусам и. т. д.

Потом - почему посты отбирает редактор? Почему бы просто не выкачать все подряд?

lazy_frog August 27 2011, 08:02:46 UTC

Я помню, что ты об этом говорила :)

Да, смещение есть. Для конкретной задачи нужно будет выбирать подходящие документы из всего того, что мы соберём. Сделать вообще несмещённый корпус ни по одному параметру, наверное, очень сложно. Мы собираем скорее разнообразный материал, чтобы было из чего выбирать. Отсюда и ответ на второй вопрос: будем стараться собрать скорее больше авторов, чем больше документов одного автора.

Перепост этого обращения стоит делать ещё и потому, что чем больше разных людей прочитает, тем менее однобокий материал получится. :)

lazy_frog August 28 2011, 09:05:08 UTC

Про "выкачать всё подряд" - да, наверное, стоит это сделать, сборать отдельный архив и разметить его автоматически. Вручную мы сможем разметить только небольшое подмножество текстов.

fat_crocodile August 27 2011, 09:19:26 UTC

объясни, зачем вам коммерческое использование? Вот например gcc, распространяется под GPL, "коммерчески использовать" вроде нельзя. Но никто не мешает использовать его при создании коммерческих продуктов, как инструмент. Нельзя только продавать его самого, как продукт.

Это разве не ровно то, что вам нужно?

lvova August 27 2011, 09:42:25 UTC

Вот только это лицензия на программу, а не на текст.

fat_crocodile August 27 2011, 09:51:34 UTC

Ну, gcc доступен в том числе и в виде текста -- в исходниках.

Насколько я понял, основная задача корпуса -- быть инструментом, помогающим при разработке технологий. То есть для него самого gcc-шная лицензия как раз подошла бы. Нельзя считать текст является неотъемлемой частью инструмента?

Вот скажем программные библиотеки это другое дело, они входят в продукт непосредственно. Для этого сделана лицензия LGPL (Library GPL) Которая всё ещё запрещает их продавать, но разрешает использовать как библиотеку в своём продукте.

А тут же, насколько я понимаю, никто не планирует никаким образом даже включать мои тексты в конечный продукт. Они используются в составе тестирующей и обучающей выборки при разработке, не более. Или нет?

lvova August 27 2011, 09:56:59 UTC

Посмотрела по диагонали ещё раз условия лицензии. Обратила внимание на то, что согласно ей текст лицензии не может быть переведён с английского, сохранив юридическую силу.
Плюс после "A “covered work” means either the unmodified Program or a work based on the Program." можно дальше не читать.

Thread 10

arilou August 28 2011, 12:30:24 UTC

В моём журнале давно стоит cc-by-sa, см. начало текста "О себе" в моём профиле.

lazy_frog August 28 2011, 13:16:23 UTC

спасибо!
записал

lazy_frog August 29 2011, 12:39:16 UTC

Ссылки на дискуссии под перепостами в других журналах:

http://lvova.livejournal.com/656036.html
http://ru-wikipedia.livejournal.com/1624311.html