А от НКРЯ этот корпус по сути будет отличаться только лицензией (и соответственно - подбором текстов по данному критерию)? Там уже имеются сотни млн. словоупотреблений, и на этом фоне 1 млн выглядит не очень серьезно (при том что и НКРЯ считается недостаточным для полноценных лексических исследований). Или же вы готовите более совершенный инструментарий, более качественную разметку, снятие омонимии и т. п.?
Лицензией, возможностью редактировать разметку. Для полноценных лексических исследований OpenCorpora не годится, т.к. маленький, очень смещённый в связи с лицензией. Кроме того, у нас нет поиска - без него лексические исследования будет делать трудно.
НКРЯ закрывает довольно много потребностей благодаря своему размеру, разнообразию материала, наличию поиска ... мы хотим в первую очередь сделать то, чего там нет - разметку, на которой можно делать машинное обучение и другие работы, требующие доступа ко всем данным напрямую.
В будущем разной степени отдалённости мы планируем: снимать морф. и лексическую омонимию, делать синтаксическую разметку, выделять объекты. Говорить о том, что мы сделаем разметку качественнее, чем в НКРЯ трудно, но возможность автоматической обработки и исправления разметки онлайн будет этому способствовать.
О, вы тоже пришли к этой идее. Я думала такое предложить, но меня смущает вот что: не произойдет ли смещение выборки, если информация будет распространяться таким образом, через твою френдленту? Ну, тебя читают в основном люди с высшим образованием, много компьютерщиков и лингвистов. На просьбу тоже скорее отреагируют люди, нечуждые корпусам и. т. д.
Потом - почему посты отбирает редактор? Почему бы просто не выкачать все подряд?
Да, смещение есть. Для конкретной задачи нужно будет выбирать подходящие документы из всего того, что мы соберём. Сделать вообще несмещённый корпус ни по одному параметру, наверное, очень сложно. Мы собираем скорее разнообразный материал, чтобы было из чего выбирать. Отсюда и ответ на второй вопрос: будем стараться собрать скорее больше авторов, чем больше документов одного автора.
Перепост этого обращения стоит делать ещё и потому, что чем больше разных людей прочитает, тем менее однобокий материал получится. :)
Про "выкачать всё подряд" - да, наверное, стоит это сделать, сборать отдельный архив и разметить его автоматически. Вручную мы сможем разметить только небольшое подмножество текстов.
объясни, зачем вам коммерческое использование? Вот например gcc, распространяется под GPL, "коммерчески использовать" вроде нельзя. Но никто не мешает использовать его при создании коммерческих продуктов, как инструмент. Нельзя только продавать его самого, как продукт.
Ну, gcc доступен в том числе и в виде текста -- в исходниках.
Насколько я понял, основная задача корпуса -- быть инструментом, помогающим при разработке технологий. То есть для него самого gcc-шная лицензия как раз подошла бы. Нельзя считать текст является неотъемлемой частью инструмента?
Вот скажем программные библиотеки это другое дело, они входят в продукт непосредственно. Для этого сделана лицензия LGPL (Library GPL) Которая всё ещё запрещает их продавать, но разрешает использовать как библиотеку в своём продукте.
А тут же, насколько я понимаю, никто не планирует никаким образом даже включать мои тексты в конечный продукт. Они используются в составе тестирующей и обучающей выборки при разработке, не более. Или нет?
Посмотрела по диагонали ещё раз условия лицензии. Обратила внимание на то, что согласно ей текст лицензии не может быть переведён с английского, сохранив юридическую силу. Плюс после "A “covered work” means either the unmodified Program or a work based on the Program." можно дальше не читать.
Comments 51
Reply
НКРЯ закрывает довольно много потребностей благодаря своему размеру, разнообразию материала, наличию поиска ... мы хотим в первую очередь сделать то, чего там нет - разметку, на которой можно делать машинное обучение и другие работы, требующие доступа ко всем данным напрямую.
В будущем разной степени отдалённости мы планируем: снимать морф. и лексическую омонимию, делать синтаксическую разметку, выделять объекты. Говорить о том, что мы сделаем разметку качественнее, чем в НКРЯ трудно, но возможность автоматической обработки и исправления разметки онлайн будет этому способствовать.
Reply
Я думала такое предложить, но меня смущает вот что: не произойдет ли смещение выборки, если информация будет распространяться таким образом, через твою френдленту? Ну, тебя читают в основном люди с высшим образованием, много компьютерщиков и лингвистов. На просьбу тоже скорее отреагируют люди, нечуждые корпусам и. т. д.
Потом - почему посты отбирает редактор? Почему бы просто не выкачать все подряд?
Reply
Да, смещение есть. Для конкретной задачи нужно будет выбирать подходящие документы из всего того, что мы соберём. Сделать вообще несмещённый корпус ни по одному параметру, наверное, очень сложно. Мы собираем скорее разнообразный материал, чтобы было из чего выбирать. Отсюда и ответ на второй вопрос: будем стараться собрать скорее больше авторов, чем больше документов одного автора.
Перепост этого обращения стоит делать ещё и потому, что чем больше разных людей прочитает, тем менее однобокий материал получится. :)
Reply
Reply
Это разве не ровно то, что вам нужно?
Reply
Reply
Насколько я понял, основная задача корпуса -- быть инструментом, помогающим при разработке технологий. То есть для него самого gcc-шная лицензия как раз подошла бы. Нельзя считать текст является неотъемлемой частью инструмента?
Вот скажем программные библиотеки это другое дело, они входят в продукт непосредственно. Для этого сделана лицензия LGPL (Library GPL) Которая всё ещё запрещает их продавать, но разрешает использовать как библиотеку в своём продукте.
А тут же, насколько я понимаю, никто не планирует никаким образом даже включать мои тексты в конечный продукт. Они используются в составе тестирующей и обучающей выборки при разработке, не более. Или нет?
Reply
Плюс после "A “covered work” means either the unmodified Program or a work based on the Program." можно дальше не читать.
Reply
Reply
записал
Reply
http://lvova.livejournal.com/656036.html
http://ru-wikipedia.livejournal.com/1624311.html
Reply
Leave a comment