О проекте Открытый Корпус (обращение к ЖЖ-пользователям): lazy

lazy_frog

О проекте Открытый Корпус (обращение к ЖЖ-пользователям)

Aug 26, 2011 19:38

Друзья, пришло время рассказать, чем я занимаюсь. И попросить о содействии в этом деле.

Если коротко, то я занимаюсь проектом по созданию лингвистического корпуса, и нам нужны тексты под свободной лицензией, чтобы их в корпус включить. В частности, нужны тексты личных блогов. Корпус будет состоять не только из блогов. В данный момент там уже есть некоторое количество новостных текстов и текстов из Википедии. Если кто-то из вас согласен лицензировать свой личный ЖЖ (твиттер, статусы во вконтакте, ...) по лицензии CC-BY или CC-BY-SA, то это нам очень поможет. Если вы сами не хотите или не можете разрешить использование ваших текстов, но считаете нашу деятельность полезной и хотите нам помочь, то сделайте перепост или поставьте ссылку на этот текст у себя в журнале.

Дальше - обо всём по порядку и очень много букв.

Первая часть поста - о лингвистических корпусах и о нашем проекте.

Вторая - о том, как сделать, чтобы мы могли добавить ваши тексты в корпус (если вы не возражаете, конечно).

За перепост этого обращения я также буду очень благодарен, т.к. нам нужно много текстов.

О лингвистических корпусах и о проекте Открытый корпус.

Наш проект занимается созданием корпуса текстов с лингвистической разметкой. Корпус - это коллекция текстов, отобранных по определённому принципу. Бывают корпуса газетных текстов, прозы XIX века, древнерусских текстов, разговорной речи, … Лингвистическая разметка - это разнообразная информация о тексте: кто и когда его написал, о чём текст; и о словах в нём: к какой части речи относится слово, в каком падеже оно стоит, какая у него словарная форма, с какими словами в предложении оно связано, где в предложении подлежащее и сказуемое. Тут должны вспоминаться уроки русского языка в школе. Это именно то, что мы делали там, когда подчёркивали члены предложений разными линиями (одинарной, двойной, пунктиром, волнистой, ...), делали морфологический и синтаксический разбор. Я думаю, что все вспомнили. Такая информация нужна про все слова в корпусе. По крайней мере в нашем корпусе мы хотим подробности про каждое слово.

Я думаю, что у некоторых из вас уже возник вопрос «зачем это надо?». Размеченные корпуса текстов являются исходным материалом при разработке технологий анализа текста. Как минимум, они используются при тестировании этих технологий. А если для анализа текста используется какая-то математика, связанная с автоматическим обучением, то ещё и в качестве обучающей выборки. Поскольку разметка корпуса выполняется вручную или почти вручную, а сами по себе корпуса довольно велики (речь идёт о сотнях тысяч словоупотреблений) то эти размеченные данные составляют существенную часть стоимости получающихся технологий.

Когда я говорю о технологиях, я имею в виду автоматический перевод, распознавание устной речи и печатного текста, автоматическое реферирование (составление краткого обзора длинного текста), разнообразный text mining, извлечение фактов из текста, тематическую классификацию текстов (тексты о природе - в одну коробку, тексты о погоде - в другую). Т.е. это уже вполне понятные, полезные и знакомые вещи. Со статистическим переводом Google скорее всего сталкивались все присутствующие. С распознаванием печатного текста - тоже. Поиск документов в Интернете тоже использует много лингвистических технологий. Корпус - это не всё, что нужно для создания лингвистических технологий. Но иногда это так много, что если нет готового корпуса, то нет смысла браться за задачу.

Создание лингвистических технологий - не единственное назначение корпусов текстов - их ещё используют в самых разных исследованиях, при создании обучающих материалов. Но для нашего проекта это главное - мы ориентируемся на то, чтобы создать исходные данные для разработчиков. Потому что мы тоже разработчики, эти данные нам самим нужны, и мы понимаем, как их готовить.

Поскольку создание корпуса - это большая работа, то за неё берутся обычно гос. организации, разнообразные НИИ и университеты. Государство заинтересовано в том, чтобы создавались инструменты для обработки текста на государственном языке. На негосударственном тоже ... по очевидным причинам. И государство же является одним из потребителей этих технологий, т.к. его бюрократический аппарат порождает огромное множество документов на этом языке. И часто хочет разобраться и в остальных документах тоже: быстро находить что-то в прессе, обращениях населения к президенту (тендерная заявка на технологию семантического анализа этих обращений даже была опубликована недавно) и т.д..

Корпуса текстов существуют, в том числе и размеченные корпуса русских текстов. На настоящий момент нет ни одного доступного (т.е. такого, чтобы можно было скачать к себе на компьютер и обрабатывать самостоятельно) и размеченного вручную корпуса текстов на русском языке. Есть хороший, но недоступный Национальный корпус русского языка. Когда он станет доступен и станет ли - непонятно.

Поскольку размеченный корпус многим нужен, то мы решили сделать его сами, используя те знания и опыт, который накопили создатели уже существующих корпусов. В частности, мы делаем корпус таким, что его можно выкладывать в открытый доступ целиком. Для этого мы включаем в корпус только тексты, опубликованные под свободными лицензиями или находящиеся в общественном достоянии.

Разметка в нашем проекте создаётся усилиями волонтёров и результат публикуется под лицензией CC-BY-SA. Обновление происходит каждые сутки, т.е. всё, что сделали (добавили, разметили, исправили) сегодня будет упаковано и выложено для скачивания к утру (http://www.opencorpora.org/?page=downloads). Тем, кому эти данные нужны - уже можно начинать пользоваться :)

Наша ближайшая цель - создать корпус в 1 млн. словоупотреблений к концу 2011 года. На данный момент в корпус включено 150 тыс. словоупотреблений ( актуальная статистика всегда тут http://www.opencorpora.org/?page=stats ).

Если вы согласны нам помочь, то мы просим вас разрешить использование ваших текстов на условиях лицензий Creative Commons - Attribution или Creative Commons - Attribution - Share Alike. Это довольно широкие лицензии: обе позволяют дальнейшее использование материалов неограниченным кругом лиц, в том числе и в коммерческих целях. Последнее важно для нас (т.е. ограничение NonCommercial нам не подходит), т.к. мы хотим, чтобы корпус могли использовать не только студенты и аспиранты, но также и небольшие компании и стартапы. Мы надеемся, что с его помощью они смогут создать новые продукты, которые принесут пользу всем нам. Если тексты в вашем ЖЖ имеют коммерческую ценность, или вы планируете как-то зарабатывать на них деньги, то, возможно, вам не надо нам помогать (по крайней мере этим способом :) ), т.к. это (разрешение использовать ваши тексты в коммерческих целях) может повредить вашим интересам. Если ваши тексты - это ваш личный дневник, и использование их кем-то ещё (с указанием вашего авторства) или их переработка не может вам повредить, то, возможно, вам стоит нам помочь. Если хотите. ;)

Лицензии CC-BY и CC-BY-SA отличаются тем, что последняя требует, чтобы тексты (или что-то ещё), созданные с использованием ваших текстов, были опубликованы тоже по лицензии CC-BY-SA. CC-BY требует только указания вашего авторства при перепечатках оригинального или изменённого текста.

Для того, чтобы разрешить использование ваших текстов на условиях лицензий CC, сделайте, пожалуйста, следующее:

- поместите в профиль вашего ЖЖ ссылку на лицензию CC-BY-SA или CC-BY как написано тут
http://creativecommons.org/choose/results-one?license_code=by-sa&jurisdiction=&version=3.0&lang=ru
или тут
http://creativecommons.org/choose/results-one?license_code=by&jurisdiction=&version=3.0&lang=ru
(в зависимости от выбранной лицензии).

Если вы хотите разрешить использование не всех текстов в вашем журнале, то напишите об этом явно там же. Например, что можно использовать только посты с тегом "дыбр", а к остальным лицензия не относится, или что лицензия не относится к вашим комментариям, оставленным под постами других пользователей. По умолчанию мы будем считать, что лицензия относится ко всем открытым текстам, опубликованным от имени ЖЖ пользователя, в том числе к постам в сообществах и к комментариям.

Пример профиля с указанной лицензией: http://lazy-frog.livejournal.com/profile
Предлагаю использовать такой же текст, как там.

- сообщите нам о том, что мы можем использовать тексты из вашего журнала. Для этого, заполните эту форму https://docs.google.com/spreadsheet/viewform?hl=ru&formkey=dEhPc2dSMkdLdEt6VE1GZFRzTE1NcGc6MQ

Через несколько недель (да, мы работаем очень медленно) после сообщения кто-то из редакторов разметки придёт, почитает ваш ЖЖ, выберет часть постов и комментариев и поместит их в корпус. Результат будет выглядеть примерно так (это текст из ВикиНовостей): http://opencorpora.org/books.php?book_id=143&full . Потом придут другие редакторы и добавят другие "слои" разметки: уберут неправильные грамматические разборы слов и т.д..

Перед помещением текста в корпус редактор проверит ссылку на лицензию в профиле. После помещения текста в корпус он НЕ сообщит вам об этом, чтобы не беспокоить вас зря.

Если редактору доступны ваши подзамочные посты, то он всё равно НЕ будет их добавлять в корпус. Если мы встретим в вашем ЖЖ перепечатки чьих-то чужих текстов, то мы тоже не будем их добавлять.

Какие посты будет выбирать редактор разметки?

При выборе постов мы будем искать такие, комментарии к которым тоже можно утащить в корпус (т.е. авторы комментариев тоже разрешили использование своих текстов описанным способом). Нас устраивают тексты с ошибками (случайными и сделанными намеренно), опечатками, ругательствами и прочей ненормативностью. Нам важно, чтобы текст был на русском языке, т.к. мы пока занимаемся только русским.

Думаю, что несмотря на длину поста, всё равно останутся вопросы. Их лучше всего задавать в комментариях. Возможно, какие-то ответы перенесу в основной текст.

Разрешение использовать тексты - не единственный способ нам помочь. Можно также поучаствовать в проекте в качестве редактора разметки, программиста или как-нибудь ещё. Если вам это интересно - напишите мне bocharov@opencorpora.org

Если вы хотите узнать о нашем проекте подробнее, то спросите в комментариях или прочитайте (посмотрите, послушайте) тут http://opencorpora.org/?page=publications .

Если вы хотите получать новости проекта по почте, то подпишитесь на рассылку (форма в правом нижнем углу на странице http://opencorpora.org). Это может быть интересно тем, кто как-то связан с лингвистикой, компьютерной лингвистикой, автоматической обработкой текста и т.д.

Спасибо!
Бочаров Виктор
участник проекта Открытый корпус
OpenCorpora.org