Украинский корпус текстов

Aug 14, 2008 10:31

В России большое внимание уделяют информационным технологиям, связанным с искусственным интеллектом, информационным поиском и выборкой данных. Например, семинар по оценке методов информационного поиска РОМИП. Благодаря и специалистам Yandex (в частности, Сегаловичу iseg). Украинцы же - народ прижимистый, хозяйственный. =) В то время, как россияне ( Read more... )

лингвистка

Leave a comment

Comments 29

согласен anonymous August 14 2008, 08:02:07 UTC
Полностью согласен, усилия распорошены, все исследования за семью печатямию мы на портале мова.инфо пытаемся начать работу над систематизацией и пытаемся сделать больше похожими на корпус наши частотные словари, но силы ограничены все делается на энтузиазме, пока мы решили делать корпус маленьким но тщательно его размечать морфологической разметкой. процесс идет довольно медленно. создание большого корпуса как например в России было бы очень интересным но там насколько я знаю были получены немалые гранты на эту работу и академические организации опубликовали это все в интернете. У нас же каждый держит все для себя. Жаль что украинский мовно-информационный фонд тоже не спешит обнародовать корпуса текстов которые он собрал аргументируя это авторскими правами авторов текстов ( ... )

Reply

Re: согласен mover_st August 14 2008, 08:09:48 UTC
Чтобы было понятно, это комментарий Виктора Сорокина! =)
Тяжелый вопрос авторских прав. Тут я целиком согласен. Единственная открытая база, права на документы которой не принадлежат создателям - это нормативно правовые документы (как объект коллективного труда за народные деньги). С этого по крайней мере можно начать. Но в связи с досовским форматом возникают некоторые неприятности, типа рубленные слова в таблицах, переносы, разрядка и т.д. А в хтмл-овском варианте слова либо рубятся либо склеиваются из-за тегов. Так что нужно определиться с форматом хранения.

Reply

По поводу сервера mover_st August 14 2008, 08:16:24 UTC
Я работаю под разными системами, в unix - сайт Законодавство, а в виндовс планирую сделать оболочку и компоненты для редактирования и лингвистического анализа на дельфи. Как системный администратор, к сожалению, слабый, да и прав не имею таких. Но на сервер и на хостинг денег бы не пожалел.

Reply


mover_st August 14 2008, 08:41:14 UTC
Вспомнил еще! Можно добавить переводы библии на 3-х языках.

Reply

mover_st August 14 2008, 09:02:37 UTC
зачем же на 3-х языках? мы ж говорим об украинском корпусе;) насчет материалов то в нескольких вузах есть в электронном виде полные собрания сочинений различных украинских классиков - это немало. да и в интернете есть полулегальные библиотеки текстов на укр языке, но мы то их публиковать не собираемся - корпус предполагает поиск цитат и разных закономерностей а не публикацию произведения с риском повредить окмерческим интересам автора, а цитирование его в научных трудах наоборот дополнительная реклама, так что если четко продумать и технически ограничить, авторы могут и сами разрешить и предоставить свои произведения уже в электронном виде так что вполне можем залить в базу очень много текстов. но это все требует хорошей оганизации и продумывания. так же вспомнил еже один аспект - корпус и все производные должны храниться в достаточно ответственном месте чтоб донор (текстов или програмных решений) не задумывался что его труд может пропасть бесследно или быть использован в комерческих целях другими участниками. решение этого вопроса ( ... )

Reply

mover_st August 14 2008, 09:08:25 UTC
Три языка в связи со структурой книги. Чтобы во-первых иметь образцы для перевода, во-вторых, строить связи и этимологии. Учитывать нужно не только текст, но и абзацы, статьи, главы, разделы, книги... Это применяется для установления весовых коэфициентов в последствии для важности фраз. Отсюда - строить тезаурусы.

Reply

mover_st August 14 2008, 09:09:37 UTC
Так работает "перекладачка". Имеется пара текстов (билингва). Делается анализ, находится перевод.

Reply


magenta_13 August 14 2008, 09:26:59 UTC
Для того, чтобы процесс запустился, нужно более одного желающего, нужен организатор, нужен альянс с какой-либо серьезно затнтересованной компанией (возможно, названной Вами - образовательные шаги ПРщики предпринимали не раз), а главное - помимо расплывчатой констатации факта надобен внятный план действий. С ним могут соглашаться или не соглашаться, его могут дополнять и править... но пока он не предложен - беседы с коллегами будут беспредметны.

Ссылку поставлю... только чур, прежде несколько слов того... kill -9 ;-)

Reply

mover_st August 14 2008, 10:04:16 UTC
Спасибо за совет! План будет чуть погодя, и необходимое прогаммное обеспечение для преобразования и подготовки текстов. Главное было очертить круг желающих, и обсудить возможные варианты исполнения.

Reply

mover_st August 14 2008, 10:13:32 UTC
Спасибо большое! И с праздником Маковеев! =)

Reply


Корпус текстов anonymous August 14 2008, 11:18:20 UTC
Готов временно открыть доступ напрямую к поисковой машине - по договорённости, естественно, или просто вычислить требуемые запросы без всяких неявных ограничений. Поисковик сейчас умеет хорошо отделять украинские документы от неукраинских.

Можем и захостить это дело у нас.

Андрей Коваленко aka Keva.
http://www.meta.ua/
http://www.keva.ru/

P.S. Отдавать людям за спасибо то, что делалось годами вручную - до сих пор рука не поднимается. Жалко :). Лучше на вырученные от лицензий деньги я буду покупать себе новые автомобили BMW (сейчас мне X6 стал нравиться) и летать купаться на Koh Samui :)

Reply

Re: Корпус текстов mover_st August 14 2008, 11:23:26 UTC
Замечательно! Я собственно и предпологал, что серъезным держателем украинского корпуса может быть МЕТА. =) Про остальное лучше поговорить вне блога. Мой номер аськи в профиле. Если не затруднит.

Reply

Re: Корпус текстов anonymous August 14 2008, 11:59:29 UTC
Хотелось бы уточнить тогда предмет, говоря о корпусе мы имеем ввиду нечто похожее на это? http://ruscorpora.ru/search-main.html
если да то вопрос к МЕТА - насколько информация в индексах похожа на то что выдается в руском корпусе? т.е. я так понимаю на индексирующую машину надо сделать надстройку и пользозваться ее результатами? или использовать ее просто как источник текстов а базу корпуса сторить заново? какая информация уже есть в базе?
Виктор Сорокин

Reply


(The comment has been removed)

mover_st August 14 2008, 15:41:29 UTC
В Украине пока нет кучи.. Наскребсти хотя бы элементарный морфологический набор. =)

Reply

(The comment has been removed)

mover_st August 14 2008, 15:57:44 UTC
Этого тоже не мало. Там такая функциональность, что для начального уровня (тестов) хватит с головой. А в последствии нужно переписать свою собственную. И не забыть раскрыть исходники.

Reply


Leave a comment

Up