Украинский корпус текстов

Aug 14, 2008 10:31

В России большое внимание уделяют информационным технологиям, связанным с искусственным интеллектом, информационным поиском и выборкой данных. Например, семинар по оценке методов информационного поиска РОМИП. Благодаря и специалистам Yandex (в частности, Сегаловичу iseg). Украинцы же - народ прижимистый, хозяйственный. =) В то время, как россияне ( Read more... )

лингвистка

Leave a comment

anonymous August 14 2008, 09:02:37 UTC
зачем же на 3-х языках? мы ж говорим об украинском корпусе;) насчет материалов то в нескольких вузах есть в электронном виде полные собрания сочинений различных украинских классиков - это немало. да и в интернете есть полулегальные библиотеки текстов на укр языке, но мы то их публиковать не собираемся - корпус предполагает поиск цитат и разных закономерностей а не публикацию произведения с риском повредить окмерческим интересам автора, а цитирование его в научных трудах наоборот дополнительная реклама, так что если четко продумать и технически ограничить, авторы могут и сами разрешить и предоставить свои произведения уже в электронном виде так что вполне можем залить в базу очень много текстов. но это все требует хорошей оганизации и продумывания. так же вспомнил еже один аспект - корпус и все производные должны храниться в достаточно ответственном месте чтоб донор (текстов или програмных решений) не задумывался что его труд может пропасть бесследно или быть использован в комерческих целях другими участниками. решение этого вопроса довольно важно, нужно решить вопрос о каком-то виде гпл лицензии или вроде того.
Виктор Сорокин

Reply

mover_st August 14 2008, 09:08:25 UTC
Три языка в связи со структурой книги. Чтобы во-первых иметь образцы для перевода, во-вторых, строить связи и этимологии. Учитывать нужно не только текст, но и абзацы, статьи, главы, разделы, книги... Это применяется для установления весовых коэфициентов в последствии для важности фраз. Отсюда - строить тезаурусы.

Reply

mover_st August 14 2008, 09:09:37 UTC
Так работает "перекладачка". Имеется пара текстов (билингва). Делается анализ, находится перевод.

Reply

mover_st August 14 2008, 09:17:45 UTC
А что касается лицензии и гарантированного держателя ресурса, то с єтими вопросами лучше разобраться "на берегу", т.е. до начала создания проекта. Возможно понадобится помощь http://inau.org.ua/ru.phtml Интернет Ассоциации Украины

Reply


Leave a comment

Up