Украинский корпус текстов

Aug 14, 2008 10:31

В России большое внимание уделяют информационным технологиям, связанным с искусственным интеллектом, информационным поиском и выборкой данных. Например, семинар по оценке методов информационного поиска РОМИП. Благодаря и специалистам Yandex (в частности, Сегаловичу iseg). Украинцы же - народ прижимистый, хозяйственный. =) В то время, как россияне делятся своими технологиями и развивают их, наши специалисты пытаются заработать на них побольше денег и не помогают остальным товарищам по цеху.

На этот счет я хочу упомянуть слабую активность META, которая позиционирует себя, как национальная поисковая система... Других украинских специалистов лингвистического направления вообще не слышно. Наша морфология, орфография и синтаксис - тайна за семью печатями. Все по лицензии - ничего людям! =(

Единственные свободно распространяемые достаточно полные словари и исходники для украинского языка - это ispell на Sourceforge. Хорошие статьи и исходники нечеткого поиска от ITMAN (Леонида Бойцова itman), украинская, русская и английская морфология, к сожалению ограниченная, от Андрея Коваленко (keva) - его система работает в поисковике META. Автоматический переводчик (Перекладачка) и словари от Валентина Соломко shcho. Много труда вложено в портал MOVA.info бывшим (а может и нет) сотрудником AO MT-софт (Рута) Виктором Сорокиным. А в Трайденте (Trident Software) разработчик переводчика Pragma Штелик (имени я к сожалению не помню) тоже возможно сменил место работы. По инсайдерской информации скоро и ABBYY поразит рынок новым самым мощным (по оценке количества слов и выражений) и точным (8 из 10 предложений переводятся практически идеально) переводчиком. Если кого не вспомнил - прошу прощения!

Это я к чему перечислил? Очень хотелось бы, чтобы все эти люди, а также и другие желающие, в меру своих сил и возможностей присоединились к идее создания опытного массива украинских текстов (т.н. Украинского корпуса) для анализа и обработки всеми желающими в научных и образовательных целях. Наша задача собрать как можно больше точных текстов, рассортировать по определенным критериям (художественные тексты, поэзия, политика, право, наука, новости и прочее). Естественно, надо будет где-то это захостить и периодически поддерживать - обновлять, добавлять, чистить.

А что Вы думаете? Прошу информационной поддержки.

UPDATE: временно включил анонимные комментарии.

лингвистка

Previous post Next post
Up