Корпус крымскотатарского языка

Oct 02, 2014 16:22

Къырымтатар тилининъ лингвистик корпусы - совместное детище Симферопольского унаверситета и Института языкознания Словацкой академии наук
Поиск доступен здесь:
http://korpus.juls.savba.sk/QIRIM/

Тескты кириллические.

И об агглютинативности крымскотатарского и о правильных - в смысле компьютерной лингвистики :) - типах языков, цитата:
Для корпуса важно существование морфологического анализатора и лемматизатора, который позволяет ... /ну много нужного и приятного/
На самом деле, агглютинативный характер крымскотатарского языка позволяет заместить отсутствие поиска по леммам использованием регулярных выражений. Так например для того чтобы найти все формы слова бала (ребенок), надо ввести регулярное выражение бала.*, где . заменяет любой символ, и * соответствует нулю или более копий предыдущего (любого) символа, в результате чего такой запрос вернёт все формы (т. е. падежи) слова бала.
(Garabík Radovan, Кубединова Ленара Шакировна. Корпус текстов крымскотатарского языка. In: Tруды международной конференции MegaLing'2006 - Горизонты прикладной лингвистики и лингвистических технологий. Партенит, Ukraine)

И конкретно о логичности и удобстве правильных агглютинативных языков.
Пара примеров из корпуса (из Гарабека-Кубетдиновой) с некоторыми моими пояснениями:

радиоэшиттирювлеримизнинъ - "наших радиопередач", где
радио - корень,
эшит-  - корень (инфинитив "эшиттирмек" - eşittirmek),
юв-  - аффикс отглагольного словообразования имён существительных
-лер - аффикс множественного числа,
-имиз - аффикс принадлежности настоящего времени 1 лица множественного числа,
-нинъ - аффикс родительного падежа.

укъукъкъорчалайыджыларгъа - "правозащитникам", где
укъукъ - корень ("право")
къорчалай- - корень ("защитник" - но не в юридическом смысле - адвокат - а в чисто физическом: отглагольно от защищать - qorçalamaq)
-ыджы- - аффикс отглагольного словообразования имён существительных,
-лар- аффикс множественного числа,
-гъа - аффикс дательно-направительного падежа.

P.S. Крымскотатарский онлайн словарь // Alem-i Medeniye. Латинница. Здесь же можно скачать файл для Lingvo.

pro memoria, Лингвистика, Крым

Previous post Next post
Up