морфемный словарь

Mar 20, 2011 15:32

Перечень словарей для скачивания пополнился новым пунктом:
Словообразовательно-морфемный словарь русского языка (3000 статей, 3.6 МБ CHM)
Скачать можно отсюда: http://speakrus.ru/dict/index.htm#morpheme
Образец статьи )

словари, публикации

Leave a comment

grisha_fomenko March 20 2011, 13:14:38 UTC
А вот здесь указано, что 3000 не статей, а слов. Разница чертовская. Против исходных 144808 слов и 12621 гнезда тихоновского словаря хлипковато будет.

Reply

arno1251 March 20 2011, 14:34:59 UTC
1) Поверьте мне, там именно что 3000 статей. Производных слов около 140 тыс. Я посчитал.
2) А что, в Сети есть тихоновский словарь в распознанном виде? Буду признателен за ссылку.

Reply

grisha_fomenko March 20 2011, 14:58:36 UTC
Точно 140? Если так, то таки да... Словаря Тихонова ни в распознанном, ни даже в отсканированном виде нигде нет. Был бы признателен, если б кто-то хотя бы сканировал:]

Reply

arno1251 March 20 2011, 15:28:04 UTC
Я держал этот двухтомник в руках, и не представляю даже близко, как его можно сканировать и распознать. Если только в PDF его перегнать постранично.

Reply

grisha_fomenko March 20 2011, 17:33:43 UTC
Сканировать-то можно, а вот распознавать смысла нет.

Reply

arno1251 March 20 2011, 18:06:59 UTC
это точно

Reply

arno1251 March 20 2011, 14:42:43 UTC
Кстати, если считать по тихоновским гнездам, то выходит почти так же. На "листьях" в данном словаре 101 тыс. слов, на ветвях разного уровня около 40 тыс. слов.

Reply

grisha_fomenko March 20 2011, 14:56:16 UTC
Тихонов-то подсчитал, что у него как раз 12 тыс. с гаком только гнёзд, а вот как из 3 тыс. гнёзд получилось 140 тыс. слов?

Reply

arno1251 March 20 2011, 15:25:45 UTC
Весь вопрос в том, как считать эти гнезда... Каждую непроизводящую основу как - считать за гнездо?

Reply

grisha_fomenko March 20 2011, 17:36:12 UTC
Взять да и сложить: у него на каждую букву все гнёзда пронумерованы, в т.ч. и состоящие из одного слова (т.е. из непроизводящей основы). По его же собственным подсчётам, последних 5497. 12 тыс. гнёзд - это тех, в которых есть производные слова.

Reply

arno1251 March 20 2011, 18:05:04 UTC
Здесь парадигма несколько иная. Жаль, нет авторской статистики. Я-то как сделал: слил все 3000 файлов HTML в один и посчитал там количество тегов BR и UL. Каждый BR - это слово "без ветвления", UL - "с ветвлением". Первых 100 тыс, вторых 40 тыс.
Вот как выглядит сырец для той же "беседы" (один из 3000 файлов)

... )

Reply


Leave a comment

Up