1) Поверьте мне, там именно что 3000 статей. Производных слов около 140 тыс. Я посчитал. 2) А что, в Сети есть тихоновский словарь в распознанном виде? Буду признателен за ссылку.
Точно 140? Если так, то таки да... Словаря Тихонова ни в распознанном, ни даже в отсканированном виде нигде нет. Был бы признателен, если б кто-то хотя бы сканировал:]
Кстати, если считать по тихоновским гнездам, то выходит почти так же. На "листьях" в данном словаре 101 тыс. слов, на ветвях разного уровня около 40 тыс. слов.
Взять да и сложить: у него на каждую букву все гнёзда пронумерованы, в т.ч. и состоящие из одного слова (т.е. из непроизводящей основы). По его же собственным подсчётам, последних 5497. 12 тыс. гнёзд - это тех, в которых есть производные слова.
Здесь парадигма несколько иная. Жаль, нет авторской статистики. Я-то как сделал: слил все 3000 файлов HTML в один и посчитал там количество тегов BR и UL. Каждый BR - это слово "без ветвления", UL - "с ветвлением". Первых 100 тыс, вторых 40 тыс. Вот как выглядит сырец для той же "беседы" (один из 3000 файлов)
Reply
2) А что, в Сети есть тихоновский словарь в распознанном виде? Буду признателен за ссылку.
Reply
Reply
Reply
Reply
Reply
Reply
Reply
Reply
Reply
Вот как выглядит сырец для той же "беседы" (один из 3000 файлов)
( ... )
Reply
Leave a comment