Частотность и современный японский язык

May 21, 2013 14:10

Друзья, как вы думаете, как часто употребляются те либо иные японские слова в интернете? Наверное, человек 人 одно из самых распространенных слов.

У меня возникла идея, что если взять всю японскую википедию и вычленить из нее все слова, а также посчитать кол-во повторений этих слов (см. Частотность), отсортировать полученный результат по убыванию, то сверху вниз пойдут самые употребимые слова по направлению к самым неупотребимым. Из этих слов можно составить неплохой электронный словарь. К сожалению, чтобы это реализовать, необходимы навыки парсинга интернет страниц, которых у меня нет.

Кстати, я посчитал частотность иероглифов на основании электронного словаря Warodai (около 125000 слов). Вот первые сто иероглифов в порядке убывания.
[Spoiler (click to open)]


2074


1981


1581


1574


1549


1466


1395


1384


1342


1336


1266


1239


1198


1168


1141


1129


1113


1107


1096


1095


1074


1047


1043


1032


1022


1011


1002


999


996


990


975


970


967


959


950


940


933


924


924


902


895


893


892


846


845


844


841


838


830


823


816


815


812


787


786


774


772


756


751


739


739


739


711


688


688


683


682


679


675


675


663


663


654


653


652


650


644


626


619


619


615


610


608


606


601


597


592


586


585


583


581


579


578


570


565


564


558


555


553


553


японский язык

Previous post Next post
Up