Датасеты по сочетаемости слов в группах из 2, 3 и 4 слов (mutual information)

Mar 04, 2018 08:19

В репозитории https://github.com/Koziev/NLP_Datasets/tree/master/MutualInfo выложены датасеты со статистикой по устойчивым сочетаниям слов. Датасеты получены с помощью C# кода, выложенного тут (см. описание) и урезаны до 100,000 первых записей, так как выложить полные файлы размером более 2 Гб на гитхаб невозможно.

Внутри файлов можно увидеть такие данные:

в    _num_    году    0.001967549091205
до    сих    пор    0.00155391998123378
в    конце    концов    0.00105052231810987
тем    не    менее    0.00100939883850515
по    крайней    мере    0.000935689778998494
к    тому    же    0.000906699395272881
на    самом    деле    0.000905484252143651
во    всяком    случае    0.000725110352504998
на    этот    раз    0.000597159843891859
с    тех    пор    0.000531908415723592
_num_    млн    рублей    0.000472747866297141
в    настоящее    время    0.000471909705083817
на    следующий    день    0.000440214615082368
судя    по    всему    0.000434376997873187
ни    разу    не    0.000423699559178203
в    этом    году    0.000418924260884523

статистика, датасеты, N-граммы

Previous post Next post
Up