В репозитории
https://github.com/Koziev/NLP_Datasets/tree/master/MutualInfo выложены датасеты со статистикой по устойчивым сочетаниям слов. Датасеты получены с помощью C# кода, выложенного
тут (см.
описание) и
урезаны до 100,000 первых записей, так как выложить полные файлы размером более 2 Гб на гитхаб невозможно.
Внутри файлов можно увидеть такие данные:
в _num_ году 0.001967549091205
до сих пор 0.00155391998123378
в конце концов 0.00105052231810987
тем не менее 0.00100939883850515
по крайней мере 0.000935689778998494
к тому же 0.000906699395272881
на самом деле 0.000905484252143651
во всяком случае 0.000725110352504998
на этот раз 0.000597159843891859
с тех пор 0.000531908415723592
_num_ млн рублей 0.000472747866297141
в настоящее время 0.000471909705083817
на следующий день 0.000440214615082368
судя по всему 0.000434376997873187
ни разу не 0.000423699559178203
в этом году 0.000418924260884523