Доверяй, но проверяй: right_to

right_to_cry

Доверяй, но проверяй

Apr 05, 2019 12:15

Иногда я предпочитаю считать статистику вручную, даже если речь идет о готовом корпусе с соответствующими функциями. (Конечно, если это не миллионные объемы.)

Например, в nltk есть встроенная функция hapaxes(). Казалось бы, по описанию (the words that occur once only) это то, что нужно, чтобы получить список гапаксов в конкретном тексте. Проблема в том, что эта функция считает и возвращает словоформы, а не леммы. В результате в список гапаксов попадает одно и то же слово в разном падеже, что гапаксом в лингвистическом смысле не является.

понедельник начинается в субботу, лингвистика