Иногда я предпочитаю считать статистику вручную, даже если речь идет о готовом корпусе с соответствующими функциями. (Конечно, если это не миллионные объемы.)
Например, в nltk есть встроенная функция hapaxes(). Казалось бы, по описанию (
the words that occur once only) это то, что нужно, чтобы получить список гапаксов в конкретном тексте. Проблема в том, что эта функция считает и возвращает словоформы, а не леммы. В результате в список гапаксов попадает одно и то же слово в разном падеже, что гапаксом в лингвистическом смысле не является.