NLTK по-русски

May 28, 2012 11:00

Natural Language Toolkit (NLTK) -- питоновская библиотека обработки текстов на естественном языке http://nltk.org/ (если Windows, то устанавливать нужно по инструкции из http://nltk.org/install.html для сорцов, ибо 32-битная инсталляция конфликтует с Питоном 2.7, там все имена настроены только на Питон 2.5).

Учебник Питона и компьютерной обработки текстов на естественном языке, использующий NLTK: http://nltk.org/book/
Учебник хорош тем, что ипользует множество корпусов текстов, доступных онлайн в NLTK, и он содержит множество упражнений. Учебник не требует начального знания Питона (одновременность обучения Питону и обработке текстов -- это тут ключевая фишка).

NLTK, конечно, не IBM Watson и UIMA, и не ABBY Compreno, и не многие другие мейнстримные пакеты, но: целевое назначение такое же, коды открыты. Как я понял, крепкий "середнячок" с акцентами на учебность (что резко снижает барьеры входа) и Питон (что особо удобно в связи с нашим dot15926 проектом. Плюс русскоязычная академическая тусовка, похоже, начала концентрироваться именно в этом месте.

Гуглегруппа NLTK по-русски: http://groups.google.com/group/nltk-russian/topics

Гуглегруппа по переводу этого учебника на русский язык:
-- история, откуда эта группа произошла: https://groups.google.com/forum/#!topic/nltk-translation/blVzG5YUKX4
-- собственно гуглегруппа: http://groups.google.com/group/nltk-russian?lnk=srg&hl=ru&ie=UTF-8&oe=utf-8
-- скайп-группа (чаты): skype:?chat&blob=Sktiy745QqI6lL4uzZcQVnBxAoL1l6DgjIWNHDdhGkB7PxVixhlc0dPBGdZM0SxRCMg9nSt2bw (Если открыть ссылку при помощи браузера, её должен подхватить Скайп. В Линуксе надо нажать "Join public chat" и скопировать последовательность, идущую после "blob=").

Морфологический анализатор для работы с русским языком pymorphy -- http://packages.python.org/pymorphy/intro.html (гуглегруппа: https://groups.google.com/forum/#!forum/pymorphy).
Previous post Next post
Up