Natural Language Toolkit (NLTK) -- питоновская библиотека обработки текстов на естественном языке
http://nltk.org/ (если Windows, то устанавливать нужно по инструкции из
http://nltk.org/install.html для сорцов, ибо 32-битная инсталляция конфликтует с Питоном 2.7, там все имена настроены только на Питон 2.5).
Учебник Питона и компьютерной обработки текстов на естественном языке, использующий NLTK:
http://nltk.org/book/Учебник хорош тем, что ипользует множество корпусов текстов, доступных онлайн в NLTK, и он содержит множество упражнений. Учебник не требует начального знания Питона (одновременность обучения Питону и обработке текстов -- это тут ключевая фишка).
NLTK, конечно, не IBM Watson и UIMA, и не ABBY Compreno, и не многие другие мейнстримные пакеты, но: целевое назначение такое же, коды открыты. Как я понял, крепкий "середнячок" с акцентами на учебность (что резко снижает барьеры входа) и Питон (что особо удобно в связи с нашим
dot15926 проектом. Плюс русскоязычная академическая тусовка, похоже, начала концентрироваться именно в этом месте.
Гуглегруппа NLTK по-русски:
http://groups.google.com/group/nltk-russian/topics Гуглегруппа по переводу этого учебника на русский язык:
-- история, откуда эта группа произошла:
https://groups.google.com/forum/#!topic/nltk-translation/blVzG5YUKX4-- собственно гуглегруппа:
http://groups.google.com/group/nltk-russian?lnk=srg&hl=ru&ie=UTF-8&oe=utf-8-- скайп-группа (чаты): skype:?chat&blob=Sktiy745QqI6lL4uzZcQVnBxAoL1l6DgjIWNHDdhGkB7PxVixhlc0dPBGdZM0SxRCMg9nSt2bw (Если открыть ссылку при помощи браузера, её должен подхватить Скайп. В Линуксе надо нажать "Join public chat" и скопировать последовательность, идущую после "blob=").
Морфологический анализатор для работы с русским языком pymorphy --
http://packages.python.org/pymorphy/intro.html (гуглегруппа:
https://groups.google.com/forum/#!forum/pymorphy).