Oct 21, 2015 12:10
Приветствую.
Как многие уже знают, на Каггле идёт конкурс по тестированию ИскИнов на школьных тестах для американских восьмиклассников.
В рамках подготовки к участию пришлось расширить свою базу английскими словами, переводами и аннотациями. Было 1.4 млн. узлов на 639 млн. связей - это только для русского языка, стало 1.5 млн. узлов на 645 млн. связей - для русского и английского языков. Как видим, 6 млн связей на весь английский язык - это ничто по сравнению с 639 млн связей на русский, но за оставшиеся три месяца я не смогу нарастить английскую базу по мощности до русской. Русская собиралась намного дольше и использовала труднодоступные источники, в том числе. Основная идея - что переводы будут функционировать, и несмотря на то, что вопросы и варианты ответов заданы на английском, благодаря переводам есть возможность часть обучения вести на русском.
Помимо базы и статистики нужны более предметные знания. Под эти цели парсится DBPedia, MetaFilter, выкачиваются толковые словари из Академика. Идея состоит в том, что-бы сделать полнотекстовый поиск по этим массивам текстов, и более глубокую обработку вести уже по найденным нескольким документам. Вот этой задачей я сейчас и займусь.
Ещё потребуется доработать систему узнавания фраз по их синтаксическим деревьям (она для русского языка была как раз закончена перед началом конкурса), и, если успеется, распарсить синтаксически текстовые данные.
Если все идеи реализуются как сейчас видится, можно будет подгружать в систему специальные источники информации - энциклопедии, учебники как есть - в текстовом виде. Не факт, что успею до конца конкурса, но в любом случае - наработки не пропадут.
kaggle,
семантика