Практический JavaScript - Анализ текстов: epoxyde

epoxyde

Практический JavaScript - Анализ текстов

Jul 31, 2019 15:56

Начал писать тулзу для анализа текстов. Сейчас она умеет разбирать введенный текст, считать количество слов, количество уникальных слов. Может считать вхождение каждого уникального слова относительно всех слов. Ну, и, конечно же, выводить это в DOM.

Бонусом сейчас - установка минимальной длины учитываемого слова.

// TODO:

до Нового года - сделать так, чтобы можно было задавать ключевые слова для поиска (первое и главное). Код для этого уже есть, но сейчас не включен в основную версию (если это можно называть версиями);
до Нового года же - научить тулзу считать схожесть слов с ключевыми словами (для ключевых слов - левое, сейчас пустое, поле), то есть, брать их за основу и искать последовательно похожие слова, а потом откидывать те, у которых схожесть менее, скажем 50%.

Сейчас тулза выводит результат в формате, удобном для сохранения в CSV. В будущем хочу научить ее формировать этот CSV самостоятельно.

До анализа контекстов я, скорее всего, эту штуку никогда не доведу, но для прикладных задач ее будет вполне достаточно. Ну, и прилепить к ней AmChart, конечно же. А, научив сохранять в локальные файлы, можно сделать анализ сходства текстов в первом приближении. Ну, и да, пока это чистый нативный #javascript ES5.

#javascript, софт, запиливать, алгоритмы