Системы рубрикации, т.е. определения тематики текстов используются для разных целей. Обязательно есть такой
блок в полноценной DLP-системе. Также на рубрикации основаны некоторые системы
цензуры. Другие применения сейчас не поминаем, поскольку речь пойдёт о преодолении, т.е. как обмануть рубрикацию.
Рубрикатор распознаёт слова и словосочетания, которые у него есть в словаре. Каждое из них сопоставлено одной или нескольким рубрикам с тем или иным весом. Веса обнаруженных слов суммируются или собираются в какую-то более сложную формулу, зависящую от ряда условий. При превышении порога соответствующая рубрика (тематика) присваивается всему тексту.
Словари и алгоритмы вычисления веса должны быть конфиденциальными. В противном случае их будет легче обойти. Напомню, что цензуру и DLP стремятся преодолеть
с обеих сторон одновременно - и получатель, и отправитель. В отличие от того же спама, где получатель играет на стороне фильтрующего.
Наш
противник может догадываться об имеющихся в словаре терминах и их весе. Но догадки ему мало помогут, поскольку при составлении текста он должен выдержать баланс. С одной стороны, набрать ниже порогового значения. С другой - употребить достаточно тематических терминов, чтобы читатель понял, о чём речь.
С алгоритмом рубрикации ещё веселее. Поясню на примере. Когда текст попадает в тематику "эротика и порнография", он блокируется цензурным фильтром. Но если одновременно присутствует рубрика "медицина" - он пропускается, поскольку очень многие тексты о здоровье и лечении терминологически близки к порнорассказам. Становится ясно, как порномастеру преодолеть цензуру. Надо использовать несколько "тяжелых" медицинских терминов; иногда хватает даже одного.
Так что принцип Киркхоффа здесь неприменим. Секретного ключа просто нет, приходится секретить алгоритм.