DLP Как это работает? Защита текстовых файлов.: infowatch

infowatch

DLP Как это работает? Защита текстовых файлов.

Mar 31, 2015 16:00

В этом блоге мы стараемся рассказывать не только о безопасности «вообще», но и о том, чем занимается InfoWatch. Как вы знаете, наша компания фокусируется на разработке программных продуктов для защиты информации от утечек - Data Leaks/Loss Prevention или DLP. Мы запланировали цикл небольших постов, чтобы познакомить вас с технологиями, которые лежат в основе наших продуктов. Попытаемся проследить их эволюцию, расскажем, как именно современные DLP-системы справляются со своей работой.

Начнём с азов. Когда DLP системы были совсем молодые, с помощью них удавалось предотвращать большинство утечек информации в текстовом виде. Сюда относится неизменяемая и динамически изменяемая информация, и информация, составленная по заданному шаблону. В детектировании таких данных нам помогали такие технологии как цифровые отпечатки, текстовый классификатор и текстовые объекты соответственно.

Если у нас есть документ, который никогда не изменяется - например, долгосрочная стратегия развития компании - с него целесообразно сделать цифровой отпечаток и в случае передачи его за периметр организации DLP-система зафиксирует утечку.

Есть документы, которые постоянно изменяются, но мы точно знаем, какая лексика там присутствует - все договоры, бухгалтерская документация. Такие документы лучше всего пропустить через систему текстовой классификации и выделить категории данных, за которыми будет следить DLP.

Защищать персональные данные и финансовую информацию лучше всего с помощью анализатора шаблонов. Технология поможет выявлять в потоке данных номера кредитных карт, номера паспортов, ИНН, СНИЛС и подобные идентификаторы. Хочется отметить, что только в решении InfoWatch реализована верифицирующая функция для текстовых объектов, позволяющая снизить число ложно положительных срабатываний системы.

Применяя этот небольшой набор технологий удавалось выявить конфиденциальные данные в текстовых документах (пакет MS Office, pdf, txt), в теле письма электронной почты, в сообщениях мессенджеров (ICQ, Skype и т.п), а также в сканах документов, из которых предварительно извлекался текст с помощь технологии OCR.

Основным недостатком данного подхода было ограничение перечня защищаемой информации. Так, невозможно было защитить, например, видеозапись либо фотографию секретного документа.

Дальнейшее развитие технологий перехвата и анализа привело к тому, что кроме текста стало возможным защищать от утечек информацию, представленную в двоичном виде, то есть любой файл. Но об этом в следующем блог-посте серии.

dlp-система, обучение