В этом блоге мы стараемся рассказывать не только о безопасности «вообще», но и о том, чем занимается InfoWatch. Как вы знаете, наша компания фокусируется на разработке программных продуктов для защиты информации от утечек - Data Leaks/Loss Prevention или DLP. Мы запланировали цикл небольших постов, чтобы познакомить вас с технологиями, которые лежат в основе наших продуктов. Попытаемся проследить их эволюцию, расскажем, как именно современные DLP-системы справляются со своей работой.
Начнём с азов. Когда DLP системы были совсем молодые, с помощью них удавалось предотвращать большинство утечек информации в текстовом виде. Сюда относится неизменяемая и динамически изменяемая информация, и информация, составленная по заданному шаблону. В детектировании таких данных нам помогали такие технологии как
цифровые отпечатки,
текстовый классификатор и
текстовые объекты соответственно.
Если у нас есть документ, который никогда не изменяется - например, долгосрочная стратегия развития компании - с него целесообразно сделать цифровой отпечаток и в случае передачи его за периметр организации DLP-система зафиксирует утечку.
Есть документы, которые постоянно изменяются, но мы точно знаем, какая лексика там присутствует - все договоры, бухгалтерская документация. Такие документы лучше всего пропустить через систему текстовой классификации и выделить категории данных, за которыми будет следить DLP.
Защищать персональные данные и финансовую информацию лучше всего с помощью анализатора шаблонов. Технология поможет выявлять в потоке данных номера кредитных карт, номера паспортов, ИНН, СНИЛС и подобные идентификаторы. Хочется отметить, что только в решении InfoWatch реализована верифицирующая функция для текстовых объектов, позволяющая снизить число ложно положительных срабатываний системы.
Применяя этот небольшой набор технологий удавалось выявить конфиденциальные данные в текстовых документах (пакет MS Office, pdf, txt), в теле письма электронной почты, в сообщениях мессенджеров (ICQ, Skype и т.п), а также в сканах документов, из которых предварительно извлекался текст с помощь технологии
OCR.
Основным недостатком данного подхода было ограничение перечня защищаемой информации. Так, невозможно было защитить, например, видеозапись либо фотографию секретного документа.
Дальнейшее развитие технологий перехвата и анализа привело к тому, что кроме текста стало возможным защищать от утечек информацию, представленную в двоичном виде, то есть любой файл. Но об этом в следующем блог-посте серии.