Тезисы выступления на конференции «Технологии управления данными-2018», посвященного архитектуре и функциональности логической витрины данных, основанной на онтологиях.
Любая крупная организация сталкивается с проблемой разрозненности накопленных ею данных. Эта проблема особенно актуальна для архивов документов, чертежей, электронных таблиц, данных измерений и другой информации, представленной в виде файлов, а не элементов данных внутри какой-либо автоматизированной системы.
Между тем, именно в этих хранилищах сосредоточена информация, использование которой в работе организации может принести существенный экономический эффект: даст возможность использовать лучшие практики, избежать ошибок, принять верные решения с учетом всех существенных факторов. Однако для того, чтобы воспользоваться такой информацией, сотрудники компании, во-первых, должны знать о том, что она существует, а во-вторых - иметь инструмент для ее быстрого и точного поиска.
Критерии такого поиска связаны со смыслом искомых элементов данных. Содержимое каждого файла в любом хранилище логически связано с теми или иными активами, контрагентами, работниками, процессами. Вся эта информация является метаданными, то есть сведениями о содержимом файла, и обычно представлена в скрытой форме: человек может получить ее из содержимого файла, его названия или положения в структуре папок. Понятно, что поиск документа по характеристикам, которые могут быть представлены в какой угодно форме или вообще отсутствовать, может занять неограниченное время без гарантии успеха. Не всегда поможет и привычный полнотекстовый поиск по содержимому документов: он применим только к документам, содержащим текст (чертеж или результаты измерений с его помощью не найти), а его результаты могут быть слишком обширны и не точны. Представим, что пользователь хочет найти все договоры с определенным контрагентом: поиск по слову «договор» и названию контрагента выдаст множество результатов, но не гарантирует, что на первых позициях окажутся именно те документы, которые имел в виду автор запроса.
А если расширить задачу и рассмотреть поиск не только в хранилищах документов, но и в базах данных, внутри автоматизированных систем на платформах, не допускающих прямой работы сторонних компонентов с их хранилищами, в удаленных сервисах? Такой поиск актуален для каждой организации, располагающей большим числом систем, но руководители компаний часто даже не ставят своему ИТ-блоку задачи его реализовать, считая это невозможным или слишком затратным.
Преобразование набора разрозненных данных в единый массив возможно путем слияния всей информации в одно физическое или логическое хранилище. Физические витрины данных на современном этапе развития технологий, характеризующимся огромными потоками ежедневно генерируемой информации, возможно реализовать только для решения конкретных, частных задач. С объединением же всей доступной информации в единый связный массив способна справиться только логическая витрина данных.
Логическая витрина данных - архитектура интегрирующей системы, при которой все данные не меняют своего местоположения, оставаясь в системах и хранилищах-источниках. Витрина имеет программный доступ к каждому источнику и «осведомлена» о структуре информации в нем. Она способна запрашивать сведения из систем-источников и преобразовывать их в соответствии с единой структурой, автоматически объединять данные, поступившие из разных источников, и представлять их пользователю. Пользователь, в свою очередь, может обращаться к витрине с запросами, которые она интерпретирует не как набор искомых слов, а как логическое выражение, как вопрос, на который должен быть дан точный ответ.
Итак:
- витрина должна уметь извлекать любые данные из любых источников по запросу;
- она должна уметь индексировать слабо структурированные источники, такие как файловые хранилища, создавая для каждого обнаруженного в них документа структурированное смысловое описание;
- пользователь должен иметь возможность «задавать вопросы» витрине, на которые она должна давать как можно более точные, а не приблизительные ответы;
- пользователь не должен беспокоиться о том, где фактически находятся те или иные данные и какова их структура;
- витрина не должна хранить все данные в одном хранилище.
Фактически, пользователь должен работать с витриной как с «одним окном», универсальной точкой доступа ко всей корпоративной информации, которая объединяется таким образом в единый виртуальный массив.
Для того, чтобы «понимать смысл» обращенных к ней вопросов, витрина должна «говорить с пользователем на одном языке». Должно существовать формализованное описание предметной области, в терминах которого пользователь и будет формулировать вопросы. Например, если организация имеет дело с трубопроводами, приборами учета и их показаниями, эти термины должны быть включены в концептуальную модель, с которой работает система. Для создания и машинно-читаемого представления концептуальных моделей применяются технологии онтологического моделирования (стандарт OWL и др.).
После того, как модель построена, в системе необходимо описать правила извлечения данных из источников и преобразования их структуры в соответствии с элементами модели. Например, если в таблице одной из баз данных хранится перечень приборов учета, в настройках витрины должно быть задано правило, говорящее о том, что каждая запись этой таблицы представляет объект типа «Прибор учета», обладающий определенными характеристиками. Информация об одних и тех же объектах рассеяна между разными источниками: например, в одном месте может храниться перечень приборов с точки зрения учета материальных ценностей, в другом - в качестве источников показаний расхода ресурсов, в третьем будет находиться проектная и эксплуатационная документация на технологическую инфраструктуру, частями которой они являются. Благодаря правилам сопоставления структуры информации витрина способна объединить все эти сведения в одну картину.
Когда витрина построена, пользователь сможет «задавать ей вопросы», ответы на которые необходимы для оптимальной организации деятельности предприятия:
В отсутствие витрины поиск ответов на подобные вопросы занял бы у пользователя длительное время, потребовал бы ручной работы с несколькими источниками информации или обращения к ИТ-специалистам. Витрина позволит ему сосредоточиться на анализе информации, а не на ее поиске.
Логическая витрина данных, безусловно, является сложной автоматизированной системой, внедрение которой требует выполнения трудоемких работ: создания адаптеров для обращения к данным различных систем, сопоставления справочников (если в организации не реализована MDM-система), создания онтологической модели и описания правил преобразования данных. Однако витрина позволит предприятию, наконец, «стать хозяином» собственных данных, извлечь пользу из огромных массивов накопленной информации, преобразовать ее в знания, непосредственно используемые для решения актуальных вопросов текущей деятельности и стратегического планирования.
К построенной витрине можно подключать новые источники данных по мере их появления в организации. Это облегчает интеграцию вновь создаваемых систем в общее информационное пространство, снижает издержки при переходе с одних продуктов на другие, поскольку благодаря витрине вся информация, содержащаяся в выводимых из активной эксплуатации системах, остается по-прежнему доступной пользователям без каких-либо специальных усилий. Витрина, наряду с MDM-решением (которое благодаря витрине может эволюционировать из хранилища эталонных справочников в хранилище общей информационной модели) и корпоративной сервисной шиной ESB, образует логическое ядро корпоративной инфраструктуры.
Несмотря на технологическую сложность, благодаря онтологическим технологиям, развитию графовых баз данных, машин логического вывода и других инструментов, создание логической витрины данных является задачей, решаемой за короткие сроки в рамках разумных бюджетов. Подтверждением этому являются реализованные нашей компанией проекты, элементами которых является логическая витрина данных.