RDF - а надо ли ?

Apr 16, 2010 22:26


В сказках народов мира первая попытка реализовать электронное правительство по единым "правилам игры" традиционно заканчивается большим обломом.
Или как в русской мифологии - при срубании одной головы - у Змея Горыныча вырастает сразу три , и следующий шаг придется делать уже с утроенной силой, с тройным расходом ресурсов, и тройным бюджетом (оказывается к тонкому вымогательству финансов мы приучаемся еще с детского садика).

Отчего это происходит ? В мемуарах обычно "авторы" выставляют себя в позитивном свете и истины можно не найти. Одно обобщает их воспоминания - что оказывается некоего "общего мира" не существует. Есть какие то "плохие стандарты", "плохие ведомства", "плохие руководители" - которые, как сговорившись,  отказываются дружно шагать строем и переписывать свои системы.

А про то что нужно не создавать системы с "0", а пытаться вписываться в уже текущие ограничения - оказывается их не предупреждали.

Часть задач, связанных с использованием внешних источников данных и транспорта может решить в инфраструктуре российского электронного правительства Система Межведомственного Электронного Взаимодействия.  О ее задачах и функциях было написано здесь. tri-botinka.livejournal.com/7978.html

Но данные и информация (как бы близко не пересекались эти слова) - не синонимы. Об этой особенности реального мира специалисты рассуждают еще с 1998 года. С того времени консорциум World Wide Web Консорциумом была утверждена спецификация языка XML, предоставляющего стандарт структурирования и разметки произвольной информации.

Появление и внедрение XML стало  революцией в сфере Web-программирования. Это простое средство позволило объединять   данных в понятном для человека и легко воспринимаемом формате.  Разметка "говорила сама за себя", а модификация серверов и браузеров позволила отделить информационное наполнение Интернет-страниц от их визуального представления.

>


Например в XML очень легко составить список государственных услуг, которые необходимо перевести в электронный вид согласно распоряжениям Правитальства РФ от 17.10.2009 № 1555-р и от 17.12.2009 № 1993-р

Перевод в электронный вид процесса предоставления государственных услуг по постановке на налоговый учет, взаимодействию с налогоплательщиками, уплате налогов и сборов

Прием налоговой декларации  по налогу на доходы физических лиц

ФНС России

ну и в таком духе..   Грандиозным достоинством XML явилось то, что программы на разных платформах и от различных производителей получили возможность “разговаривать” на одном языке.  Следом появились вспомогательные технологии -  языки XSL и XPath, предназначенные для работы с древовидной структурой документов; XML Schema - как стандарт описания конкретных языков разметки, использующий синтаксис XML; XLink и XPointer - как средство связи распределенных блоков информации в один общий документ; XQuery - язык запросов к размеченным данным и далее. При помощи XML удалось решить большинство задач синтаксической интероперабельности.


Одно но - наша реальная "информационная" жизнь богаче, чем просто данные. Специалисты различают (скорее уж моделируют) минимум 3 видами информации. Одна из классификаций подразделяет информацию на содержимое, данные и факты. Каждая из этих трех категорий рассматривается нами по-разному.

Содержимое обрабатывается как единое целое целое - отобразить эту картинку, воспроизвести этот музыкальный файл, отобразить такую то интернет страничку. 
Данные обычно обрабатываются по отдельным фрагментам (записям) - добавить/изменить/удалить запись в базе данных, отсортировать список объектов.
Информация в форме фактов пока встречается в информационных технологиях редко. Факты можно конечно рассматривать как элементы данных, но как имеющие форму утверждений. Факты используются обычными людьми в повседневной жизни, учеными, а также специалистами по "инженерии знаний".

Я зарегистрировался на портале госуслуг
Эта услуга платная
Регламент этой услуги состоит из 6 этапов

Неважно, являются ли эти утверждения истинными. Неважно, откуда это мы взяли - каков источник информации и согласен ли с ним кто-то. Важно то, что их можно записать некоторым универсальным способом (в данном случае - на русском языке). Записывая факты, мы перемещаем их из своего сознания туда, где их можно зафиксировать в соответствии с определенными правилами или формальными спецификациями, что позволяет в дальнейшем работать с фактами различными способами. Только после того, как факты зафиксированы, можно заняться выяснением их истинности или значимости, т.е. занятся построением некоей модели.


Окружающий мир (а ИТ технологии тоже является его материальной частью), насыщен "фактоподобной" информацией. Однако подавляющее большинство сведений не представлено в форме, удобной для обработки фактов. Лишь немногие программисты в своей практике сталкиваются со специализированными системами обработки фактов, однако код любого из них содержит множество подразумеваемых фактов.

Практически параллельно с работами по стандартизации XML основатель WWW Консорциума Тим Бернерс-Ли сформулировал новое понятие - Semantic Web - то, каким он видит будущее глобальной сети, и инициировал исследования в этом направлении. В основе предполагаемого им будущего лежит способность машин не только читать, но и понимать содержание Интернет-ресурсов, причем достигнуть этого, по мнению Бернерса-Ли, мы должны не через создание программ искусственного интеллекта, моделирующих деятельность человека, а через использование средств выражения семантики данных и их связей.

Можно привести пример. Предположим, что в одном узле инфраструктуры электронного правительства размещены данные о какого-то ведомства и его сотрудниках, в другом узле - информация о налогоплательщиках, в третьем - о почтовых адресах. Очевидно, что ведомства, налогоплательщики и адреса принадлежат к отдельным, относительно независимым областям знаний. С другой стороны в непрерывном информационном поле программа должна без особого труда суметь сопоставить сотрудников и налогоплательщиков, адреса этих людей и предметную область адресов как таковых.

И вывод - если синтаксическая интероперабельность неразрывно связана с синтаксическим анализом данных, то семантическая требует анализа самой информации, связи ее с мировым информационным полем, установления соответствия терминов и словарей одной предметной области элементам другой. И для этой вещи XML не подходит - даже имея подтверждение в гибкости.

И для целенаправленной фиксации фактов была разработана модель Resource Description Framework (RDF) ru.wikipedia.org/wiki/RDF   . Увы, но RDF не является визуальным языком. То что его можно перевести в XML часто только "портит" и без того непростую картину. Вот пример одного факта:

"Существует субъект (или ресурс) с именем "Прием налоговой декларации  по налогу на доходы физических лиц", имеющий предикат open, значением (объектом) которого является анонимная строка литералов "true". Это довольно неуклюжий язык. RDF выражается в синтаксисе XML, и те, кто знаком с XML могут думать об RDF в терминах XML. Это ошибка. RDF нужно понимать в терминах его модели данных. Данные RDF могут быть представлены в форме XML, но понимание синтаксиса - вторично по отношению к пониманию модели данных.  По сути в семантическом вебе ВСЕ построено на трёх правилах:
1. Факт представляется в форме триплета (субъект, предикат, объект).
2. Субъекты, предикаты и объекты задаются именами конкретных или абстрактных сущностей
реального мира.
3. В роли имён используются URI ru.wikipedia.org/wiki/URI, являющиеся непрозрачными и глобальными.

Вот одна из нотаций RDF ( называется номер 3 - созданная похоже по мотивам Лиспа)

@prefix - подгружаем пространство имен (тут хранятся условные всякие описания, которые понятны компьютеру)
:FTS a :Organization - некто FTX (Federal Tax Service) - ФНС - это безусловно организация
:FTS :has :forNaturalPersons - У ФНС есть услуги и они есть для физических лиц.
:FTS :hasWorkingStatus :Open - а сама ФНС имеет состояние которое показывает открытый статус
:forNaturalPersons :hasServicesСounter :NumberSix - у физических лиц есть услуги со счетчиком 6

Вроде теперь кажется понятным.  А вот представьте что нужно объединять не древовидные - а распределенные данные из разных источников - у которых не то что нет услуг для физиков, а и вообще нет такого атрибута. Скажем только имя услуги и все !.


Вот и получается - что если нужно будет завязать в одно целое скажем 10 ведомственных баз с _абсолютно_ разной атрибутикой, а то и даже правилами их понимания (оценки фактов) - необходимо научиться с этими фактами работать.

Таким образом именно RDF позволит вам объединить семантику в самых отвратительных для разработчика, но тем не менее самых встречающихся случаях при построении инфраструктуры электронного правительства :
  1. Вам нужно объединять данные из различных источников, не прибегая к созданию специализированных программ.
  2. Вам нужно дать другим доступ к вашим данным.
  3. Вам нужно использовать децентрализованые данные, поскольку ими всеми не «владеет» кто-то один.
  4. Вам нужно сделать что-то особенное с большими объёмами данных - вводить, извлекать, просматривать, анализировать, выполнять поиск, и т.д.
После всего сказанного - для технологии RDF похоже альтернативы нет. Вопрос лишь времени.
Реальное значение RDF невозможно оценить, пока он используется для внутренних целей отдельной информационной системы. Польза от внедрения RDF будет тогда, когда он станет средством межпрограммного взаимодействия, обмена данными, когда информационные системы получат способность комбинировать информацию, полученную из различных источников, тем самым, получая какую-то новую информацию. Чем больше независимых приложений в Интернете смогут работать с данными, тем выше станет их ценность.

информационное общество, электронное правительство, электронная россия

Previous post Next post
Up