SEMANTiCS'2019 - первый день

Sep 10, 2019 20:33

Участвую в конференции SEMANTiCS’2019 в Карлсруэ, Германия. Конференция целиком посвящена Semantic Web и его промышленным применениям. 10 и 11 сентября - основные дни, 9 и 12 - дополнительные активности. Событие важное, поэтому два основных дня конференции освещу в двух отдельных постах.
Трудно удержаться от сравнения этой конференции с отечественными.Последние делятся на несколько групп:
  • чисто академические, на которых встречаются качественные доклады, но атмосфера испорчена обилием людей, которым нужно выступить «для галочки» - отчитаться участием в конференции и публикацией;
  • маркетинговые, где каждый кулик хвалит свое болото - с этих спросу никакого;
  • мероприятия агонизирующего жанра «конференция для разработчиков», которые в последние годы страдают бездумной погоней за хайпом, удручающей бессодержательностью выступлений при максимальном надувании щек, бессмысленностью аудитории и стремлением отучить людей думать;
  • сессии в рамках крупных промышленных выставок, о которых вообще умолчу.
Необходимое условие содержательного мероприятия - наличие критической массы людей, действительно заинтересованных в обсуждаемых проблемах, являющихся профессионалами в этой сфере и готовых применять научные критерии достоверности для предъявления и оценки любых докладываемых результатов. SEMANTiCS’2019 (15-я, юбилейная!) собрала в этом году 420 участников, которые, как мне кажется, в большинстве своем отвечают этим критериям применительно к сфере онтологий. В нашей стране я знаю подобных людей человек 20, треть из которых работают в нашей компании или сотрудничают с ней.



Если обратиться к субъективным ощущениям от мероприятия, то, наверное, как-то так должен себя чувствовать слоненок, выросший среди мамонтов в холодной северной стране, а затем попавший в Африку. Они все здесь такие! )
В одном месте собралось 420 человек, которым не надо доказывать, что строительство Knowledge Graph позволяет извлечь пользу из данных, которые сейчас лежат в корпоративных хранилищах мертвым грузом; что онтологии являются не какой-то странной штукой для ученых, а полноценным, готовым к коммерческому использованию набором методов и технологий работы со знаниями; что «бездумные» подходы типа чистого Deep Learning, в которых роль человека-аналитика полностью исключается, могут принести только ограниченные и узко прикладные результаты.

Есть и «минусы». Если года 3-4 назад те продукты и идеи, которые мы реализовывали, имели единичные зарубежные аналоги или вовсе их не имели, то теперь только на этой конференции представлено с десяток платформ, предназначенных для решения одной и той же задачи: извлечь данные из корпоративных data silos и получить от них пользу, построить дата-центричную корпоративную архитектуру вокруг онтологии, отражающей концептуальные представления людей о предметной области. Забыть про нудные и дорогостоящие попытки «автоматизировать все в рамках одной системы», перестать думать про клубки сложных неуправляемых интеграций между десятками унаследованных приложений. Работать с функциональными на бизнес-уровне, получить свободу менять одни автоматизированные системы на другие.

Конечно, дьявол кроется в деталях, и отличий в конкретных реализациях очень много. Бояться конкуренции еще рано - явных лидеров рынка нет, у компании-лидера европейской индустрии, Semantic Web Company, на сегодняшний день 54 сотрудника (у одной из присутствующих успешных компаний второго ряда - 20 человек, у нас почти столько же). Из гигантов на этот рынок пока никто активно не зарится; хотя открывало конференцию выступление от Oracle, который, похоже, не прочь «задать стандарт» и в этой области. Спрос на подобные решения огромный и продолжает расти. Так что в плюсе - несомненное подтверждение того, что мы все делаем правильно, и угадали это правильное направление раньше многих.

Одна из наиболее ценных мыслей, прозвучавших во вступительном докладе Michael Sullivan (Oracle), описавшего архитектурную схему построения логической витрины данных, состоит в том, что ключевой проблемой здесь является идентификация сущностей, извлеченных из разных источников. С этой проблемой мы столкнулись на практике и для определенных случаев ее решили, но общего решения здесь, похоже, не существует.

В числе других докладов особое внимание хочу обратить на трек по технологиям обработки естественного языка (NLU, Natural Language Understanding). Лидеры индустрии давно поняли, что одними нейросетями - без концептуального описания смыслового уровня - в решении таких задач не обойтись, поэтому на конференции представлены некоторые подходы и методы к синтезу онтологий и классического ML. И здесь не могу не отметить, что наша компания движется в ту же сторону, ряд конкретных задач обработки текстов на естественном языке с целью дополнения графа знаний нами уже решены.

Не могу обойти вниманием и доклад от компании OMV (нефтегаз) о пилотном проекте по семантической аннотации массивов документов. Многие крупные компании, в особенности нефтегазовые, обладают огромными массивами сканированных документов, в которых содержится полезная информация. Эта информация практически не может быть использована, потому что найти такие документы почти невозможно. Сочетание методов машинного обучения (обнаружение сущностей в тексте, распознанном OCR, и т.д.) с использованием онтологической модели для представления наборов признаков документов позволяет определить семантические признаки для каждого документа. Далее пользователям предоставляется инструмент поиска по графу. Докладчики обозначили несколько проблем, с которыми столкнулись и мы в аналогичном проекте для одной из крупнейших российских нефтегазовых компаний. Снова - не может не радовать, что мы идем на одном уровне с наиболее передовыми европейскими пилотными проектами. Причем наш проект масштабнее по целям и результатам, поскольку включает работу не только с текстовыми документами, но и организацию доступа к структурированным данным в унаследованных источниках.

аналитика, семантические технологии

Previous post Next post
Up