Google создаёт хранилище всех человеческих знаний: Журнал ЖЖ

Google создаёт хранилище всех человеческих знаний

Sep 03, 2014 10:10

Кадр из культового фильма режиссёров Вачовски «Матрица» (1998)
Главный герой картинты, Нео, наконец избавляется от иллюзий и видит окружающий мир таким, каков он на самом деле - состоящим из компьютерного кода
Фактохранилище, ковчег всех знаний человечества. Всякая приличная мегакорпорация сегодня так или иначе занимается созданием чего-то подобного. Фактохранилище собирает и объединяет информацию со всех просторов сети в единую базу фактов о мире, а так же людях и предметах. sly2m перевёл статью о самом большом хранилище знаний в человеческой истории - том, над которым сейчас работает Google. В издании NewScientist вышла интересная статья, с одной стороны вроде бы ни о чем, а с другой, возможно, очень о многом.
Свой художественный перевод (художественный, это значит не по тексту, а с авторскими доработками и прибаутками) я предоставляю вниманию читателя.

Гугл строит самое большое хранилище знаний в человеческой истории - и делает это обходясь без помощи людей.

<...>

Вместо этого Фактохранилище (Хранилище Знаний, Knowledge Vault) собирает и объединяет информацию со всех просторов сети в единую базу фактов о мире, а так же людях и предметах его населяющих.

Размах и скрупулезность подбора этих знаний уже сегодня стали основой систем, которые позволяют роботам и смартфонам понимать, что люди спрашивают у них. Цель - дать возможность Гуглу осмысленно отвечать на вопросы словно древнему оракулу, вместо обычной поисковой машины с ее поисковой строкой, как это происходит сейчас.

Фактохранилище это такой тип «базы знаний», который позволяет не только людям, но и машинам (это важно!) пользоваться ей. Обычная база данных содержит набор букв и чисел, в то время как база знаний содержит факты. Когда ты спрашиваешь у гугла «Где родился Путин?» ответ идет не из базы данных, как таковой, (нет какой-то особой выделенной ячейки в таблице некой БД, где хранится слово «Ленинград»), а именно из базы знаний.

Сегодня подобная база знаний называется Графом Знаний и в основном пополняется за счет краудсорсинга (коллективного сбора данных, вроде википеди). Но стало понятно, что подобная модель стагнирует, человечество выжимает из нее последние соки.

Вот Гугл и решил автоматизировать процесс. Он начал строить Фактохранилище, используя алгоритмы, автоматически вытаскивающие факты из сети, применяя машинное обучение, для превращения потока данных в структурированный набор фактов.

Фактохранилище собрало 1.6 миллиардов данных на текущий момент. Из них 271 миллион считаются «надежными фактами», т.е. фактами, в истинности или хотя бы верности которых алгоритмы гугла уверены как минимум на 90%. Это достигается за счет кросс-ссылок и внутренних перепроверок, основываясь на тех доверительных фактах, что у него уже есть.

Фактохранилище гарантирует Гуглу быстрый и автоматический рост базы фактов, и со временем скорость будет только нарастать. Ведь роботы не только сканируют открытые веб-страницы с текстом, информация собирается так же и с закрытых источников, например анализируя торговые тренды с серверов Амазона и им подобным.

Том Остин, информационный аналитик из Бостона указывает, что все крупные мировые корпорации строят подобные штуки. «Гугл, Микрософт, Фейсбук, Амазон, IBM - все строят такие фактохранилища, и уже сегодня готовы к решению таких проблем, что считались фантастическими еще 10 лет назад» - заявляет он.

Первый пример - персональные виртуальные помощники, вроде Siri или Google Now, только предельно персонифицированные и «персониспециализированные».

«Уже до конца десятилетия», - считает Остин, - «наши емейловые инбоксы окажутся настолько умны, что будут показывать нам только 10 самых важных писем, которые достойны нашего внимания, скрывая прочий спам или даже возможно отвечая на неважные письма самостоятельно».

Другие виртуальные помощники, или же другая часть того же самого помощника, окажется ответственной за состояние здоровья хозяина, автоматически записывая медицинские симптомы, анализируя персональную историю болезни и сверяясь с базой медицинских знаний. Подобными вещами уже сегодня занимается AI Watson от фирмы IBM, работающий доктором онкологии в Нью-Йоркском Memorial Sloan Kettering Hospital.

Как обычно, у медали есть две стороны. Нас ожидает серьезный сдвиг парадигмы приватности информации. Для машины не важно кто ты такой - человек или гора, ей наплевать насколько личной и даже интимной окажется информация, собранная о человеке. Ведь, как уже упоминалось, потоки данных идут не только из открытых источников, информация собирается с почтовых серверов GMail, социальных сетей вроде Google+ и Youtube и так далее. Мы уже находимся в этом Фактохранилище со всеми нашими потрохами, точно так же как сейчас таблоиды обмениваются жаренными фактами о жизни звезд, жаренные факты о нашей жизни уже давно хранятся в Гугле.

Исследователь корпорации Google Кевин Мерфи и его коллеги представят доклад о Фактохранилище Гугла на конференции по датамайнингу в Нью Йорке 25 августа.

main, s_технологии, science