Биг дата. Технологии поиска

Jul 02, 2020 09:21

Раздел интересное. Тяжёлый для прочтения, но полезный для головы.

Определение Big data обычно расшифровывают довольно просто - это огромный объем информации, часто бессистемной, которая хранится на каком либо цифровом носителе. Однако массив данных с приставкой «Биг» настолько велик, что привычными средствами структурирования и аналитики «перелопатить» его невозможно. Поэтому под термином «биг дата» понимают ещё и технологии поиска, обработки и применения неструктурированной информации в больших объемах.




Экскурс в историю и статистику

Словосочетание «большие данные» появилось в 2008 году с легкой руки Клиффорда Линча. В спецвыпуске журнала Nature эксперт назвал взрывной рост потоков информации - big data. В него он отнес любые массивы неоднородных данных свыше 150 Гб в сутки.

До 2011 года технологии больших данных рассматривались только в качестве научного анализа и практического выхода ни имели. Однако объемы данных росли по экспоненте и проблема огромных массивов неструктурированной и неоднородной информации стала актуальной уже в начале 2012 году. Всплеск интереса к big data хорошо виден в Google Trends.



К развитию нового направления подключились мастодонты цифрового бизнеса - Microsoft, IBM, Oracle, EMC и другие. С 2014 года большие данные изучают в университетах, внедряют в прикладные науки - инженерию, физику, социологию.

Как работает технология big data?

Чтобы массив информации обозначить приставкой «биг» он должен обладать следующими признаками:
Правило VVV:

1. Объем (Volume) - данные измеряются по физической величине и занимаемому пространству на цифровом носителе. К «биг» относят массивы свыше 150 Гб в сутки.

2. Скорость, обновление (Velocity) - информация регулярно обновляется и для обработки в реальном времени необходимы интеллектуальные технологии больших данных.

3. Разнообразие (Variety) - информация в массивах может иметь неоднородные форматы, быть структурированной частично, полностью и скапливаться бессистемно. Например, социальные сети используют большие данные в виде текстов, видео, аудио, финансовых транзакций, картинок и прочего.

Задача машин определить степень важности поступающей информации, чтобы быстро структурировать.

Принцип работы технологии big data основан на максимальном информировании пользователя о каком-либо предмете или явлении. Задача такого ознакомления с данными - помочь взвесить все «за» и «против», чтобы принять верное решение. В интеллектуальных машинах на основе массива информации строится модель будущего, а дальше имитируются различные варианты и отслеживаются результаты.



К источникам big data относят:

- интернет - блоги, соцсети, сайты, СМИ и различные форумы;

- корпоративную информацию - архивы, транзакции, базы данных;

- показания считывающих устройств - метеорологические приборы, датчики сотовой связи и другие.

Для чего используют?

Чем больше мы знаем о конкретном предмете или явлении, тем точнее постигаем суть и можем прогнозировать будущее.

Правоохранительные органы. Большие данные используются для прогнозирования всплеска криминала в разных странах и принятия сдерживающих мер, там, где этого требует ситуация.

Методики анализа и обработки



К основным способам анализа больших массивов информации относят следующие:                                     1. Глубинный анализ, классификация данных.             2. Краудсорсинг. В основе этой технологии возможность получать и обрабатывать потоки в миллиарды байт из множества источников.

3. Прогнозирование. Аналитики стараются заранее задать системе те или иные параметры и в дальнейшей проверять поведение объекта на основе поступления больших массивов информации.

4. Машинное обучение. Искусственный интеллект в перспективе способен поглощать и обрабатывать большие объемы несистематизированных данных, впоследствии используя их для самостоятельного обучения.

5. Анализ сетевой активности. Методики big data используются для исследования соцсетей, взаимоотношений между владельцами аккаунтов, групп, сообществами. На основе этого создаются целевые аудитории по интересам, геолокации, возрасту и прочим метрикам.

Технологии используют: в прогнозировании популярности продуктов, например, с помощью сервиса Google Trends и Яндекс. Вордстат (для России и СНГ).



Методики big data используют все крупные компании - IBM, Google, Facebook и финансовые корпорации - VISA, Master Card, а также министерства разных стран мира.

Сегодня бизнес знает о своих клиентах больше, чем мы сами знаем о себе - поэтому рекламные кампании Coca-Cola и других корпораций имеют оглушительный успех.

Перспективы развития

В 2019 году важность понимания и главное работы с массивами информации возросла в 4-5 раз по сравнению с началом десятилетия.

Мы изучили, что такое big data? Рассмотрели, как работает эта технология, для чего используются массивы информации. Познакомились с принципами и методиками работы с большими данными.

Источник:https://www.calltouch.ru/glossary/big-data/

соцсети, интересно, наша жизнь, прогресс, блоги, размышления, интернет

Previous post Next post
Up