Пусть Жираф был не прав,
Но виновен не Жираф,
А тот, кто крикнул из ветвей:
«Жираф большой - ему видней!» (с)
Потребовалось оперативно разобраться с технологией Spark заточенную для использования Big Data. В процессе выяснения активно использовал habrahabr, так что попробую
вернуть информационный должок, поделившись приобретенным опытом
(
Read more... )
Comments 16
Reply
Вот тут писал как удалось ускорить ее в 30 раз:
https://habrahabr.ru/post/313740/
Reply
Может pandas бы хватило?
Reply
А вообще о том и речь была в конце поста, что в большинстве случаев Hadoop вообще не нужен, вот интересный пример: https://habrahabr.ru/post/194434/
Reply
Reply
Reply
Я давеча был в Штатах. Поехал в ресторан. Припарковался. Вышел из машины. Телефон мне говорит: я запомнил место твоей парковки и потом покажут тебе, как пройти обратно. Я никогда не говорил этому телефону где мой дом, однако иногда он мне говорит, сколько сейчас времени займёт доехать до дома и довольно часто попадает в цель - я собираюсь именно домой. Вот для таких задач и нужна аналитика по схеме Бигдата.
Но, конечно, когда я читал про концепцию Озера данных, я в душе ржал как конь. Слейте все свои говённые данные в одну лужу, когда нибудь вы сможете вычерпать её напёрстком - это очень, очень
Reply
Я уж не стал писать про банальшину про смски с гостиницами тем у кого вылет задержали в аэропорту)
Reply
Для задачи с парковкой Шторма может и хватит, а вот для прочих банковских/розничных задач - точно нет, нужна большая глубина анализа, то есть нужно объединять данные из Хадупа с транзакционкой и на лету обсчитывать.
Я же не против дата майнинга, я просто хочу заметить, что есть место и биг дате. Просто всё с умом надо делать.
Reply
Reply
https://docs.microsoft.com/ru-ru/azure/machine-learning/machine-learning-data-science-spark-advanced-data-exploration-modeling
В моем случае интернет не очень стабильный, поэтому облако сразу не подошло, но все равно спасибо)
Reply
Leave a comment