Маленький код для больших данных или Spark за 3 дня

Nov 25, 2016 00:07


Пусть Жираф был не прав,
Но виновен не Жираф,
А тот, кто крикнул из ветвей:
«Жираф большой - ему видней!» (с)
Потребовалось оперативно разобраться с технологией Spark заточенную для использования Big Data. В процессе выяснения активно использовал habrahabr, так что попробую вернуть информационный должок, поделившись приобретенным опытом ( Read more... )

big data, spark

Leave a comment

Comments 16

adf_asfd November 24 2016, 22:26:56 UTC
А вы нейросети через какую библиотечку делаете, если не секрет?

Reply

pustota_2009 November 25 2016, 04:52:23 UTC
Не секрет - HeatonResearchNeural
Вот тут писал как удалось ускорить ее в 30 раз:

https://habrahabr.ru/post/313740/

Reply


pixtep November 24 2016, 23:05:11 UTC
Если там всего 2000 строк зачем целый spark?
Может pandas бы хватило?

Reply

pustota_2009 November 25 2016, 05:02:18 UTC
Так это же данные только для примера, там и цифры все сгенерированы рандомно)

А вообще о том и речь была в конце поста, что в большинстве случаев Hadoop вообще не нужен, вот интересный пример: https://habrahabr.ru/post/194434/

Reply


funny_suslik November 25 2016, 09:50:18 UTC
>> дефолт как-то связан с остальными параметрами (кроме первого, к уважаемым Ивановым1…N претензий нет ( ... )

Reply

pustota_2009 November 26 2016, 08:36:47 UTC
>>наверное, кто-то все-таки учитывает и фамилию ( ... )

Reply


softwizard November 25 2016, 16:35:53 UTC
Есть класс задач, о которых Вы, похоже, не догадываетесь, хотя они рядом. Когда нужно сделать достаточно быстро (за секунды) довольно глубокую (на пару дней/месяцев/лет назад) аналитику по всем клиентам (точнее по тем, которые активны в настоящий момент). Эти сценарии сейчас постепенно становятся доминирующими в компаниях, работающих с физиками. Например, в банках. Или во всяких спецслужбах новой эры, маскирующихся под глобальные корпорации.

Я давеча был в Штатах. Поехал в ресторан. Припарковался. Вышел из машины. Телефон мне говорит: я запомнил место твоей парковки и потом покажут тебе, как пройти обратно. Я никогда не говорил этому телефону где мой дом, однако иногда он мне говорит, сколько сейчас времени займёт доехать до дома и довольно часто попадает в цель - я собираюсь именно домой. Вот для таких задач и нужна аналитика по схеме Бигдата.

Но, конечно, когда я читал про концепцию Озера данных, я в душе ржал как конь. Слейте все свои говённые данные в одну лужу, когда нибудь вы сможете вычерпать её напёрстком - это очень, очень

Reply

pustota_2009 November 25 2016, 16:48:13 UTC
Есть кусок текста в посте, о котором вы похоже не подозреваете (strorm, streaming). Потому что он именно про кейс с парковкой;)

Я уж не стал писать про банальшину про смски с гостиницами тем у кого вылет задержали в аэропорту)

Reply

softwizard November 25 2016, 18:53:45 UTC
Не угадали. :) Я сейчас этой темой занимаюсь очень подробно, поэтому и Ваш текст читал внимательно.

Для задачи с парковкой Шторма может и хватит, а вот для прочих банковских/розничных задач - точно нет, нужна большая глубина анализа, то есть нужно объединять данные из Хадупа с транзакционкой и на лету обсчитывать.

Я же не против дата майнинга, я просто хочу заметить, что есть место и биг дате. Просто всё с умом надо делать.

Reply


на будущее ext_1572179 November 25 2016, 19:00:01 UTC
Если вдруг в будущем нужно будет считать много и хранить много, то можно брать машины из облака, например из Azure https://azure.microsoft.com/ru-ru/services/hdinsight/

Reply

Re: на будущее pustota_2009 November 26 2016, 08:51:15 UTC
Да, видел про эту возможность, когда изучал возможности спарк набрел на эту статью:
https://docs.microsoft.com/ru-ru/azure/machine-learning/machine-learning-data-science-spark-advanced-data-exploration-modeling

В моем случае интернет не очень стабильный, поэтому облако сразу не подошло, но все равно спасибо)

Reply


Leave a comment

Up