Про профессию data analyst: turtle

turtle_t

Про профессию data analyst

Oct 26, 2011 21:54

Меня недавно попросили рассказать про профессию data analyst. Обычно когда я отвечаю на такого рода вопросы, сначала изучаю предмет всесторонне и стараюсь ответить как можно более точно и универсально. А тут вот делаю исключение и расскажу главным образом про свой личный опыт, который, ясное дело, и специфический, и ограниченный.

Начну с того, что на data analyst’а я никогда не училась специально и даже не знала, что такая профессия существует, пока в Штаты не приехала в 1995 году. Тут я встретила парочку живых data analyst'ов из числа старых знакомых. Один из них даже прислал мне своё резюме с описанием необходимых skills (знаний и умений), типа как образец, и оно читалось экзотичней, чем китайская грамота.

Ведь мало того, что в моё время (я училась в ХПИ с 1971 по 1977 годы) профессии data analyst ещё не придумали, так и самую нужную для неё математику (статистику) мы не проходили (самым близким был курс теории вероятностей с примерами из стрельбы). А главное, к моменту приезда в Штаты я уже несколько лет как ушла из технической области в гуманитарную -- из инженеров в журналисты, на этом дельфине и через океан переплыла.

Но одно дело гостить, а другое -- жить и работать. Это я к тому, что выигранная грин-карта вернула меня обратно из гуманитариев в технари. В то время ещё распухал дот-камовский пузырь, и я стала читать всякие книжки, которые, как мне казалось (и как мне советовали друзья и знакомые), могут быть полезным для работы веб-программистом. В этой куче много чего оказалось: и JavaScript, и PowerBuilder, и Perl, а самой интересной и приятной для чтения оказалась книжка типа "SQL для чайников".

Моей "первой настоящей американской работой" стала должность web-programmer в маленькой компании, делавшей порталы для вузов и школ, которой владели (и в большинстве и работали) китайцы из Тайваня. Прежде всего там мне была нужна джава-скрипт, но иногда приходилось писать запросы для оракла. Т.е. моё первое практическое знакомство с базой данных состоялось через веб.

Примерно в это же время меня попросили написать речёвку для флайера (рекламной листовки), представляющего новый бизнес, специализирующийся на data-mining. Сначала мне объяснили идею по-русски, а потом, в процессе поиска общепринятых английских терминов и фраз, я ещё почитала об этом деле в интернете по-английски. И прониклась.

На следующую свою работу (в рекламном агенстве) я тоже попала "через веб". А на месте выяснилось, что отделу, в котором я шабашила, нужны люди на постоянной основе, которые могли бы делать разные вещи для разных клиентов (и для внутреннего потребления), связанные с обработкой и анализом данных.

Делать мне это нравилось, да и получалось неплохо, а ежели я чего не знала (поначалу не знала многого), так можно ж учиться на ходу, сначала по мере возникновения необходимости, а потом и впрок. Начала со справочника по математике и постепенно собрала мини-библиотеку, от учебника по статистике до классического труда по адресному маркетингу (с дарственной надписью от автора -- он вась-вась с моей начальницей). Проработала я там лет семь, а потом наше агенство стало частью международной корпорации, и наш отдел сократили поголовно вместе с начальницей, а его функции передали конторам в Нью-Йорке и Лондоне (экономика, как говорится, должна быть экономной). Сейчас моя работа тоже называется data analyst, но совсем в другой сфере, и о ней я пока не готова рассказывать, а вот о предыдущем опыте, в маркетинге, пожалуй, в самый раз.

В самом общем виде цель деятельности data analyst’а может наверное быть описана, как процесс выделения осмысленной и полезной информации из груды "сырых" данных.

Что это за сырые данные такие? Источники для них могут быть самые разные. И перепись населения, и медицинские записи (из которых, понятное дело, исключена личная информация), и чековая лента из магазинов (тоже обычно обезличенная), и результаты опросов.

Причём если собирают эти данные обычно не data analyst'ы, то засунуть их в базу данных для хранения и анализа нередко приходится им самим. Самый простой с этой точки зрения случай -- обработка результатов опросов. Тогда база данных -- это просто таблица, в которой столько колонок, сколько вариантов вопросов-ответов, а каждая строка представляет одного опрошенного. Анализ таких таблиц тоже довольно прям и прост: надо посчитать, сколько людей выбрали такой или сякой ответ, как отличаются ответы для разных демографических групп, есть ли корреляции между разными ответами-выборами и т.д. и т.п.

Мелкий и типичный пример из моей работы. В результате анализа одного из опросов высянилось, что люди склонны по-разному использовать некий сахарозаменитель, в зависимости от возраста и пола, причём, те, кто покупают эту гадость наиболее активно (замужние женщины с детьми в возрасте от 25 до 34 лет), чаще всего используют её для выпечки. Вскоре после того, как наш клиент получил эту информацию (в числе прочего), я увидела по телику рекламу этого сахарозаменителя, в которой молодая хозяйка кормила пирожками своё семейство, упирая на то, что в них меньше калорий, чем если бы она туда настоящего сахару вбухала.

Сложнее и интереснее, когда данные получаются из разных источников (к примеру, как результаты разных рекламных кампаний), через разные каналы (почта, веб, телефон) и в разных форматах. Тогда одной таблицей не обойдёшься, надо строить нормальную базу данных из нескольких связанных между собой таблиц. А сами данные надо чистить (например, выкидывать явные глупости -- есть довольно много шутников с избытком свободного времени, и они обожают резвиться, отвечая на вопросы анкет; а ещё бывает нужно править формат, разбивать слитные записи на кусочки, стандартизировать адреса и т.д. и т.п.), выявлять двойников, собирать историю ответов респондентов и т.д. и т.п. Так я построила и вела базу данных одного из производителей лекарства от СДВГ (ADHD). Сама по себе это занятная история, когда-нибудь расскажу.

А ещё время от времени надо было делать массовые рассылки (как по нормальным адресам, так и электронным), и составление списка, кому, куда и что посылать -- это тоже часть работы data analyst’а, и довольно ответственная: нельзя посылать тем, кто не хочет ничего получать, нельзя посылать на фальшивые адреса, нельзя, чтобы один и тот же человек получил больше, чем одно послание, ну, и прочее в том же роде. Казалось бы, простая задача, но бывает, что хитрая.

Пока что я рассказала про data analysis (анализ данных), но кроме него, data analyst'ы, если повезёт, занимаются data mining’ом (вики говорит, что русского точного аналога этому термину пока что нету; предлагается тот же анализ данных, но с прилагательными типа глубинный или интеллектуальный).

В чём между ними разница? Просто анализ данных делается в лоб: посчитали, сколько таких-то выбрали / делают то-то. Но если данных очень много, то связь между разными переменными может быть сложной, и её не всегда можно предугадать. Выявление скрытых и неочевидных закономерностей и связей в больших массивах данных и называется data mining. Делается это чаще всего с помощью специального софта типа SAS (на самом деле их много разных).

Тут тоже лучше на примерах пояснить. Классический пример вполне реальный, но с годами получивший статус городской легенды. А именно, что по вечерам в будние дни, особенно к концу недели, увеличиваются покупки одновременно пива и одноразвых пелёнок (памперсов). Объяснение тут такое, что ежели молодые папаши получают задание экстренно пополнить запас пелёнок, то забежав за ними по пути с работы домой, заодно и себя балуют пивком. Эту не слишком очевидную закономерность обнаружил некий дата-майнер в начале 90-х годов, когда прочёсывал громадный набор данных по продажам (копии чеков) сети аптек (а как многие уже знают, американские аптеки традиционно играют роль мини-универсамов). Кроме этой связи тогда же он заметил, что средства от кашля и соки тоже хорошо идут вместе, но она в фольклор не вошла.

Какая польза заказчику (в данном случае магазину) от подобных находок? Если цель -- увеличить прибыль, то, например, можно расположить полки для таких парных товаров по соседству, чтобы даже ленивые не пропустили, или не продавать их в это время со скидкой. На самом деле природа таких зависимостей довольно зыбкая и может со временем меняться. Поэтому, как правило, тут нельзя посчитать "раз и навсегда".

Типичный класс задач по data mining'у в маркетинге -- найти, какими неочевидными, но важными параметрами отличается так называемая целевая группа. К примеру, готовится очередная рассылка выпускникам некоего вуза с просьбой денег дать (а пожертвования успешных выпускников -- главный (после взносов текущих студентов) ресурс для процветания американских университетов и колледжей). Можно в принципе послать просительные письма всем подряд, но это дорого и неэффективно: большинство заведомо не дадут. Как повысить эффективность? Другими словами, как найти группу, которая более склонна к благодарной благотворительности? Надо проанализировать базу данных всех выпускников и посмотреть, чем отличаются доноры от всех остальных. Эту задачу я лично не делала, но смотрела, как делают другие (продавцы очередного софта для data mining). Оказалось, что решающую роль играют два параметра вместе: обладание дорогим домом плюс повышенная увлечённость игрой в гольф. А вот уровень доходов сам по себе не является решающим (хотя он влияет на величину пожертвований).

Лично я решала другую задачу: определяла группу тех, кто, беря машину напрокат, более склонен заказывать некие дополнительные вещи: от страховки до GPS-а. Формула получилась довольно заковыристой, но вроде бы сработала.

К задачам data-mining относится сегментация (классификация) клиентов. Мне самой не приходилось их решать, зато я часто пользовалась результатами, полученным другими.

Так же, как и более простой и прямой data analysis, data mining применяется в разных сферах кроме маркетинга. Одна из типичных задач -- вычисление повышенной вероятности мошенничества с кредитными картами. Хотя математику для такого рода задач начали разрабатывать довольно давно, до самого последнего времени реально решать их было невозможно -- слишком много вычислений. Сейчас же компьютеры щёлкают их как семечки, надо только сказать им, что именно и как щёлкать.

Теперь, после этого "развёрнутого вступления", отвечу на конкретные вопросы.

Как приобретают такую специальность? Вот, romanet говорит, что надо выучить курс статистики, и это наверное так и есть. Кроме этого желательно ознакомиться с базами данных и языком запросов (SQL). А ещё не повредит умение манипулировать текстовыми файлами.

Какие качества, навыки, знания (кроме SAS, Access, Excel) ценятся больше всего? На самом деле даже эти три необязательны. Вместо SAS'а может быть, к примеру, SPSS, Matlab или другой специализированный софт, а вместо Acess’а скажем, SQL Server или Oracle. Наверное не обойдёшься без Excel'а , потому что именно в нём зачастую надо делать отчёты: таблички и картинки-графики. А потом и в каком-нибудь PowerPoint’е. Но и тут могут быть варианты, потому что софта для отчётов тоже хватает. Короче говоря, слишком привязываться к какому-то конкретному инструменту не надо, а вот быть готовым к работе по нескольким направлениями надо. Что это за направления? Обязательная часть: запросы к базам данных и изготовление отчётов в виде таблиц и графиков. Опциональная, но тоже важная часть: работа с каким-нибудь специализированным софтом для data analysis и data mining. Ещё более опциональная часть: обработка текстовых файлов. Общий принцип такой: чем больше знаешь и умеешь, тем лучше - всё может пригодиться. А ценится больше всего ум и сообразительность плюс умение применить их к решению конкретных задач.

Насколько интересна или занудна эта работа? Дежурный ответ -- смотря кому. Мне вот очень даже интересна, потому как я люблю решать задачки и узнавать новое про людей. Профессия data analyst комбинирует в себе оба этих занятия.

Уровень стресса, востребованность рынком. Опыт показывает, что уровень стресса связан, скорее, не со специальностью, как таковой, а с тем, как налажена и организована работа, подходит ли она работнику, и кто работает рядом с ним или с ней. Стресса в нашем отделе хватало, но меня он чаще не утомлял, а развлекал -- пока наши дела не стали плохи, тогда, конечно, не до развлечений становится.

Про востребованность рынком -- она вполне заметна, Спецы по анализу данных нужны практически везде: и в бизнесе, и в социальных науках, и в здравоохранении, и в безопасности. Это как бы вообще, а конкретно, пока наш отдел фурычил, нам постоянно были нужны люди. Они приходили и уходили, кто сам, а кто не сам. И надо сказать, что найти по-настоящему хорошего специалиста было нелегко.

И в заключении картинка на тему:

Текст тут такой. На первой картинке data analyst (знаменитый персонаж комиксов Dilbert) говорит: "У меня нет точных цифр, поэтому я взял их с потолка". На второй картинке он же продолжает: "Исследования показывают, что от точных цифр пользы не больше, чем от цифр, взятых с потолка." На третьей его спрашивают: "Сколько исследований показали это?", -- на что он отвечает: "87".

работа, memoir, юмор, картинки