Чем я сейчас занимаюсь вечерами? Вчера вечером был на втором занятии курса
Data-MBA Школы Билайн. Рассказываю, что обсуждалось, насколько было интересно.
Быстренько повторили, что такое машинное обучение (ML) с учителем и без и стали смотреть примеры задач классификации, какие у них особенности, как эти особенности влияют на выбор подхода к решению. Поговорили о методе ближайшего соседа, опорных векторов, логистической регрессии. О метриках качества алгоритма классификации.
Второй час ушел на инструменты анализа данных - в отношении "малых данных" поговорили о Rapid Miner, Weka, SAS Miner, Python и R.
Вскоре перешли непосредственно к Big Data - стеку Hadoop, HDFS, Map Reduce, Zoo Keeper, Oozie, Azkaban, Qqoop. Flume, Kafka, Hbase, Cassandra, Hive и Pig, Apache Spark. Конечно, это все галопом, буквально по нескольку минут на продукт, только, чтобы вписать его в "понятийную решетку". О Vowpal Wabbit и яндексовом Matrix Net.
Затем подробнее разбирали бизнес-процесс работы с ML / Big Data. От идеи и бизнес-требований к формальным требованиям, определению данных, выгрузке данных и их предобработке, построению моделей, пользе пилотов.
Затронули тему подготовки специалистов в области Big Data. Чего от них хотеть, чего ожидать.
Напоследок занялись всем известным Титаником, обращая внимание на подходы к решению - тестам простых гипотез, заполнение пропусков в данных.
Решили задержаться сверх обещанных двух часов и поговорили об обработке текстов методами ML - Bag of Words, Document Term Matrix, WordZVep - вот этом всём.
На фоне параллельно идущего
практического курса по машинному обучению, мне конечно уже намного комфортнее слушать все, что вчера обсуждалось, понятнее. Если бы еще не эта потеря двух часов на дорогу к месту занятий и обратно...
Для интересующихся темой, рекомендую чтение:
http://papers.nips.cc/paper/5656-hidden-technical-debt-in-machine-learning-systems.pdf (англ.) - хороший текст для тех, кто думает, что ML - это что-то типа "волшебной палочки".