Сегодня с похмелья закончил читать курс лекций по анализу данных. Делали его совместно с
yaham.
Получился он, не получился... Сказать сложно. Он вполне себе хорош, имхо. Но может быть лучше. Не хватает математики - и в то же время ее слишком много.
Для программиста математика должна быть инструментом. А в анализе данных ее часто ставят во главу угла. Поэтому сложно приспособить для программистов курс, который чаще читается для математиков (скажем, в составе дисциплины "исследование зависимостей").
В то же время, даже той математики, которую мы оставляем - для учеников много, они ее просто не понимают и боятся. Формулы мы уже не спрашиваем - это гарантированно вызывает ступор. Провести "на листочке" анализ простейшего набора данных по какому-либо методу - сложная задача, в случае, если формула, при этом необходимая, включает более трех сложных величин (скажем, вида P(u=j|E)) - непосильная зачастую. Тем не менее, мы это требуем - нужно ж, чтобы умели работать с формулами. Только так имхо это лечится - последовательным приучением к формулам.
Самим трудно понимать все то, что написано в умных книгах. Требуется перевести это все с языка математики на язык нормальный. Однако опять же: к примеру, что такое дисперсия или ковариация (в тему сегодняшей лекции) - я узнал не из институтского курса. А это базовые понятия вообще! И у теперешних учеников с этим не лучше - база не то что отсутствует, они боятся ее!
Приходится все объяснять с нуля, в результате получается курс "Анализ данных для полных идиотов". Правда, в этом есть и плюсы - все-таки когда что-то изучаешь от корней до самых кончиков, открывается много нового, приходит настоящее понимание. Но и работы на трансформацию знаний из математики в нормальный язык уходит много. Поэтому не покрыли ни дискриминантный, ни корреляционный анализы - они слишком математичны. А их надо покрыть кровь из носу - но уже в следующем году.
Но в общем, я бы сказал, что курс все равно хороший получился. С одной стороны, он вполне современный. С другой, касается и старой советской и американской математической школы (к примеру, сегодняшняя лекция - факторный анализ). Мне он точно помог. Я многое понял. В рамках курса выполнено несколько интересных проектов учениками, как минимум два из них уже точно получились (тьфу-тьфу), третий - почти точно получился, еще три в неопределенном пока состоянии. А это уже чего-то стоит, если учесть, что задания я писал исходя из того, что действительно актуально и ново. Любое из них после некоторой доработки идет на диплом. Да даже без доработки оно будет сильнее, чем большинство работ наших дипломников! Не всех конечно, но... Прогресс, словом, есть. А это главное.
Еще осталось принять лабораторные и финальный зачет, но, судя по тому, что динамика хорошая, останется на январь народу не очень много, и те - из тех, кого отчислить не жаль. Словом, как-то я оптимистично смотрю в будущее. Глядишь скоро и защищаться пойду...