Эпический конкурс Heritage Health Prize завершился на днях. При этом победитель пока неизвестен. Вернее, неизвестно точное распределение мест в верхней десятке команд. Лично я ставлю на то, что первое место достанется Opera Solutions. Команда Almata, занимавшая долгое время верхнюю строчку с большим отрывом, некисло оверфитнулась и свалилась на 19 место.
Я, кстати, вовремя соскочил (больше полутора лет назад) - когда понял, насколько чудовищны затраты времени, связанные с полноценным участием в конкурсе. При этом никаких особенных прорывов, как я понял, за это время не произошло. По крайней мере, я знаю, что где-то за неделю работы по вечерам и не имея никакого представления о предметной области (медицине), можно уверенно войти в топ 10% участников.
Что самое интересное было в конкурсе для меня:
- очень многие используют блендинг на основе регуляризации Тихонова (ridge regression);
- говорят, Regularized Greedy Forest дает хорошие результаты (не проверял);
- кажется, мало кто из успешных участников занимался feature selection - общий подход скорее прямо противоположенный: нагенерить несколько десятков тысяч факторов, а хороший ML-алгоритм сделает все остальное (соответствует моим взглядам).