HHP завершился

Apr 12, 2013 19:44

Эпический конкурс Heritage Health Prize завершился на днях. При этом победитель пока неизвестен. Вернее, неизвестно точное распределение мест в верхней десятке команд. Лично я ставлю на то, что первое место достанется Opera Solutions. Команда Almata, занимавшая долгое время верхнюю строчку с большим отрывом, некисло оверфитнулась и свалилась на 19 ( Read more... )

конкурсы, машинное обучение, kaggle

Leave a comment

g00dmann April 13 2013, 11:50:16 UTC
общий подход скорее прямо противоположенный: нагенерить несколько десятков тысяч факторов, а хороший ML-алгоритм сделает все остальное (соответствует моим взглядам)

Вот это-то и хреново, что общий подход (и твой, в частности) стал именно таким. Потому что он верный только в том случае, если выбранные тобой факторы действительно описывают нужные свойства модели, в таком случае эффективность применения ML замечательная, вплоть до 100%. Но рассчитывать на то, что оно так и будет - наивно, как правило всё по-другому. Я хз, почему любители ML этого не видят.

Хотя в некоторых областях такой подход работает хорошо, да. В IR - работает так себе, имхо. :)

Reply

ext_681947 April 13 2013, 16:00:12 UTC
если выбранные факторы не имеют корреляции с результатом то в любом случаи будет жопа, что с ML, что без. я вообще этих наездов на ML плохо понимаю, есть вполне конкретная задача, предположим у нас существует какая-то многомерная плотность, и некоторая выборка из нее, мы хотим - восстановить плотность, алгоритмы ML именно это и делают, там нет никакой "магии".

Reply

g00dmann April 14 2013, 12:18:37 UTC
Про корреляцию вы сделали крутое заявление, но оно не верно. Для примера возьмем функцию от одного фактора - синус. Корреляции с результатом нет, значит смоделировать функцию не получится? В любом случае будет жопа? ;)

И на ML никто не наезжал. ML-методы на сегодня наверное самые лучшие для подгонки, если факторы выбраны верно. Наезд исключительно на подход к применению ML, когда исследования области игнорируются, потому что разработчик уверен, что всегда заменит качество количеством. Дык вот - это не правильная уверенность. :)

Reply

ext_681947 April 14 2013, 12:50:03 UTC
>Про корреляцию вы сделали крутое заявление, но оно не верно ( ... )

Reply

g00dmann April 14 2013, 14:29:45 UTC
и много вы видели ML моделей, которые имели пофакторную "корреляцию"(в смысле mutual information) с результатом равную нулю, и давали какой-то значимый результат? только не в фантазиях, а в реальности...

Ну конечно много, более того - мало видел моделей с приличной пофакторной корреляцией. Самый простой пример - поиск Яндекса, у большинства факторов корреляция с выдачей никакая. Про все 100% факторов не могу сказать, т.к. не владею свежими данными.

тогда к чему задаете подобные вопросы?

Как к чему, вы выше заявили, что если факторы не будут коррелировать с результатом, то будет жопа. Я вам привел простой пример, когда корреляции нет, как и жопы. :)

если среди них будет еще и куча "не очень хороших" то хуже от этого не будет.

Это заблуждение. Может стать существенно хуже, при самой козырной красоте на этапе обучения. Пословицу про ложку дёгтя помните? Дык, она говорит о том, что наши предки применяли ML-методы с осторожностью. А вот потомки распоясались. :)

Reply

ext_681947 April 14 2013, 18:24:09 UTC
>Ну конечно много, более того - мало видел моделей с приличной пофакторной корреляцией. Самый простой ( ... )

Reply

g00dmann April 15 2013, 09:22:03 UTC
слабые факторы могут усиливаться, это очевидно, но если они все "нулевые" - то мусор на входе - мусор на выходе, в то что вы действительно видели работоспособные ML модели на таких факторах, я продолжаю сомневаться...
Вы путаете слабую корреляцию с мусорностью. Из того, что факторы слабо коррелируют с результатом, не следует, что они мусорные.

Про "ML модели" я вам выше привёл в пример поиск Яндекса. Вообще в поисковой индустрии хорошая корреляция многих факторов с выдачей критична - если бы она была, топы в выдаче тут же порвали бы сео-оптимизаторы. :)

Ну и термин "ML модели" мне вообще не нравится. У таких моделей что, есть какие-то особые свойства, чтоле? ML - просто еще несколько методов для подгонки, не более того.

и? синтетические примеры - далеки от жизни, с синусом или любыми другими процессами с полностью наблюдаемым пространством состояний будет, даже какой ни буть kNN вполне прилично работать...
Если вы пока не сталкивались в моделировании с циклическими процессами, это не значит, что их нет. Их очень много, они повсюду ( ... )

Reply


Leave a comment

Up