Эпический конкурс Heritage Health Prize завершился на днях. При этом победитель пока неизвестен. Вернее, неизвестно точное распределение мест в верхней десятке команд. Лично я ставлю на то, что первое место достанется Opera Solutions. Команда Almata, занимавшая долгое время верхнюю строчку с большим отрывом, некисло оверфитнулась и свалилась на 19
(
Read more... )
Вот это-то и хреново, что общий подход (и твой, в частности) стал именно таким. Потому что он верный только в том случае, если выбранные тобой факторы действительно описывают нужные свойства модели, в таком случае эффективность применения ML замечательная, вплоть до 100%. Но рассчитывать на то, что оно так и будет - наивно, как правило всё по-другому. Я хз, почему любители ML этого не видят.
Хотя в некоторых областях такой подход работает хорошо, да. В IR - работает так себе, имхо. :)
Reply
Reply
И на ML никто не наезжал. ML-методы на сегодня наверное самые лучшие для подгонки, если факторы выбраны верно. Наезд исключительно на подход к применению ML, когда исследования области игнорируются, потому что разработчик уверен, что всегда заменит качество количеством. Дык вот - это не правильная уверенность. :)
Reply
Reply
Ну конечно много, более того - мало видел моделей с приличной пофакторной корреляцией. Самый простой пример - поиск Яндекса, у большинства факторов корреляция с выдачей никакая. Про все 100% факторов не могу сказать, т.к. не владею свежими данными.
тогда к чему задаете подобные вопросы?
Как к чему, вы выше заявили, что если факторы не будут коррелировать с результатом, то будет жопа. Я вам привел простой пример, когда корреляции нет, как и жопы. :)
если среди них будет еще и куча "не очень хороших" то хуже от этого не будет.
Это заблуждение. Может стать существенно хуже, при самой козырной красоте на этапе обучения. Пословицу про ложку дёгтя помните? Дык, она говорит о том, что наши предки применяли ML-методы с осторожностью. А вот потомки распоясались. :)
Reply
Reply
Вы путаете слабую корреляцию с мусорностью. Из того, что факторы слабо коррелируют с результатом, не следует, что они мусорные.
Про "ML модели" я вам выше привёл в пример поиск Яндекса. Вообще в поисковой индустрии хорошая корреляция многих факторов с выдачей критична - если бы она была, топы в выдаче тут же порвали бы сео-оптимизаторы. :)
Ну и термин "ML модели" мне вообще не нравится. У таких моделей что, есть какие-то особые свойства, чтоле? ML - просто еще несколько методов для подгонки, не более того.
и? синтетические примеры - далеки от жизни, с синусом или любыми другими процессами с полностью наблюдаемым пространством состояний будет, даже какой ни буть kNN вполне прилично работать...
Если вы пока не сталкивались в моделировании с циклическими процессами, это не значит, что их нет. Их очень много, они повсюду ( ... )
Reply
Leave a comment