Эпический конкурс Heritage Health Prize завершился на днях. При этом победитель пока неизвестен. Вернее, неизвестно точное распределение мест в верхней десятке команд. Лично я ставлю на то, что первое место достанется Opera Solutions. Команда Almata, занимавшая долгое время верхнюю строчку с большим отрывом, некисло оверфитнулась и свалилась на 19
(
Read more... )
и много вы видели ML моделей, которые имели пофакторную "корреляцию"(в смысле mutual information) с результатом равную нулю, и давали какой-то значимый результат? только не в фантазиях, а в реальности...
>Для примера возьмем функцию от одного фактора - синус. Корреляции с результатом нет, значит >смоделировать функцию не получится? В любом случае будет жопа? ;)
вы серьезно не понимаете что такое плотность и чем она отличается от функции или динамического/стохастического процесса? как-то слабо в это верится... тогда к чему задаете подобные вопросы?
>И на ML никто не наезжал. ML-методы на сегодня наверное самые лучшие для подгонки, если факторы >выбраны верно. Наезд исключительно на подход к применению ML, когда исследования области >игнорируются, потому что разработчик уверен, что всегда заменит качество количеством. Дык вот - это не >правильная уверенность. :)
нужные хорошие факторы, я думаю с этим никто не спорит, просто если среди них будет еще и куча "не очень хороших" то хуже от этого не будет.
Reply
Ну конечно много, более того - мало видел моделей с приличной пофакторной корреляцией. Самый простой пример - поиск Яндекса, у большинства факторов корреляция с выдачей никакая. Про все 100% факторов не могу сказать, т.к. не владею свежими данными.
тогда к чему задаете подобные вопросы?
Как к чему, вы выше заявили, что если факторы не будут коррелировать с результатом, то будет жопа. Я вам привел простой пример, когда корреляции нет, как и жопы. :)
если среди них будет еще и куча "не очень хороших" то хуже от этого не будет.
Это заблуждение. Может стать существенно хуже, при самой козырной красоте на этапе обучения. Пословицу про ложку дёгтя помните? Дык, она говорит о том, что наши предки применяли ML-методы с осторожностью. А вот потомки распоясались. :)
Reply
>пример - поиск Яндекса, у большинства факторов корреляция с выдачей никакая. Про все 100% факторов не >могу сказать, т.к. не владею свежими данными.
слабые факторы могут усиливаться, это очевидно, но если они все "нулевые" - то мусор на входе - мусор на выходе, в то что вы действительно видели работоспособные ML модели на таких факторах, я продолжаю сомневаться...
>Как к чему, вы выше заявили, что если факторы не будут коррелировать с результатом, то будет жопа. Я вам >привел простой пример, когда корреляции нет, как и жопы. :)
и? синтетические примеры - далеки от жизни, с синусом или любыми другими процессами с полностью наблюдаемым пространством состояний будет, даже какой ни буть kNN вполне прилично работать...
>Это заблуждение. Может стать существенно хуже, при самой козырной красоте на этапе обучения. >Пословицу про ложку дёгтя помните? Дык, она говорит о том, что наши предки применяли ML-методы с >осторожностью. А вот потомки распоясались. :)
если данные получения из одной выборки и кто-то не перемудрил с "подгонкой" - то не может, тем более есть кросс-валидация.
Reply
Вы путаете слабую корреляцию с мусорностью. Из того, что факторы слабо коррелируют с результатом, не следует, что они мусорные.
Про "ML модели" я вам выше привёл в пример поиск Яндекса. Вообще в поисковой индустрии хорошая корреляция многих факторов с выдачей критична - если бы она была, топы в выдаче тут же порвали бы сео-оптимизаторы. :)
Ну и термин "ML модели" мне вообще не нравится. У таких моделей что, есть какие-то особые свойства, чтоле? ML - просто еще несколько методов для подгонки, не более того.
и? синтетические примеры - далеки от жизни, с синусом или любыми другими процессами с полностью наблюдаемым пространством состояний будет, даже какой ни буть kNN вполне прилично работать...
Если вы пока не сталкивались в моделировании с циклическими процессами, это не значит, что их нет. Их очень много, они повсюду. И некоторые иногда стоит моделировать, да. :)
если данные получения из одной выборки и кто-то не перемудрил с "подгонкой" - то не может, тем более есть кросс-валидация.
Да! Кросс-валидация всех спасёт!!11 :D
А кто вам сказал, что ваша выборка обладает теми же свойствами, что и всё множество? Науки же нет, проверить никак нельзя.
Reply
Leave a comment