Sep 24, 2023 14:14
В курсе Data Science , который я сейчас прохожу, изрядная часть посвящена тому, что делать с неверными данными.
Пробелы и пропуски, неформатные (например нечисловые) значения, выбросы - редкие слишком большие и слишком маленькие показатели относительно привычного диапазона (он вполне рассчитывается статистически) и тд и тп. Вариантов обработки их множество - заменить на ноль, на заглушку "данные отсутствуют" в разных видах, на среднее, на медиану, на моду, удаление всей строки и тд.
И ни одного, твою мать, ни одного намека на "Не поленись, проверь - вдруг это не ошибка?! Вдруг здесь зафиксировано что-то странное и непривычное, чего нельзя пропустить?"
С таким обучением мы пожалуй такой ИИ наворотим, что очень успешно будет грести всех под одну гребенку - но рухнет на первой же проблеме, которую не заметит вовремя, потому что "отфильтрует"
****
Да, я знаю, ученые могут заметить и распознать такое необычное явление. Я сам этому учился даже в мирной и непретенциозной географии.
Но ученых мало и их не слушают. А вот таких кодеров - тысячи, а будут миллионы.
И не в Python дело и не в R и не в прочих языках - а в умострое , заточенном под "непонятная фигня какая-то, выбрось". И концепты кодерам пишут такие же люди, просто они языков программирования не знают, а думают-то точно так же.
И такие же концепты они пишут везде, вплоть до доктрин армий и государств.
"Непонятная фигня"... Именно - непонятная. Или вы ее поймете вовремя, или вы ничего не поймете даже когда она вас убьёт.
it,
заметки на манжетах,
публикации,
работа