Разница подходов, или О менталитете

Nov 15, 2023 22:26

Вот как ни строй из себя черт-те кого, сколько ни живи в Европах, а если головой русский то никуда от этого не денешься.

****

Курсовик делаем. Группа - два человека да местный куратор, с древним французским именем Азиз. Да и напарник - Ахмад. Откуда - хз, физиономией похож на перса, но, похоже, очень сильно окультуренный: в Токио учился, в Дрездене, сейчас вот у нас. Ученый-физик, как я понял то ли докторантура то ли что.

Общаемся все на ломаном английском.

Сидим над курсовиком вторую неделю, но т к лекции и экзамены никто не отменял, то времени на него мало, продвинулись пока недалеко.

[****]****

Делаем паралельно, каждый сам, сегодня первая встреча с Ахмадом - обсуждаем что сделали, как, и что дальше.

Я уже проанализировал данные на скорую руку, вытащил корреляции (все очень слабенькие, так что регрессия явно не пойдет, надо что-то другое, может кластеризацию попробовать). Целевые данные для прогноза - классифицировал, потому что там время (которое и надо будет предсказывать) до десятой доли секунды , а предметная область - приезд пожарной бригады на вызов в Лондоне, мы там умрем предсказывать до такой точности, да и в данных наверняка белого шума полно. Разбил просто на четыре класса, по квартилям, и на десяток классов, по децилям. После обрезки хвостов, конечно, а то кривая не так чтобы совсем на гауссиану похожа - хвостики подозрительные.
Ну и начинаю строить диаграммки всякие , буквально на коленке, и пытаться на глазок прикинуть что там и как, до того как с моделями мучиться, потому что все их по уму делать а потом отбрасывать - никакого времени не хватит.

Ахмад:
- Так, на первом этапе мы очищаем данные. Я по каждой колонке построил гистограмму с процентом пробелов в данных, и исходя из этого будем решать какие столбцы мы оставляем...
- Ахмад, а зачем?
- Этот шаг положен по стандарту. Вот например, приезд второй машины - много пропусков, третьей машины - очень много пропусков
- Ахмад, что мы выбрали как целевые данные?
- Приезд первой машины, его время как показатель реакции на вызов
- На кой черт нам приезд второй? От него приезд первой никак не зависит, даже если они коррелируют. И они, конечно, коррелируют, потому что от одних и тех же факторов зависят. А пропусков там много, потому что вторая часто не нужна, а третья тем более. Удаляй их сразу, нехрен там пустые значения считать
- Так положено. Колонки , где много пустых значений надо удалять
- Может, сначала проверим какие вообще имеют смысл?
- Положено сначала пустые.
- Но эти-то? Ну ладно, так или иначе, приезд второй машины ты удалил. Третьей тоже. Количество приехавших машин нам надо?
- Смотри, тут пустых значений..
- Ахмад, пожалуйста. У нас количество приехавших машин как-то может влиять на скорость приезда первой из них?
- Сначала надо посмотреть сколько пустых ...
- Ахмад, посмотри на эту колонку. Там пустых нет. Мы ее оставляем?
- Конечно
- Ахмад, здесь во всей колонке одно и то же значение: London. Это - город. У нас всё - в городе Лондон. Это - константа. Давай ее удалим, а?
- Надо подумать.
- Ок, думай
- А почему ты разбил время приезда на классы?
- Упрощение, округление, а что?
- Азиз сказал - регрессия
- А чем помешает?
- Регрессия, не классификация.
- Ахмад, я тебя очень прошу, давай я пока оставлю.
- Хорошо, спросим у Азиза. И будем делать регрессию
- Ахмад, я тебе прислал все коэффициэнты корреляции. Мы не выведем регрессию, все линейные зависимости очень слабы. Надо что-то другое искать. Вот, посмотри, я поставил координаты мест на диаграмме, и цветами пометил класс приезда по времени, двумя способами : на 4 класса по скорости (квартили), и на 10 (децили). Пятно получилось как по форме Лондон. И видно, что есть зависимость, чем ближе к центру тем быстрее, но неровная, надо кластеры искать
- Это кластеризация.
- Ну да.
- А Азиз сказал - регрессия.
....
- Ахмад, ну ты же видишь зависимость!
- У нас есть порядок работы. Сначала мы считаем количество пустых данных. У меня записано. Потом мы проверяем регрессию
- Ахмад, вот корреляции, регрессии не будет
- ... и мы должны посчитать регрессию со столбцами ...

****

Самое интересное, что он явно сдаст курсовик лучше меня. Я найду эти гребаные кластеры, моя модель будет рассчитывать время приезда как часы, но правильный и красивый репорт напишет именно он.
Потому что у него все по порядку и по инструкции. А у меня все на живую нитку, тут пишем, тут в уме, в комментариях к коду разбираюсь сам с трудом, другой документации нет вовсе, когда я до нее дойду - хз, не раньше чем отброшу все неработающие версии, и еще ваять ее буду на моем английском, то есть сам черт не разберет.

****

Азиз, что характерно, вполне сочетает восточное раздолбайство с французской легкостью в отношении к делу.
- Классификация? Ну а что, идея интересная
- Кластеры? Ну да, поищите кластеры. А что, я в прошлый раз сказал регрессия? Ну так вы ж говорите что не работает, давайте кластеры попробуйте.
- Квартили или децили? А сделайте и то и другое, потом выберете
Ахмад сидел хмурый, как будто зря напрягался. Но ничего, аккуратность и дотошность его все равно выведут к успеху. Я к нему тоже приду, даже может быстрее, но выглядеть это будет как будто он идет в обход по ровной дороге, а я - напрямик, через буреломы, чвакая сапогами по болоту.
Так что на финише он будет выглядеть чище. Не, правильно делает, тут так и надо. Это я никак переучиться не могу, русским родился - русским помру: творим чудеса ломом и такой-то матерью, в ночь перед сдачей дорабатывая напильником.
Так что не хмурься, Ахмад. Помяни мое слово: я еще к тебе бегать буду и спрашивать как курсовик писать. А то что модель работает - так мало ли что где работает, тут по всей форме доложить надо.

it, личное

Previous post Next post
Up