Неоднозначные термины

Apr 26, 2023 18:54


Про коэффициент Джини знает довольно много людей. Скажу больше, практический каждый любитель политических срачей хоть раз да натыкался на него а некоторые даже и использовали в качестве аргумента. А вот про то что разных коэффициентов Джини не один, не два и даже не три знает уже заметно меньшее количество людей. Итак, начнём подсчёт:



1. Тот самый экономический, служащий мерой неравенства доходов. Геометрический определяется кривой Лоренца (Макса Лоренца, не путайте). Для расчёта нужно взять группы людей по доходу, отранжировать от меньшего к большему и определить кумулятивную сумму доли общего дохода  на соответствующую долю населения. Проще говоря если у нас есть четыре человека то в случае если доход у всех одинаковый то мы получим пропорцию [25% (доля населения), 25% (доля дохода)], [50%, 50% ], [75%, 75% ], [100% , 100% ] иначе говоря 1 человек это четверть населения и у него четверть от общего дохода, 2 человека это половина населения и у них половина дохода и тд. Идеальное равенство - коэффициент 0, синий цвет на рисунке. Если же у нас 3 человека нищие (получают 0) а один богатый (получает весь доход) то пропорция будет такой [25% (доля населения): 0% (доля дохода)], [50%, 0% ],  [75%, 0% ],  [100%, 100% ]. Идеальное неравенство - коэффициент 1, зелёный цвет (это не рамка и не граница, это «кривая» так нарисована). Средний случай это например [25%, 12.5%], [50%, 25%] , [75%, 50%],  [100%, 100%] (красный цвет).



Кривая Лоренца (Макса Лоренца) и экономический вариант Джини

2. Редко используемая метрика в задаче классификации. Она практический полностью аналогична предыдущему варианту и тоже определяется с помощью кривой, но в отличие от кривой Лоренца Lift Curve выгнута в противоположную сторону, соответственно значения ранжируются от большего к меньшему. Какие значения? Вероятность принадлежности к одному из классов в задаче классификации.

3. Часто используемая метрика в задаче классификации, он же нормализованный коэффициент Джини. Берём коэффициент из предыдущего пункта, делим его на коэффициент Джини идеальной модели и получаем значение которое определяется ещё одной кривой -  ROC Curve.



Первый график - ROC Curve, второй Lift Curve, третий Lift Curve для правильных ответов (идеальная модель)

Забавное отступление. Некоторые люди пишущие о Джини видят сходство первого и второго графика «невооружённым глазом». Некоторые не видят, выводят связь между ROC-AUC и GINI алгебраическими методами и клеймят первых жуликами. Лично я ближе к первым, моя извращённая фантазия подсказывает что в пространстве искажённом так чтобы третий график имел прямой угол и занимал всю левую-верхнюю половину квадрата второй график будет очень-очень сильно похож на первый.

4. Коэффициент Джини (Gini impurity) использующийся для разделения объектов в решающем дереве. Здесь для разнообразия обойдёмся без геометрии, значение коэффициента - сумма квадратов вероятностей нахождения каждого класса в рассматриваемом узле (или листе) которую вычли из единицы.



как-то так

Проще говоря, если у нас есть два класса объектов но в одной группе содержатся объекты только одного класса то коэффициент будет 0 - это хорошая однородная группа. Если у нас половина объектов одного класса и половина другого результат будет 0,5 - однородности нет. В случае когда девять объектов одного класса а один другого - 0,18 однородность неплохая но не идеальная.

5. Каминский и Кривцов предложили коэффициент типа Джини, который помогает оценить степень старения не подлежащих ремонту систем или старения и омоложения ремонтопригодных систем. Этот коэффициент примечателен тем что я про него ровно ничего не знаю.

Так вот, про терминологии. Каждый приведённый коэффициент используется в своей сфере и по сложившейся в этих сферах традиции без всяких уточнений. Что создаёт некоторые трудности копирайтерам-популизаторам, которые хотят в  двух словах описать ситуацию для аудитории после того как они сами потратили не больше пяти минут на беглый гуглинг.

Кстати, надеюсь никто не подумал, что я загорелся новым увлечением, стал мономаньяком или восторженным фанатом (что хуже) и сейчас в блоге будет куча постов о DS, анализе данных, математике и программировании?



Так вот, это всё я рассказал не только из за того что не могу сдерживаться узнав столько нового и интересного но и чтобы проиллюстрировать одну насущную и довольно печальную вещь, которую я заметил ещё несколько лет назад когда писал пост о несправедливости. А именно - ру.википедия по сравнению с английской днищенское дно.  Некоторых статей тпиа Ултиматум вообще нет (проверил, в 2020 году огрызок появился и у нас, оригинальная в английском варианте существует уже 20, блин, лет). Некоторые статьи - полное убожество, например про те же коэффициенты Джини, где у английской пометка «Не следует путать с Gini impurity», одних только ссылок больше ста штук (а есть ещё несколько десятков материалов для чтения по теме) и описание всесторонне с формулами, примерами и статистикой. А на русском одна страничка текста, десять ссылок, две формулы и одна устаревшая картинка. Эта картинка меня окончательно добила, у нас карта за 2018 год у них за 2020. Сравнивать здесь статьи про цепи Маркова я не буду чтобы окончательно не расстраиваться. Про идеологический посыл в свете текущей политической ситуации и говорить нечего, a-bugaev много писал про захват власти бешеными заукраинцами, соответственно сейчас по всем актуальным вопросам представлена ровно одна позиция.

Видя всё это невольно приходят печальные мысли (созвучные с описанными в книге «Злые самаритяне») про то что реально хорошая западная штука при переносе на нашу почву с одной стороны теряет большую часть своих полезных свойств а с другой по максимуму используется для внешнего влияния на внутренние дела. Почему и в каких случаях это происходит, что с этим делать, как этого избежать - вопросы которые ждут своего исследователя.

Previous post Next post
Up