Информация случайного события вычисляется как минус логарифм вероятности этого события:
При этом, так как логарифм здесь с основанием 2, информация измеряется в битах, а если использовать натуральный логарифм, с основанием в виде числа e, то информация будет измеряться в натах.
Из этой формулы следует, что, чем менее вероятно какое-то событие, тем больше информации оно несёт или, по-другому, тем больше бит требуется для передачи информации о таком событии. И наоборот, чем более вероятно какое-то событие, тем меньше информации.
Например, если вероятность какого-то события равна 0.001, тогда его собственная информация будет равна:
если вероятность равна 0.5, то информация равна единице:
а если вероятность равна единице, то информация равна нулю:
А что, если нужно измерить информацию не отдельного события, а целого распределения? В таком случае мерой выступает информационная энтропия, которая, по сути, показывает среднее значение информации этого распределения:
Если в эту формулу подставить вероятности выпадения орла и решки при броске монеты то есть [0.5, 0.5], то, логично, что энтропия такого распределения равна одному биту:
Для распределения вероятностей игральной кости - приблизительно 2.59 бита:
а для вот такого распределения: [0.1, 0.2, 0.3, 0.4] - приблизительно равна 1.85 бита:
https://ru.wikipedia.org/wiki/Информационная_энтропияhttps://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.entropy.html