Для современных интернет-дискуссий достаточно характерно цитирование цифр в качестве последнего аргумента, после которого ``всё ясно''. Статистика призвана выступать самым веским аргументом, который позволяет одной группе спорщиков заклеймить другую и провозгласить победу в споре. Наиболее ``убедительной'' считается ссылка на какой-нибудь регулярный статистический сборник или монографию. В более утончённом случае ряды цифр используются для утверждения собственных идеологических убеждений, т.е. обеспечивают их обоснование (пожалуй, прикрытие). Например, одни группы цитируют потребление мяса или производство пшеницы для ``доказательства'' своих убеждений о том, каким должен быть политический строй в России сегодня (как в славные былые времена, как будто можно ситуацию автоматически перенести на другие условия). Или цифры смертных приговоров судов привлекаются для характеризации всей политической системы. Бывает и так, что в ходе перебранки изобретаются совсем уж странные показатели, по которым и статистики-то не ведётся. В любом случае интернет оказывается заполненным разнообразными таблицами, к которым обращаются с завидным постоянством.
На мой взгляд достаточно убедительно роль статистики в массовом сознании
очертил Кара-Мурза:
Числа представляют собой знаковую систему, которая оказывает неотразимое воздействие и на сознание, и на воображение. Магия числа в том, что оно, в отличие от слова или метафоры, обладает авторитетом точности и беспристрастности.
что, правда, не мешает ему использовать сборники цифр в идеологических целях (эту мысль я раскрываю ниже). Т.е. статистика выступает источником якобы независимого и объективного авторитета, стоящего над спорщиками. Если ты не знаешь или споришь со статистикой, ты дурак или тупица. Как вариант парирования можно посетовать на то, что есть ложь, а есть статистика (весьма неостроумно на мой взгляд).
Здесь я хочу набросать пару соображений на эту тему достаточно грубыми штрихами. Вопрос велик, настолько велик, что распадается на целые исследовательские области, поэтому речь стоит вести только о небольшом срезе проблемы. Так, я постараюсь практически не касаться элементарных ошибок в рассуждениях, которые обычно делают при анализе стат. данных, - сейчас речь пойдёт не об этом.
Главное отличие.
Скажу сразу самое главное: то, как используют цифры нормальные люди, и то, как их используют специалисты, имеет принципиальное различие. Для обывателя цифра имеет значение сама по себе. Т.е. показатель существует как некая объективная и непреложная истина, как нечто, что является исчерпывающим и самодостаточным кусочком информации. Достаточно сказать, сколько человек было приговорено тройками, или сколько квадратных метров жилья вводили в 80-ых гг., и всё (?) должно быть очевидным и ясным (!).
В действительности же никакие статистические показатели сами по себе не имеют ровно никакого значения. Можно сказать, любой показатель - пустой звук, бессмысленный набор цифр. Какое-либо значение у статистики появляется только и исключительно благодаря интерпретации, с помощью которой туманный и неопределённый набор данных становится собственно осязаемой информацией, которую можно понимать и анализировать. Сама по себе эта задача - непростая, требующая знакомства с принятыми в науке методами обработки данных. Т.е. мы уже приходим к тому, что показатели имеют какое-либо осмысленное значение только по отношению к конкретной научной дисциплине, которая ими только и занимается. Идея самодостаточности цифр самих по себе оказывается ложной. Для профессионала количественные показатели - лишь средство, которое выступает частным элементом анализа.
Я бы выделил следующие стороны проблемы:
Информативность. Пожалуй, наиболее часто встречающейся ошибкой в рассуждениях со статистикой является неучёт контекста, в котором употребляются цифры, и их уместности в этом контексте. Используя какую-либо цифру, мы всегда явно (или неявно, что хуже) подразумеваем проблему, для разрешения которой требуется эта цифра. Можно говорить о том, что любой показатель обладает условной информативностью, определённой на интервале [0,1], по отношению к данной проблеме. Идеально измеренный ВВП имел бы единичную информативность по отношению к вопросу об уровне развития экономической деятельности в стране. Ожидаемая продолжительность жизни при рождении имеет среднюю информативность по отношению к вопросу о состоянии системы здравоохранения. Средний уровень доходов имеет низкую информативность по отношению к имущественному неравенству в стране.
Действительность такова, что информативность любой социальной статистики всегда меньше единицы по отношению к тем проблемам, для разрешения которых предназначается эта статистика. Это связано со сложностями сбора информации надлежащей детализированности и точности. Поэтому не приходится удивляться, что для анализа статистических данных используются весьма и весьма изощрённые статистические и эконометрические методы. Эта проблема касается также темы интерпретируемости статистики (см. ниже).
Что же касается общественных дискуссий, то информативность большинства цитируемых стат. показателей в них весьма мала. Люди зачастую совершенно не понимают, что они приводят в качестве ``железных аргументов'', и как плохо это соотносится с отстаиваемой позицией. Например, потребление мяса на душу населения в сравнительно развитой стране (СССР после войны) используется как показатель уровня жизни и даже его динамики. Какова же его информативность? Очень и очень мала. Какова информативность разнообразия современного телевещания по отношению к уровню культурного развития страны? Довольно низка, если только не сводить культуру к массовому бескультурью.
Интерпретируемость. К сожалению, даже использование корректных показателей по отношению к корректно поставленным вопросам не означает, что умозаключения будут верными. Рисование кривых, определение тенденций, красивые графики - всё это средства, с помощью которых доверчивая душа может заняться самообманом. Как было указано ранее, статистика нуждается в интерпретации, т.е. наделяется смыслом с помощью некоторой формальной модели, где показатели увязываются в систему. Мало знать производство чулок в России в этом году, надо понимать, что с этим показателем делать и как его соотнести с рассматриваемым вопросом. Т.е. что означает, что произвели столько-то? Это много или мало? Сколько - норма? По каким критериям? Для интерпретации нужны формальные (зачастую математические) модели, которые устанавливают стандарты отсчёта и сравнения. Например, при анализе темпов роста показателя необходимо понимать ``механику'' этого роста, его обусловленность связями с другими переменными (об этом подробнее я писал
в специальной записи о советских темпах роста). Чтобы понимать эту механику, надо в свою очередь знать - как минимум, лучше - интуитивно понимать, свойства и поведение переменных в простейших дифференциальных уравнениях. Минимальная подковка в стат. и мат. методах позволит хотя бы понимать динамику и её импликации, т.е. корректно отвечать на небольшое подмножество имеющих смысл вопросов. Для большего нужны предметные знания (теория).
Повторно укажу, что нужно не просто владеть аппаратом анализа количественных показателей вообще, но и знать теории, которые описывают эти показатели, в рамках которых показатели обретают смысл. Без этого корректная интерпретация статистики зачастую невозможна, какими бы иллюзиями мы себя не тешили. Да, не нужно много ума и знаний, чтобы понять, что означает рост ВВП в данном году на столько процентов. Но вот понять, показателем чего является этот рост, без понимания экономики и знакомства с методами анализа экономических показателей невозможно. Как и нельзя связать этот факт с окружающими явлениями. Само по себе это, конечно, банально. Тем не менее социальная статистика создаёт опасную иллюзию доступности и несложности для интерпретации. Анализы крови или работы сердца мы не спешим публиковать в интернете и обсуждать с умным видом. Не спешим делать прогнозы своего самочувствия и осуждать свой образ жизни - наборы измерений немедику не понять. С социальной статистикой мы себя ведём иначе. Хотя её анализ обычно намного сложнее.
Вообще данная проблема вызвана тем, что любой социальный показатель всегда имеет массу причин, которые сыграли роль в его определении. Без понимания взаимосвязи этих причин совершенно невозможно дать правильную интерпретацию практически любому факту. Я это наблюдаю регулярно, когда просматриваю бесчисленные обсуждения. Мало знать факт, надо понимать, как он произошёл, как его объяснить с точки зрения теории. Ну, приговорили тройки столько-то человек в таком-то году, что дальше? Есть ли этому объяснение, каковы причины такой аномалии? Без объяснения это нельзя считать фактом, разве что загадкой.
При желании интерпретируемость также можно условно определить для интервала [0,1] (конечно, никакого значения это не имеет, просто для того, чтобы легче было формулировать вопросы). Например, я показал на примере популярного рассмотрения экономического развития в СССР, что интерпретируемость темпа роста ВНП на душу по отношению к вопросу об успешности экономической политики близка к малым значениям. Связано это с тем, что на данный показатель действует целый ряд других достаточно важных переменных, которые определяют его динамику (хорошо известных экономистам). Конечно, если ставится дескриптивный вопрос о повышении уровня жизни в СССР (или любой другой стране), то интерпретируемость близка к 1. Всё определяется частным вопросом.
Здесь я приведу пару примеров того, как можно ввести себя в заблуждение. Пример из демографии, т.е. я фактически частично нарушаю указанный принцип интерпретируемости, не будучи профессиональным демографом. Тем не менее в учебных целях пример годится.
Приведу цитату из выступления одного деятеля (разбор
отсюда):
Cнижение детской смертности в России очень наглядно показывают средние данные по пятилетиям: 1892-1896 - 27,5; 1896-1901 - 26; 1902-1906 - 25,3; 1907-1911 - 24,4. Тенденция сокращения детской смертности на лицо!
Как же вел себя показатель младенческой смертности в СССР? Вместо тенденции сокращения, характерной для дореволюционной России и НЭПа, с конца 20-х годов он начинает расти: 1927 год - 20,5; 1928 - 22; 1929 - 24; 1930 - 22,7; 1931 - 24; 1932 - 23,3; 1933 - 29,5; 1934 - 22,1; 1935 - 23,3; 1936 - 25,8. Пятилетний средние показатель детской смертности увеличился почти на 10\%: 1927-1931 - 22,64; 1931-1936 - 24,8.
Получается, что несмотря на то, что прошло более четверти века, показатель 1931-1940 годов (23,4) мало чем отличался от показателя детской смертности 1902-1911 годов (24,9). То есть правление большевиков вплоть до 40-х годов практически остановило прогресс в деле сокращения младенческой смертности! Большевики стали мощным тормозом в том, что касается динамики сокращения младенческой смертности.
Оставляя без внимания идеологические пристрастия автора цитаты, перед нами пример обыкновенного неумения анализировать данные. Достаточно построить график наблюдений, которые использовались автором цитаты.
Виден, с одной стороны, разброс ежегодных значений, что весьма характерно для социальной статистики, где велика случайность. С другой стороны, невооружённым глазом заметно, что средний уровень значений для периода конца 20-ых - 30-ых гг., за исключением единичного выброса, находится ниже, чем в предшествующий период. Достаточно вписать обыкновенный тренд, чтобы удостовериться в том, что никакого изменения динамики не было:
Неспособность корректно определить тенденцию - не единственная проблема. Автор отстаивал использование антропометрических показателей и заявил следующее:
[...] размеры тела новорожденных определяются условиями жизни общества. Исходя из динамики веса новорожденных можно объективно оценивать уровень питания жителей страны.
Антропометрия - отдельная тема, которой пока касаться не хочу. Но зададимся вопросами: какова информативность приведённых данных по отношению к поставленному вопросу: условиям жизни общества? Очевидно, что довольно низка. А как быть с интерпретируемостью указанного тренда? Чем он вызван: заботой большевиков о здоровье населения, развитием медицины в мире, действием Международного Красного Креста или чем-то иным? Без дополнительной информации судить затруднительно. Фактом в данном случае является только продолжение тенденции при наличии выброса. А уж что означает этот факт, ответить сможет только анализ.
Вот ещё несколько мелких примеров из частных дискуссий.
Пройдусь кратко по столь любимому мной потреблению мяса. Является ли показатель информативным по отношению к вопросу об уровне жизни (хоть в Российской Империи, хоть в позднем СССР - хотя ситуации немножко разные). Очевидно, информативность достаточно мала. Связано это с тем, что, первое, этот показатель имеет естественное ограничение. При всём желании невозможно есть чрезмерное кол-во кг на человека в год. Разброс значений составляет где-то 0-120 кг. Больше верхней цифры, полагаю, просто вредно для здоровья. Тогда как верхнего ограничения для экономического развития не существует. Отсюда следует, что для более менее развитого государства значения потребления мяса практически не несут никакой ценной информации.Если посмотреть на данные (здесь опускаю), то можно грубо все страны мира поделить на бедные (где показатель 0-20 кг) и богатые (60-90 кг). Второе, уровень потребления, который установился в данной стране, может быть связан с большим числом сторонних факторов, которые слабо связаны с экономическим развитием. Например, с кулинарными традициями или банально с относительной дороговизной мяса по отношению к другим продуктам (скажем, рыбе - для некоторых морских государств). Не только различие по отношению к другим странам, но и небольшие изменения потребления в одной стране могут быть связаны с действием таких локальных факторов. Т.е. глядя на статистику потребления мяса надо ещё понять, чем вызваны колебания, прежде чем можно будет делать какие-то частные выводы. А для этого необходима как минимум модель, описывающая выборы потребителей.
Чтобы подытожить. Что такое факт?
Итак, я обратил внимание на две стороны: на информативность и на интерпретируемость. Их низкое значение делает рассматриваемый количественный показатель бессмысленным и бесполезным для разрешения заданного исследователем или рядовым человеком вопроса. Даже высокоинформативный показатель может быть малополезным, если его затруднительно соотнести (интерпретировать) по отношению к данной, выбранной нами частной проблеме. Само по себе это означает, что не всякая цифра, не всякий показатель является фактом. Факт в науке - не просто кусочек данных, цифирь из сборника или какое-либо другое зафиксированное явление. Кусочек данных должен сначала получить научное ``гражданство'', что достигается с помощью методологии, которая предписывает, как обрабатывать данные и какие данные использовать. Затем релевантная информация укладывается в научную модель, в рамках которой она обретает интерпретируемость, т.е. становится содержательной. Вот так проинтерпретированная информация становится фактом, т.е. частью знания.