нестерпна легкість інтерпретації соціологічних даних

Jul 12, 2012 10:03

Пролог
Завдяки archervarius знайшов статтю Ірини Славінської про те, що "82,2% українців не купують українських книжок". Частину принципових закидів як щодо методології самого дослідження, так і помилок Ірини Славінської викладено тим же archervarius*ом в цьому дописі. Повторюватись я не хочу, а тому перейду до суті проблеми

Не-соціологам видається елементарно простим інтерпретувати соціологічні дані.

Це просто якась епідемія. От результати досліджень з астрономії чи ще чогось там іншого точного ніхто не інтерпретує на свій страх і ризик, а просто вірять на слово авторам (хоча останні не завжди тямлять, про що пишуть - ось наприклад). Але як справа доходить до соціології - так нема нічого простішого!

І найгірше в цій ситуації, що слова автора ж підкріплені числами. Як під таке "підкопаєшся"?


Така ситуація є просто катастрофічною. Адже складається враженння, що автор пише не "отсебятину", а робить цілком поважні виснлвки з серйозного опитування.
Хоча в цьому випадку, не володіючи методами аналізу "цифр", він (чи вона) або робить з мухи слона, або ж несвідомо шукає підтвердження своїм особистим переконанням. І те, і інше до соціологічного опитування стосунку не має...

І розберу я ці польоти вві сні і наяву на прикладі вже згадуваної статті.

1. Рефреном через всю статтю проходять фрази: "Третина опитаних (30,5%) не відчули впливу літератури на свій світогляд", "Майже половина опитаних взагалі не вважають українських письменників популярними" ітд.

Страх, та й годі. Але звідки такі числа? Все просто: додаємо відсоток відповідей "Немає впливу" / "Немає популярних письменників" (залежно від запитання) і відсоток відповідей "Важко відповісти".

І до лямпочки, що соціологи досі ведуть дискусію, як саме опрацьовувати відповіді "Важко відповісти". Переважно їх залишають в спокої, ні до кого не додають і не віднімають. І в цьому є сенс. Наприклад, перше запитання: Хто з письменників більше за інших вплинув на формування вашого світогляду? В людини просили однієї відповіді. І тут починається "разброд и шатание". Одні не відповіли, бо не читають взагалі, але їм соромно в цьому признаватися. Таких можна записувати в групу "Немає таких письменників". І була б І.Славінська права, якби не той факт, що є й респонденти, які не можуть вказати одного письменника. От який один письменник вплинув на мій світогляд? Та немає такого, я їх з 5ок назву. А мені пропонують вибрати одного. Та в такій ситуації, щоб не лукавити, я відповім - не знаю. І потраплю в групу "неписьменних" (згідно з І.Славінською).

І це точно підкріплює неусвідомлене (чи усвідомлене?) переконання автора, що в нас люди мало читають... Але так не є: аналізуйте valid percent, себто ті відсотки, які залишаться, коли відсіються "Важко сказати").

2. Порівняння різних вікових груп - це просто трагедія масштабів Есхіла.
Автор подає таблиці з даними по таких вікових групах: 18-29 / 30-39 / 40-49 / 50-54 / 55 і старші. Все ніби гарно, логічно ітд. От тільки щодо вікової групи "50-54" є проблема: дані по ній не репрезентативні.

Загальний розмір вибіркової сукупності 2089 респ. Якщо врахувати пропорції різних вікових груп в структурі населення України, то для згадуваної групи чисельність буде 165 респ. А це замало, бо мінімальне число для репрезентативних даних - 400.

Що на практиці це означає? Для такої кількості респондентів випадкова помилка буде становити 7,8%.
Тобто твердження автора, що
Найбільш скептичними до популярності українських письменників є респонденти у віці 50-54 років. Чверть з них вважає, що популярних українських письменників немає (23,1%)
втрачає сенс. В %інших вікових груп відсотки коливаються в районі 13,4-17,7%. Різниця відчутна - на око: 5,4-9,7%. Але врахувавши помилку 7,8%, картина не така вже й катастрофічна. Ці 23,1% слід читати так: 15,3-30,9% Тобто або дані на рівні інших вікових груп, або вже дуже відрізняються. Проте певності тут немає, бо дані, як я вже писав, нарепрезентативні.

Наприклад, для вікової групи 30-39% помилка становить 3,7%. Тобто їхнє 14,1% слід читати 10,4-17,8%. Десь так.

3. Порівняння відсоткових даних - це окрема трагічна розмова.
Тут "на око" рахувати взагалі не слід, щоб не потрапити в незручне становище.
Наприклад, автор пише: Найбільшими любителями російської класики є покоління 40+ (35-40%). І вона неправа! Ось на основі яких даних вона робить свої висновки (в дужках, відсоток респондентів, які обрали варіант відповіді "Російська класика"):
18-29 - 21,8%;
30-39 - 30,5%;
40-49 - 37,1%.

"На око", межа проходить між 39 і 40 років. Але лише на око. Я вже згадував про проблему помилки вибірки, а тому зараз зроблю висновок: через цю помилку дослідник повинен враховувати, що реальні відсотки (в межах генеральної сукупності) коливатимуться в окреслених помилкою межах. Відтак, постає запитання: яка різниця відсотків є "критичною", яка вже не може бути списаною на випадкові помилки? Тут слід враховувати розмір вибіркових сукупностей, що порівнюються, та відсотки, які порівнюються. У цьому випадку таким "критичним відсотком" є 7,1%. Що це означає? Різниця між 30-39 і 40-49 - 6,6%, що менше критичного значення, а тому може бути списане на випадкові помилки. Натомість між 18-29 і 30-39 - 8,7%, що більше критичного знапчення.
Тобто, насправді відрізняються покоління 18-29 і 30+.

4. Опрацювання питань з множинними варіантами відповіді. Таких в дослідженні є декілька: де респондент обирає до 3 варіантів відповідей, або взагалі вказує всі варіанти, які вважає правильними.

В чому тут фокус? В тому, що одна людина може дати декілька відповідей. Відтак, є два способи підрахунку цих відповідей. Перший: всі отримані відповіді вважати за 100% - і вираховувати відсотки для кожного варіанту відповіді. Так і було зроблено в статті. В чому його проблема? Тут ми рахуємо відповіді. Їх більше, ніж респондентів, вони показують розподіл відповідей, а не респондентів. Тобто коли ми маємо два опитування, в одному всі варіанти відповідей обрало менше 30 %, а в іншому - більше 70%, то отримана структура відповідей може зберегтися. Проте в другому випадку ми бачимо, що респонденти більш одностайні - всі ж вказували більшість варіантів.
Тому я надаю перевагу другому способу: рахувати відсоток респондентів, які вказали згаданий варіант відповіді. Тоді чітко віидно, чи це більше 50% чи менше. І з цього можна робити висновки.

На щастя для автора, в таблиці є такі варіанти як "Немає таких" і "Важко відповісти". Ясно, що люди, які обрали такі варіанти, вже не вказуватимуть інші. Тому структура відповідей більш-менш відповідає структурі думок респондентів. Але не зовсім: ми отримуємо занижені відсотки. Тобто висновок автора, що Інші письменники змогли "достукатися" аж до 1-2% респондентів, абсолютно некоректний: таких людей могло бути 5-10% Або й всі 30% (коли частина вказала "не знаю" чи "немає таких", а решта - одностайно вказала всіх письменників зі списку).

5. Інтерпретація чисел... Тут вже просто жах. Наприклад, автор робить висновки про "політичність вибору "рідної" (?) класики" і про вади освіти.

Почну з останнього. Автор гордо вказує, що оскільки дуже мала частка людей 40+ (хоча це 30+) вказали вплив зарубіжної класики і сучасної літератури на формування їхнього світогляду - то це вади їхньої освіти... А може просто сучасна для нас література в їхні роки не існувала як така, бо була ненаписана. Світогляд формується на початку життя. Отже, як могла ненаписана література впливати на формування їхнього світогляду?
Окей, скаже мені читач, але ж і зарубіжна класика там є: 7% впливу на молодь і всього лиш 4,5% на групу 30-49. Воно то так, але... "Критична" різниця відсотків в цьому випадку повинна бути 2,9%, а маємо 2,5%. Тобто різниця може бути списана на випадкові похибки. А тому вікова група 18-49 є однорідною в плані оцінки впливу зарубіжної класики на свій світогляд. Уви да ах!

І про політичність вибору рідної класики. Я якось так і недогледів, де в дослідженні було питання про те, яку класику ви вважаєте рідною... Йшлося всюди про вплив. Так на Заході багато хто з письменників вказує вплив Достоєвського на формування власного світогляду (Урсула Ле Ґуїн, наприклад). То вони насправді росіяни?
Та й цей вплив ще нічого не свідчить. Ще в 1960-х рр. - в контексті дискусії про формування радянського народу, радянські соціологи виявили цікаву річ: культурні впливи (русифікація, чого там приховувати) не мають вирішального впливу на формування ідентичності... Тобто слід розрізняти національно-культурні орієнтації та національно-психологічні. Перші можуть вказувати на значний вплив російської культури на свідомість індивіда, але на рівні психологічних установок він/вона буде гостро критична щодо втрати своєї ідентичності. І деколи ситуація була взагалі зворотня: знайомство і сприйняття російської культури призводять до усвідомлення власної не-російської ідентичності.
І прикладом може слугувати Михайло Драгоманов, який вважав російську культуру вищою від української, і тим не менше обстоював українську національну ідентичність. (Що і виявилося в повній мірі в його "Листах на Наддніпрянську Україну").
Тому вважати, що вплив російської класики свідчення того, що вона є "рідною" - це трошки перекос.

Ось такі справи. І прикро, що стаття матиме вплив на читача-несоціолога, який вважатиме отримані дані цілком коректиними і адекватними... І зробить - вслід за автором - хибні висновки...

квантофренія, соціальна фізика, spear review

Previous post Next post
Up