Кризис воспроизводимости в науке: ss69100

ss69100

Кризис воспроизводимости в науке

Jul 18, 2024 07:43

Несомненно, самая популярная книга по психологии за минувшее десятилетие - это “Думай медленно… решай быстро” Даниэля Канемана . Не так много существует руководств по человеческому разуму, превосходящих канемановское.

Он получил Нобелевскую премию по экономике 2002 года за свои исследования человеческой (ир)рациональности и опубликовал результаты десятков искусных экспериментов, демонстрирующих ограничения нашей способности мыслить.

Книга “Думай медленно… решай быстро” стала сенсацией, суммарные продажи исчислялись миллионами экземпляров, и она до сих пор недурно расходится. И на то есть причины: это живо и доступно написанный путеводитель по всем ошибкам и искажениям человеческого мышления.

Помимо многих других тем Канеман осветил работы по “праймингу”, как называют это явление психологи.

Некоторые примеры прайминга (эффекта предшествования) имеют отношение к языку.

Например, установлено, что если я показываю вам на экране компьютера набор слов по одному и прошу нажимать на клавишу всякий раз, как появляется слово “ложка”, то вы будете реагировать чуточку быстрее, если перед тем высвечивалось слово “вилка” (или какой-то еще из столовых приборов), чем когда предшествующим словом было “дерево” (или что-то еще не относящееся к принадлежностям для приема пищи).

Восприятие слова “вилка” психологически “настраивает” вас быстрее реагировать на близкое по смыслу слово.

Канеман, однако, описал нечто более неожиданное. Он осветил результаты исследования по социальной психологии, демонстрирующие, что формирование установок, связанных с определенными понятиями, - обычно неосознанное - может ощутимо влиять на наше поведение.

Один пример известен как “эффект леди Макбет”. В 2006 году в журнале Science вышла статья о том, что, когда исследователи просили участников эксперимента переписать текст об аморальных поступках, те потом с большей вероятностью хотели купить мыло, а просьба вспомнить что-то неприглядное из собственных деяний заставляла их чаще брать при выходе из лаборатории дезинфицирующую салфетку (“Проклятое пятно!”).

Здесь воздействие оказывалось без словесных установок: получалось, что мозг работает куда более связно и целостно, чем мы полагали, что между понятиями и концепциями, вроде бы связанными очень условно, образуются прочные сшивки.

В данном случае это казалось свидетельством некоего глубинного наложения понятий морали и чистоты. Авторы статьи утверждали, что эти результаты могут даже объяснить, почему омовение рук является частью столь многих религиозных ритуалов по всему миру.

Канеман также сделал обзор исследований “денежного прайминга”.

В другой статье, вышедшей в Science в том же 2006 году, рассказывалось, как социальные психологи обнаружили, что, ненавязчиво напоминая людям о деньгах - скажем, сажая их за стол, где по случайности стоит компьютер с плавающими банкнотами на экранной заставке, - можно побудить их чувствовать и вести себя так, словно они более независимы, и меньше беспокоиться о других.

Авторы писали, что участники исследования, подвергшись денежному праймингу, предпочитали “играть в одиночку, работать в одиночку и держать бо́льшую физическую дистанцию между собой и новым окружением”.

И действительно, в ответ на просьбу расставить в комнате стулья для личной беседы с незнакомым человеком участники, подвергшиеся денежному праймингу, ставили стулья почти на тридцать сантиметров дальше один от другого по сравнению с участниками эксперимента, которые видели пустой экран компьютера.

Нехилый эффект для простой экранной заставки, вероятно, подумали вы. И такой сценарий повторялся в большинстве значимых исследований прайминга: очень тонкие установки вызывали заметные изменения в поведении людей.

Канеман заключил, что подобные исследования прайминга “ставят под угрозу наше восприятие себя как сознательных и независимых творцов своих суждений и выборов”. Он не сомневался в их надежности. И писал: “Не доверять этим данным нельзя. Они не выдумки и не статистические отклонения. Вам придется принять основные выводы исследований за истину. А еще важнее - принять их истинность применительно к вам”.

Но Канеман напрасно столь безоговорочно доверял этим эффектам предшествования, хоть они и были опубликованы в одном из самых уважаемых научных журналов.

Оказывается, наряду с разоблачением мошенничества Дидерика Стапела и публикацией “сверхъестественных” результатов Дэрила Бема именно исследование, посвященное праймингу, - или скорее неудачная попытка его повторить - стало еще одним из исходных стимулов, подхлестнувших изучение явления, известного сегодня как “кризис воспроизводимости”.

В том исследовании прайминга участников просили найти в списке разрозненных слов одно лишнее, так чтобы остальные слова можно было сложить в связное предложение.

У одной половины участников лишние слова были случайными и нейтральными, а у другой - имеющими отношение к пожилым людям, например “старый”, “седой”, “мудрый”, “вяжет” и “Флорида” (Флорида известна в Америке как штат, где живет много пенсионеров).

Выполнив задание, участники исследования могли уходить - но в тайне от них экспериментаторы замеряли, как быстро те шли по коридору к выходу из здания. Демонстрируя опять-таки ментальную связь между идеями и действиями, те участники, кого подвергли праймингу связанными со старостью словами, уходили из лаборатории медленнее по сравнению с контрольной группой.

Опубликованная в 1996 году, статья об этом эксперименте с тех пор была процитирована другими исследователями более пяти тысяч раз и вошла во все учебники по психологии - помню, как сам студентом изучал ее.

Однако в 2012 году независимая группа попыталась провести точно такой же эксперимент, только с большей выборкой и совершеннее с технической точки зрения, - и не выявила никакой разницы в скорости ухода участников.

Исследователи предположили, что в исходной работе получились такие результаты, поскольку сотрудники лаборатории, замерявшие время по секундомерам, знали, кто из участников как должен был бы себя вести, и это, вероятно, отражалось на замеряемых величинах.

Измерение скорости ухода с помощью инфракрасных лучей, как было сделано в исследовании-повторении, свело к нулю предполагаемый эффект прайминга.

В течение нескольких лет другие лаборатории пытались воспроизвести как “эффект леди Макбет”, так и эффект денежного прайминга, тоже с гораздо более внушительной и репрезентативной выборкой. Эти попытки также очевидным образом провалились.

Нет причин думать, что разнообразные результаты по праймингу были, процитируем Канемана, “выдумками”, - нужно исходить из предположения, что получены они были добросовестным образом. Но вот “статистические отклонения”? Пожалуй, именно они.

Другие исследования эффекта предшествования были не лучше. В одном утверждалось, что участники, подвергшиеся праймингу “расстоянием” - их попросили нарисовать на листе миллиметровки две удаленные друг от друга точки, - чаще чувствовали себя дистанцированными от друзей и родных; попытка повторить это исследование провалилась в 2012 году.

В другом исследовании утверждалось, что когда примеры моральных дилемм распечатывались на листах с окантовкой в шахматную клетку, то участники эксперимента выносили более поляризованные суждения, поскольку этот узор заставлял их думать о концепции “белое и черное”; попытка повторить это исследование провалилась в 2018 году.

Сходное направление исследований, согласно которому возможно сделать людей более категоричными, подвергнув их праймингу “отвращением”, было поставлено под сомнение в обзоре 2015 года.

Надо отдать Канеману должное - позже он признал, что был неправ, переоценив научную достоверность эффектов прайминга.

“Экспериментальные доказательства идей, представленных мною в той главе, были значительно слабее, чем я полагал, когда писал ее, - сказал он через шесть лет после выхода книги “Думай медленно… решай быстро”. - Это было попросту ошибкой: все, что я должен был знать для того, чтобы сдерживать свой энтузиазм, я знал… но не обдумал”.

Однако вред уже был нанесен: нобелевский лауреат объявил миллионам людей, что “нельзя не доверять” этим исследованиям.

Прайминг - не единственный психологический эффект, о котором узнали миллионы. Гарвардский психолог Эми Кадди прославилась в 2012 году, после того как выступила на конференции TED, восхваляя “позы силы”.

Непосредственно перед тем, как вы окажетесь в стрессовой ситуации, скажем на собеседовании, вам нужно потратить две минуты, советовала она, чтобы в каком-нибудь укромном уголке (вроде туалетной кабинки) встать в открытую, экспансивную позу, например широко расставив ноги и уперев руки в бедра. Эта властная поза стимулирует вас психологически и гормонально.

В эксперименте, проведенном Кадди и ее коллегами в 2010 году, обнаружилось, что по сравнению с людьми, которым предписано было сидеть скрестив руки или ссутулившись, те, кому велели принять позу силы, не только чувствовали себя более властными, но и шли на больший риск в азартной игре и имели повышенный уровень тестостерона и пониженный - кортизола, гормона стресса.

Идея Кадди, будто люди, на две минуты принимающие позу силы, могут “существенно менять исход жизненных ситуаций”, вызвала глубокий отклик: ее выступление на конференции TED стало вторым по количеству просмотров из всех - его посмотрели больше семидесяти трех с половиной миллионов раз.

Далее, в 2015 году, вышла книга Кадди по саморазвитию под названием “Присутствие [духа]”, бестселлер по версии газеты The New York Times, и издатель сообщал нам, что там представлена “захватывающая наука”, способная “освободить [нас] от страха в напряженные моменты жизни”.

Консервативная партия Великобритании, похоже, прониклась идеей Кадди, поскольку в тот самый год появилась череда фотографий, на которых представители этой партии на разных конференциях и выступлениях принимали позы с широко расставленными ногами, что вызвало немало насмешек.

В том же 2015 году другая команда ученых попыталась воспроизвести эффекты поз силы. И хотя те, кто принимал такие позы, действительно сообщали о большей уверенности в себе, исследование, увы, “не подтвердило влияние поз силы на тестостерон, кортизол и финансовый риск”.

Кризис воспроизводимости направил прожектор критики также и на более ранние работы по психологии - со сходными тревожными результатами.

Вероятно, самое известное исследование по психологии за всю историю - это стэнфордский тюремный эксперимент 1971 года, когда психолог Филип Зимбардо разделил группу молодых мужчин на “охранников” и “заключенных” и велел им неделю оставаться в импровизированной тюрьме в подвале факультета психологии Стэнфордского университета.

Настораживающе быстро, по словам Зимбардо, “охранники” принялись наказывать “заключенных”, мучая их столь садистски, что Зимбардо пришлось досрочно прекратить эксперимент.

Наряду с исследованиями подчинения, проведенными в 1960-х годах Стэнли Милгрэмом, в которых обнаружилось, что многие участники готовы воздействовать сильными электрическими разрядами на незадачливых “учеников” (удары током и ученики были ненастоящими, но участники об этом не знали), эксперимент Зимбардо приводится как одно из основных доказательств власти ситуации над человеческим поведением.

Поставьте, как говорится, хорошего человека в плохую ситуацию - и дела могут очень быстро пойти очень скверно.

О стэнфордском тюремном эксперименте рассказывают фактически каждому студенту на планете, изучающему психологию, и Зимбардо благодаря ему стал одним из самых известных и уважаемых современных психологов.

Он использовал результаты своего эксперимента, чтобы, например, выступать в качестве свидетеля-эксперта на суде над американскими военными, служившими охранниками в иракской тюрьме Абу-Грейб. Зимбардо утверждал, что ситуация, в которой оказались охранники, и роли, которые их заставили на себя взять, - вот причины их шокирующих издевательств и пыток над заключенными.

Хотя выводы из стэнфордского тюремного эксперимента всегда были противоречивы, лишь недавно мы начали понимать, насколько низкокачественным было то исследование.

В 2019 году ученый и кинорежиссер Тибо Ле Тексье опубликовал статью под названием “Разоблачение стэнфордского тюремного эксперимента”.

Он представил доселе неизвестную расшифровку видеозаписей, на которых Зимбардо вмешивается непосредственно в эксперимент, раздавая своим “охранникам” очень точные инструкции, как себя вести, - вплоть до того, что предлагает конкретные способы обесчеловечивания заключенных, например отказывать им в использовании туалетов.

Очевидно, столь основательно срежиссированная постановка эксперимента была далека от естественного примера того, что происходит, когда обычные люди оказываются в специфических социальных ролях. Как бы то ни было, несмотря на колоссальное внимание, которое долгие годы привлекал к себе стэнфордский тюремный эксперимент, его “результаты” с научной точки зрения не имеют смысла.

Как вы, наверное, догадались, психологов напугала совокупность неудавшихся попыток повторить эксперименты (как в исследованиях прайминга) и странных результатов (вроде паранормальных открытий Бема) наряду с разоблачением ложных представлений (как в эксперименте Зимбардо) и мошенничества (поддельные данные Стапела).

Скольким же исследованиям в области психологии, недоумевали они, можно доверять? Чтобы получить представление о том, насколько дела плохи, они начали объединяться в команды для проведения крупномасштабных повторов значимых исследований в разных лабораториях.

Самым заметным стало крупное сообщество ученых, отобравшее сто работ из трех топовых журналов по психологии и попытавшееся их воспроизвести. Читать о результатах, опубликованных в 2015 году в Science, было горько: в конечном счете лишь 39 % работ были признаны успешно воспроизведенными.

В другом подобном предприятии 2018 года ученые пытались повторить двадцать одно исследование по социальным наукам из двух самых авторитетных многопрофильных журналов в мире - Nature и Science. На сей раз воспроизвелось 62 %.

В последующих масштабных повторах исследований, касающихся разнообразных психологических феноменов, воспроизвелось 77, 54 и 38 % результатов. Почти все повторы, даже успешные, продемонстрировали, что в исходных статьях эффекты были преувеличены.

В целом кризис воспроизводимости легким движением руки стер, похоже, около половины всех исследований по психологии.

Возможно, все не столь уж плохо - по двум причинам. Во-первых, следует ожидать, что некоторые результаты, на самом деле надежные, иногда не получается воспроизвести просто по невезению.

Во-вторых, какие-то повторы могли провалиться из-за того, что их проводили с небольшими изменениями в методологии по сравнению с исходным исследованием (правда, если результат настолько нестабилен, что исчезает при малейших изменениях в постановке эксперимента, то возникает вопрос, имеет ли он вообще какой-то смысл и применение).

По этим причинам иногда трудно понять, является результат “воспроизводимым” или нет, на основании только одной-двух попыток его повторить.

Кроме того, доля воспроизводимых исследований для разных областей психологии, похоже, отличается: например, в статье 2015 года, вышедшей в Science, когнитивная психология (изучение памяти, восприятия, языка и так далее) проявила себя лучше, чем социальная (к коей относятся всевозможные исследования прайминга, обсуждавшиеся выше).

Однако в целом на психологию все это подействовало опустошительно. Дело было не только в том, что разоблачались такие легковесные, эффектные исследования, как посвященные праймингу или позам силы, - огромное количество куда более “серьезных” работ по психологии (стэнфордский тюремный эксперимент и многие другие) тоже оказалось поставлено под сомнение.

И проблема была не в том, что откопали какое-то ненужное старье и наглядно показали, что оно никуда не годится, - как когда папа Стефан VI в 897 году эксгумировал труп одного из своих предшественников, папы Формоза, и отдал под суд (тот был признан виновным).

Нет, на работы, воспроизвести которые не удалось, продолжали как ни в чем не бывало ссылаться как ученые, так и писатели: целые направления исследований и пользующиеся хорошим спросом научно-популярные книги строились на таком шатком фундаменте. Слово “кризис” кажется весьма точным описанием ситуации.

Мы можем попробовать утешиться тем, что в психологии как дисциплине есть нечто уникальное, что и вызвало ее кризис воспроизводимости. У психологов незавидная работа: они пытаются разобраться в крайне изменчивых и чрезвычайно сложных человеческих существах, со всеми их разными личностями, знаниями, опытом, настроениями и особенностями.

Изучаемые психологами объекты, такие как мысли, эмоции, внимание, способности, восприятие, обычно неуловимы - их трудно, если вообще возможно, зафиксировать в лабораторном эксперименте.

А в социальной психологии ученым приходится изучать, как все эти хитросплетенные люди друг с другом взаимодействуют. Не могла ли невероятная сложность задачи сделать открытия в психологии особенно ненадежными по сравнению с другими науками?

В этом аргументе есть кое-что справедливое: во многих исследованиях по психологии интересующее ученых явление едва затрагивается, тогда как другие, более “точные” науки, скажем физика, характеризуются лучше разработанными теориями и более точными и по-настоящему объективными измерениями.

Однако нельзя сказать, что только в психологии есть проблемы с воспроизводимостью: хотя ни в какой другой области науки столь систематически и детально еще не изучалась доля успешно воспроизводящихся результатов, есть намеки на однотипные проблемы в огромном количестве разных направлений.

• Экономика: в исследовании 2016 года, повторяющем восемнадцать работ по микроэкономике (когда люди приходят в лабораторию и принимают участие в экспериментах, посвященных их экономическому поведению, - что не слишком отличается от исследований по психологии), доля воспроизводимости равнялась лишь 61%.

• Нейронауки: в исследовании 2018 года обнаружилось, что стандартные работы по функциональной нейровизуализации, когда с помощью магнитно-резонансной томографии регистрируется активность мозга, пока человек выполняет какие-то задания (или просто лежит внутри МРТ-сканера), отличались лишь “незначительной воспроизводимостью”.

Еще мир функциональной нейровизуализации сотрясла статья, в которой вскрылось, что дефолтные настройки пакета программ, широко используемого для анализа данных визуализации, содержат статистическую ошибку.

Это привело к громадному числу случайных нескорректированных ложноположительных результатов и скомпрометировало примерно 10 % всех статей, когда-либо опубликованных по этой теме.

• Эволюционная биология и экология: на целый ряд классических результатов, давно попавших в учебники и вызубриваемых поколениями студентов, посыпались критические обзоры после попыток их воспроизвести.

Так, выяснилось, что заявления о знаменитом “синдроме одомашнивания”, когда лисицы в СССР, отбираемые по признаку дружелюбности, начинали приобретать внешний облик одомашненных видов (например, висячие уши и укороченные, широкие морды), были сильно преувеличены, причем большинство признаков “приручения” существовало еще до начала процесса селекции.

И многое из того, что, как мы думали, нам известно о половом отборе у птиц, было развенчано при получении более надежных данных.

Скажем, в противоположность тому, что мы якобы знали, красная повязка на лапках у самцов зебровых амадин, похоже, не делает их сверхпривлекательными для самок; самцы воробьев с более крупным пятном черных перьев на горле (так называемым нагрудником), похоже, не доминируют в стае; а доказательства, что самок обыкновенных лазоревок больше привлекают определенные цвета оперения у самцов, неубедительны.

• Биология моря: в масштабном исследовании 2020 года, повторяющем другие работы, выяснилось, что закисление океана (как и изменение климата, это одно из последствий повышения уровня диоксида углерода в атмосфере) не влияет на поведение рыб.

Таким образом, не удалось воспроизвести несколько исследований предыдущего десятилетия, получивших широкую огласку, которые явно показывали, что в закисленной среде рыбы становятся дезориентированными и иногда плывут по направлению к химическим сигналам хищников, а не от них.

• Органическая химия: журнал Organic Syntheses, придерживающийся необычной политики - член редколлегии пробует повторить в собственной лаборатории результаты каждой подаваемой на рассмотрение статьи, - сообщил, что отказывает авторам 7,5 % работ из-за провалившихся попыток воспроизвести исследование.

Есть бесчисленное множество и других примеров: почти каждый случай, что я буду описывать в этой книге, содержит научное “открытие”, при ближайшем рассмотрении оказавшееся либо менее надежным, чем казалось, либо и вовсе недостоверным.

Однако еще тревожнее то, что эти примеры порождены исследованиями, которые подверглись столь тщательному изучению, - получается, это лишь те примеры, о которых мы знаем. Сколько еще результатов, должны задаться мы вопросом, окажутся невоспроизводимыми, если кому-то случится попробовать их повторить?

Одна из причин, почему мы живем в такой неопределенности, заключается в том, что, как говорилось в предисловии, почти никто не проводит исследований, повторяющих прежние работы.

Хотя в нашем распоряжении для большинства областей нет количественных данных, анализ специализированной литературы для некоторых из них позволяет сделать мрачный вывод. В экономике жалкие 0,1 % всех опубликованных статей посвящены попыткам воспроизвести предыдущие исследования; в психологии этот показатель выше, но все равно весьма прискорбный - чуть больше 1 %.

Если все неустанно рвутся вперед к новым открытиям, не делая остановок, чтобы проверить, надежны ли уже имеющиеся знания, так ли уж удивителен приведенный выше список провалившихся попыток что-то воспроизвести?

А вот что вызывает, пожалуй, еще большую озабоченность. Казалось бы, если вы получили точно такой же набор данных, как и в опубликованной ранее статье, вы сможете прийти к абсолютно тем же результатам, что описаны авторами. К сожалению, во многих областях исследователи сталкивались с невероятными трудностями при выполнении этой вроде бы нехитрой задачи.

Иногда именно подобную проблему называют проблемой воспроизводимости, в противоположность проблеме сходимости результатов (последний термин обычно используется применительно к исследованиям, в которых ученые задаются теми же вопросами, но работают с другими данными).

Как это возможно, чтобы результаты в таких условиях не воспроизвелись? Иногда причина в ошибках исходного исследования.

А бывает и так, что авторы исходной работы недостаточно четко описали свой анализ, например, прибегали ко всяким выкрутасам со статистикой, о которых в статье не доложили, и поэтому их конкретные шаги независимые исследователи воссоздать не могут.

Когда другие ученые как-то по-своему проводят статистический анализ данных, результаты выходят иные. Такие статьи - словно кулинарная книга, где полно фотографий блюд, от которых просто слюнки текут, но мало внимания уделено описанию ингредиентов и рецептам, необходимым для создания этих шедевров.

В макроэкономике (изучающей, например, налоговую политику и ее влияние на экономическое развитие стран) при повторном анализе шестидесяти семи статей ученые, используя точно такие же наборы данных, сумели воспроизвести результаты лишь двадцати двух, и последующее привлечение к работе авторов тех статей помогло несильно.

В науках о Земле исследователи испытывали как минимум небольшие трудности при получении тех же результатов в случае тридцати семи из тридцати девяти изучавшихся ими статей.

А когда исследователи машинного обучения проанализировали набор статей об “алгоритмах рекомендаций” (это тип компьютерных программ, которые используются сайтами вроде Amazon и Netflix, чтобы на основании того, что люди вроде вас выбирали раньше, предугадывать, какую покупку вам сейчас захотелось бы сделать или какой фильм посмотреть), то смогли воспроизвести только семь из восемнадцати работ на эту тему, незадолго до того представленных на престижных конференциях по компьютерным системам. Те статьи - воплощение классической карикатуры Сидни Харриса.

Вы вправе удивиться, почему некоторые из перечисленных выше примеров вообще имеют значение. Хоть мы и наблюдали плохую воспроизводимость в кое-каких важных областях, например в экономической теории, каким образом наша жизнь может измениться, если кучка ученых в итоге разойдется во взглядах на то, работают ли позы силы и отличаются ли альфа-самцы воробьев более крупным пятном черных перьев?

На этот вопрос есть два ответа.

Первый заключается в том, что на чашу весов положен более общий принцип: наука критически важна для нашего общества, и мы не должны допускать появления низкокачественных, невоспроизводимых исследований, компрометирующих ее, ни в одной области. Если мы позволим стандартам в любой области просесть, мы рискуем испортить репутацию науки в целом.

Второй ответ связан с научным направлением, которое мы еще не рассматривали, где отсутствие воспроизводимости имеет бесспорные прямые последствия. Это, конечно же, область медицинских исследований.

“Думаю, вам следует подробнее расписать второй шаг.”

Примерно в то время, когда кризис воспроизводимости назревал в психологии, ученые из биотехнологической компании Amgen попробовали повторить пятьдесят три ключевых “доклинических” исследования рака, результаты которых были опубликованы в топовых научных журналах (доклинические исследования - это те, что проводятся на первых этапах разработки лекарства, обычно на мышах или на человеческих клетках in vitro).

Всего шесть из этих попыток (а это лишь 11 %) увенчались успехом. Итог сходных попыток другой фирмы, Bayer, оказался немногим лучше - около 20 %.

Подобное отсутствие строгого подкрепления результатов в области доклинических исследований - вероятно, одна из причин, по которым испытания лекарств от рака так часто разочаровывают: согласно одной оценке, только 3,4 % таких лекарств проходят весь путь от первых доклинических исследований до применения на людях.

Подобные неприятные открытия заставили ученых, занимающихся раком, как и психологов, задуматься об общем состоянии их области. В 2013 году они объединились для совместной попытки повторить пятьдесят важных доклинических исследований рака в независимых лабораториях.

В тех работах утверждалось, например, что конкретный вид бактерий может быть связан с ростом опухоли при колоректальном раке и что некоторые мутации при лейкемии связаны с активностью определенного фермента.

Но еще до начала проведения исследований-повторений возникли трудности. В каждой без исключений исходной статье для всех до единого экспериментов авторы приводили недостаточно сведений для того, чтобы читатель мог понять, как провести точно такой же опыт.

Технические детали экспериментов - например, плотность используемых клеток или особенности измерений и анализа - попросту не упоминались. Работа по повторению исследований забуксовала, поскольку потребовала обширной переписки с авторами исходных статей, которым для отыскания конкретных деталей своих экспериментов зачастую приходилось откапывать старые лабораторные журналы и связываться с бывшими коллегами.

Кто-то сотрудничать не хотел: о 45 % авторов исходных статей исследователи отозвались как о “минимально полезных” или “вообще не оказавших помощи”. Возможно, они беспокоились, что ученые, повторяющие их работу, окажутся некомпетентными или что их будущие исследования не получат финансирования, если воспроизвести их прежние результаты не удастся.

Позже в более масштабном исследовании были случайным образом выбраны двести шестьдесят восемь биомедицинских статей, в том числе и из области клинических испытаний.

Обнаружилось, что ни в одной из них, за единственным исключением, не содержался полный протокол исследования. А это означало опять-таки, что даже для того, чтобы предпринять попытку повторить эксперименты, требовалось знать дополнительные детали, не описанные в статье.

Другой анализ выявил, что в 54 % биомедицинских статей даже не описывалось толком, какие животные, реагенты или клетки использовались в экспериментах.

Давайте на минуту задумаемся, насколько же это странно. Если в статье исследование описывается лишь в общих чертах, а необходимые детали приходится месяцами выуживать из электронной переписки с авторами (а то они и вовсе оказываются навеки утеряны), зачем вообще было ее писать?

Вернувшись мысленно хотя бы в XVII век к Роберту Бойлю, вспомним, что изначальная, глубинная цель ученых состояла в том, чтобы докладывать о каждой мелочи в своих штудиях, так чтобы другие могли досконально все изучить и попробовать повторить их исследования.

Упомянутые статьи провалили эту фундаментальную проверку, равно как и опубликовавшие их журналы не сумели выполнить свою базовую, важнейшую функцию.

В проекте по воспроизведению исследований рака все эти проблемы с попытками повторить эксперименты вкупе с некоторыми финансовыми затруднениями привели к тому, что ученым пришлось постепенно сократить число работ, которые они намеревались повторить, - с пятидесяти до всего лишь восемнадцати.

К моменту написания этих строк отчет о повторении результатов четырнадцати из них уже опубликован, и картина получилась смешанная: для пяти исходных статей важные результаты (включая связь между лейкемией и ферментом) четко воспроизвелись, для четырех - воспроизвелись частично, для трех - совсем не воспроизвелись (в том числе связь между бактериями и колоректальным раком), а для двух результаты даже не получилось интерпретировать. Повторять, стоит отметить, непросто.

Проблемы с воспроизводимостью в медицине затронули не только лабораторные доклинические исследования - они могут напрямую влиять на средства лечения, прописываемые врачами своим пациентам.

Оказывается, широко распространенные средства лечения часто основаны на низкокачественных исследованиях: вместо того чтобы прочно уходить корнями в доказательства, общепризнанная медицинская мудрость регулярно вступает в противоречие с результатами новых исследований. Подобное происходит так часто, что ученые-медики Винай Прасад и Адам Сифу окрестили это явление “медицинской реверсией”.

Стюарт Ричи

***
Это отрывок из книги „«Наукообразная чушь. Разоблачение мошенничества, предвзятости, недобросовестности и хайпа в науке»”.

НАВЕРХ.

кризис, фальсификация, наука, ложь