Выцветает ли научная правда?: anairos

anairos

Выцветает ли научная правда?

Mar 26, 2018 14:05

Сегодня жертвой моего перевода станет статья «The Truth Wears Off: Is there something wrong with the scientific method?», опубликованная в журнале The New Yorker в 2010 году.

Сразу предупреждаю, статья длинная, так что под катом много букв. Кроме того, как обычно, то, что я перевел и выложил текст, не значит, что я согласен с выводами, которые делает автор. Однако приведенные им факты однозначно заставляют задуматься.

18 сентября 2007 в конференц-зале отеля в Брюсселе собралось несколько десятков нейробиологов, психиатров и руководителей фармацевтических компаний, чтобы выслушать тревожные новости. Дело касалось лекарств, известных как атипичные антипсихотики второго поколения. Они появились на рынке в первой половине девяностых. Лекарства, продававшиеся под названиями Абилифай, Сероквел и Зипрекса, успешно прошли несколько масштабных клинических испытаний на больных шизофренией, и всякий раз опыты демонстрировали заметное уменьшение психиатрических симптомов у пациентов.

В результате антипсихотики второго поколения стали одной из самых выгодных и быстрорастущих отраслей большой фармакологии. К 2001 году Зипрекса, созданная Илаем Лили, по приносимой прибыли обогнала знаменитый Прозак. И по сей день она остается самым продаваемым лекарством этой компании.

Но данные, представленные в Брюсселе, показали, что происходит нечто странное: терапевтическая сила этих лекарств словно бы стремительно уменьшалась со временем. Недавнее исследование показало эффект, в два с лишним раза меньший, чем тот, что был зафиксирован в первых испытаниях, в девяностых годах. Многие исследователи пришли к выводу, что эти средства ничем не лучше антипсихотиков первого поколения, использовавшихся еще с пятидесятых. «Вообще-то иногда они действуют даже хуже» - сообщил мне Джон Дэвис, профессор психиатрии университета Иллинойса в Чикаго.

Прежде чем лекарство признают эффективным, оно проходит тест за тестом. Разные ученые в разных лабораториях должны повторить весь протокол и опубликовать результаты. Тест воспроизводимости, как его называют - основа современного научного исследования.

При помощи воспроизводимости научное сообщество поддерживает само себя. Это защита от угрозы субъективности. Обычно ученый знает, каких результатов хочет добиться, и это может повлиять на то, что он на самом деле получает. Условие воспроизводимости позволяет сообществу исправить такие ошибки.

Однако теперь все эти хорошо известные, многократно подтвержденные данные начинают казаться не столь уж надежными. Как будто факты со временем утрачивают силу: утверждения, ставшие уже частью учебников, теперь не удается подтвердить. У этого феномена пока нет официального имени, но он встречается повсеместно, от психологии до экологии.

В области медицины он, кажется, особенно распространен - он касается не одних только антипсихотиков, но и разнообразных терапевтических методов от коронарных стентов до витамина Е и антидепрессантов. Дэвис уже готовит к выпуску анализ, показывающий, что эффективность антидепрессантов снизилась за последние десятки лет втрое.

Для многих ученых обнаруженный феномен кажется особенно тревожным из-за того, что он открывает нам о самом научном методе. Если воспроизводимость отделяет научную строгость от псевдонаучной чуши, что тогда делать со всеми этими неоднократно и строго проверенными данными, которые теперь невозможно доказать? Каким результатам следует верить?

Фрэнсис Бэкон, философ и основоположник научного метода, говорил, что эксперимент необходим, поскольку он - «допрос природы». Но кажется, природа иногда дает нам разные ответы на один и тот же вопрос.

В восьмидесятых годах Джонатан Скулер был молодым выпускником университета Вашингтона, когда обнаружил удивительный факт о связи языка и памяти. В те времена считалось, что описание способствует запоминанию. Но целой серией качественных экспериментов Скулер продемонстрировал обратное. Если испытуемому показывали портрет и просили описать его словами, впоследствии он узнавал это лицо намного реже, чем тот, кто просто смотрел на изображение. Скулер назвал обнаруженный феномен вербальным затенением.

Исследование сделало его научной звездой. С момента первой публикации в 1990 году, на его работу ссылались больше четырехсот раз. В скором времени Скулер расширил свою модель на множество других задач - запоминание вкуса вина, распознавание сортов клубничного джема, решение сложных творческих головоломок. Каждый раз оказывалось, что словесное описание восприятий приводит к резкому падению продуктивности.

Скулер публиковал свои работы в самых почтенных журналах, но все это время его грызло тайное беспокойство: самые ранние результаты оказалось весьма трудно воспроизвести.

Вначале он подозревал, что допустил ошибку в устройстве эксперимента или в статистических расчетах - но так и не смог найти ни одного слабого места в своих опытах. Тогда он предположил, что все дело в подборе субъектов - те, кого он выбрал тогда, могли быть как-то по-особенному чувствительны к вербальному затенению.

(Джон Дэвис, кстати, тоже выдвигал похожее предположение: падение эффективности антипсихотиков можно частично объяснить подбором пациентов. Возможно, вначале их тестировали на больных с легкими формами психоза, способными продемонстрировать заметное улучшение.)

«Это было не слишком удовлетворительное объяснение» - сознался Скулер. - «Один из моих наставников сказал мне, что моя главная ошибка - в самом желании воспроизвести собственную работу. Он сказал, что поступать так - значит просто нарываться на разочарование».

Скулер пытался выкинуть проблему из головы. Коллеги успокаивали его, что такое происходит сплошь и рядом. Он нашел новые темы исследований, женился, стал отцом. Но проблема воспроизведения становилась все серьезнее. Первую попытку он предпринял через пять лет после первого исследования, в 1995 году, и она показала результат на треть слабее. Годом позже эффект съежился еще на треть. Другие лаборатории, пытавшиеся воспроизводить данные Скулера, показали такой же разброс результатов, и тоже с тенденцией к снижению.

В частной беседе Скулер называет этот эффект «космической привычкой», по аналогии с известным феноменом, когда реакция на стимул уменьшается, если организм к нему привыкает.

Вербальное затенение остается широко признанной теорией - на него ссылаются, например, в контексте надежности свидетельских показаний. Однако Скулер все еще несколько обижен на вселенную. Он никак не может оставить проблему в покое, поскольку убежден, что нашел нечто весьма серьезное, способное повлиять на многие и многие новые идеи в психологии.

Одним из первых с этим таинственным феноменом столкнулся Джозеф Бэнкс Райн, еще в начале тридцатых годов. Он работал тогда психологом в университете Дюка и исследовал возможности экстрасенсорного восприятия. Именно он ввел в парапсихологическую практику карты Зенера. Большинство испытуемых угадывали одну карту из пяти, в полном соответствии с теорией вероятностей. Но студент по имени Адам Линзмайер в первых же опытах показал невероятный результат в пятьдесят процентов, порой угадывая девять карт подряд. Шанс на случайное выпадение такого успеха составляет примерно один к двум миллионам. Линзмайер сделал это трижды.

Райн записал эти потрясающие данные и подготовил несколько статей для публикации. Но как раз в тот момент, когда он начал верить в ясновидение, студент потерял свой пугающий талант. Между 1931 и 1933 годом Линзмайер провел еще несколько тысяч попыток угадывания, но его результаты лишь чуть-чуть превосходили обычную случайность. Райн был вынужден констатировать, что экстрасенсорные способности его студента «претерпели резкий спад».

Линзмайер был не единственным пострадавшим от такого упадка - практически в каждом случае, задокументированном Райном, экстрасенсорные эффекты заметно снижались со временем. Райн назвал эту тенденцию эффектом спада.

Скулер был зачарован экспериментальными сложностями Райна. Перед ним оказался ученый, многократно отмечавший спад в собственных данных. У него, кажется, был прямо-таки талант находить результаты, способные распадаться на глазах.

В 2004 году Скулер провел собственную имитацию опытов Райна - он пытался воспроизвести сам эффект невоспроизводимости. В знак уважения к предшественнику Скулер взялся за предвидение. Сами опыты были достаточно прямолинейными: испытуемому быстро показывали несколько изображений, а затем просили узнать их среди других. В основном результаты были отрицательными: за такое короткое время никто не успевал разглядеть картинку. Затем Скулер случайным образом выделял половину изображений, и их уже задним числом демонстрировали испытуемому еще раз.

Задачей опыта было выяснить, не начнет ли подопытный более точно узнавать картинки, которые как следует разглядел в будущем. Могут ли знания из будущего повлиять на решения прошлого?

Скулер отлично осознавал безумие гипотезы: он был в курсе, что предвидение никогда не удавалось убедительно продемонстрировать на опыте. Но его и не интересовали экстрасенсорные феномены - целью экспериментов был эффект спада.

Он показал себя во всей красе. Поначалу Скулер сам не мог поверить, насколько ярко проявилось предвидение в его эксперименте. Но чем больше они повторяли опыт, тем меньше становилась величина эффекта. После двух с лишним тысяч протестированных студентов, конечный результат оказался таким же, как у Райна. Обнаруженный паранормальный феномен исчез на глазах ученых.

Самое вероятное объяснение казалось очевидным: возвращение к среднему. Многократное повторение эксперимента исправляет начальную статистическую флуктуацию. Экстрасенсорные способности подопытных Скулера не снижались - они изначально были всего лишь иллюзией, которая рассеялась со временем.

И все же Скулер заметил, что многие наборы данных, демонстрировавших спад, были статистически надежными: они содержали достаточно информации, и возвращение к среднему не могло быть таким заметным.

«Эти данные проходят все тесты» - говорит он. «Шансы, что они могут оказаться случайными, обычно очень малы, вроде одного к миллиону. Эффект спада должен проявляться крайне редко - но он происходит снова и снова. Даже я сам сталкивался с ним несколько раз».

Поэтому Скулер и верит, что эффект спада имеет огромное значение. Его вездесущность противоречит законам статистики.

«Стоит мне заговорить об этом, как ученые начинают нервничать. Но я все равно хочу знать, что случилось с моими данными. Как и другие ученые, я полагал, что со временем засвидетельствовать обнаруженные эффекты должно быть проще. Я становлюсь профессиональнее в постановке экспериментов, лучше нахожу условия, которые должны создавать вербальное затенение. Так почему все происходит наоборот? Я думаю, мы можем разобраться в этом, используя научные инструменты. Но для начала придется признать, что у нас большая проблема».

В 1991 году датский зоолог Андерс Мёллер из университета Упсалы в Швеции сделал открытие, касающееся вопросов пола, поведения ласточек и симметрии.

Давно известно, что асимметрия в строении животного прямо связана с количеством мутаций в его геноме: чем больше мутаций, тем больше асимметрия. Мёллер выяснил, что самки ласточек предпочитают спариваться с самцами, обладающими самым длинным и симметричным оперением. Разборчивые самочки используют симметрию как способ оценки качества мужских генов.

Статья Мёллера, опубликованная в Nature, вызвала шквал дальнейших исследований. Мы получили легко измеримый и широко применимый критерий качества генов, который еще и привлекателен для самок. Эстетика сводится к генетике.

За последующие три года вышло еще десять независимых исследований роли асимметрии в половом отборе. В девяти была обнаружена несомненная связь симметричной внешности и сексуального успеха самцов. Неважно, изучали ли ученые волоски на брюшке дрозофил, или пытались воспроизвести опыты с ласточками, самки все равно предпочитали самцов с точной зеркальной симметрией.

Вскоре теорию распространили и на людей. Было обнаружено, например, что женщины предпочитают даже запах симметричных мужчин - правда, лишь во время овуляции. Другие исследователи утверждали, что женщины чаще достигают оргазма, если партнер симметричен. Работа, опубликованная антропологами Рутгера, анализировала сорок ямайских танцевальных схем и пришла к выводу, что симметричных мужчин чаще оценивают как хороших танцоров.

А затем теория начала разваливаться. В 1994 году вышло четырнадцать опубликованных работ, посвященных симметрии и половому отбору, и только восемь обнаружили связь. В 1995 - восемь работ и четыре положительных результата. В 1998 - еще двенадцать дополнительных исследований, и лишь треть подтвердила теорию.

Хуже того, даже те работы, что согласовывались с теорией, показывали все уменьшающийся размер эффекта. С 1992 по 1997 год средний размер эффекта снизился на восемьдесят процентов.

В 2001 году Майкл Дженнионс, биолог из Национального университета Австралии, решил проанализировать «временные тренды» в самых разных исследованиях по экологии и эволюционной биологии. Он просмотрел сотни работ и сорок четыре мета-анализа и обнаружил ясный эффект спада со временем: очень многие теории тускнеют до уровня нерелевантности.

Дженнионс постарался учесть все переменные. Он знал, например, что один автор может выпустить несколько критических статей, и это сказывается на общем анализе. Но даже после этого эффект никуда не делся. Гипотеза становится менее прочной зачастую в первый же год своей жизни.

Результаты оказались настолько неприятными, что Дженнионс избегает говорить о них публично среди ученых.

Что происходит? Свой вариант ответа есть у Ли Симмонса, биолога из Университета Западной Австралии. Он был просто зачарован теорией асимметричных флуктуаций, когда познакомился с ней. Данные казались весьма надежными. Решив проверить теорию самостоятельно, Симмонс взялся за жуков-оленей.

Ему не удалось обнаружить эффект. Но что еще хуже, лишь с большим трудом ему удалось опубликовать свою работу. Научным журналам оказались не нужны статьи, опровергающие популярную новую гипотезу.

Симмонс полагает, что резкий взлет и постепенное падение асимметричных флуктуаций - типичный пример научной парадигмы, особенности мышления, которая и направляет исследования, и затрудняет их. Когда теория на пике популярности, исследовательский процесс смещен в сторону ее подтверждения. Но проходит несколько лет, и академическое сообщество меняет вектор - новая парадигма уже утверждена, и потому наибольшее внимание притягивают результаты, которые опровергают теорию.

Дженнионс также настаивает, что эффект спада в значительной степени вызван предвзятостью публикаций. Академические журналы, да и сами ученые предпочитают положительные результаты.

Эту тенденцию заметил еще в 1959 году Теодор Стерлинг. Он обратил внимание, что 97% опубликованных психологических работ со статистически значимыми данными обнаруживали тот эффект, который искали. Или психологи невероятно удачливы в выдвижении гипотез, или же они публикуют только результаты успешных исследований.

Предвзятость публикаций уже несколько лет считается большой проблемой в клинических исследованиях: большие фармацевтические компании не заинтересованы в появлении статей, неблагоприятных для их товаров. Но теперь становится все яснее, что эта ошибка создает искажения и в тех областях, где нет корпоративного интереса.

Предвзятость публикаций определенно играет роль в эффекте спада, но все же не объясняет его полностью. Положительные результаты поначалу преобладают даже в тех исследованиях, которые не доходят до печати. Она ничего не говорит и об опыте Скулера, который не смог, несмотря на все старания, воспроизвести собственные данные.

Ричард Палмер, биолог из Университета Альберты, изучавший проблемы вокруг гипотезы асимметричных флуктуаций, полагает, что не меньшую роль играет выборочная запись результатов - самих данных, которые ученый сохраняет для исследования.

Главное свидетельство в пользу этой версии - статистический инструмент, известный как воронка. Когда у нас есть множество исследований на одну тему, данные обычно следуют общему шаблону: работы с большими выборками группируются вокруг среднего значения - истинного значения - а все прочие оказываются разбросаны заметно шире, поскольку их результаты более ошибочны. На графике получается фигура, напоминающая воронку, отсюда и название.

На диаграмме-воронке сразу видны искажения, вызванные выборочными данными. Когда Палмер составил такой график для работ по асимметричным флуктуациям, то заметил, что распределение статей с малыми выборками вовсе не было случайным: они явно тяготели к положительным результатам. Такое же отклонение он впоследствии обнаружил и в некоторых других областях.

Позже Палмер написал статью, в которой подвел печальный итог: «Мы не можем избежать тревожного заключения, что некоторые - может быть, многие - общеизвестные закономерности в лучшем случае преувеличены, а в худшем - не более чем коллективное заблуждение, вызванное тем, что сильные априорные верования обычно подтверждаются».

Выборочные данные нельзя считать научной недобросовестностью. Это обычно подсознательный процесс, когда исследователь пытается разобраться в собственных данных.

«Измерения - дело сложное. Когда мы говорим об асимметрии, речь может идти буквально о миллиметре разницы в длине перьев. И если исследователь знает, что измеряет самца, который уже показал свой успех у самок - он знает, что это животное обязано оказаться симметричным. Сам процесс измерения уязвим для ожиданий, верований и ошибок восприятия. Так уж мы устроены».

Классический пример такого избирательного подхода - исследования акупунктуры в разных странах. В Азии иглоукалывание считается законной и действенной медицинской процедурой, но на Западе к нему относятся куда более скептически. Эта разница ожиданий сказывается и на ученых.

С 1966 по 1995 год в Китае, на Тайване и в Японии было проведено сорок семь исследований акупунктуры, и все они пришли к выводу о ее эффективности. За это же время в США, Швеции и Британии ученые провели девяносто четыре исследования, и только 56% показали какой-либо терапевтический эффект. Очевидно, что и там, и там ученые стремились прежде всего подтвердить свою любимую гипотезу и отвергали то, чего не хотели видеть.

В 2005 году вышла статья Джона Иоаннидиса, эпидемиолога из Стэнфорда. Он просмотрел сорок девять самых цитируемых клинических исследований в трех основных медицинских журналах. Сорок пять из них показали положительный результат, то есть подтвердили эффективность проверяемого лечения.

Большинство этих исследований проводились при помощи рандомизированного двойного слепого метода - таков золотой стандарт медицинского исследования - и потому оказали серьезное влияние на клиническую практику. Они привели к распространению гормональной заместительной терапии при менопаузе, приема малых доз аспирина для профилактики сердечных приступов и так далее.

Однако Иоаннидис обнаружил, что из тридцати четырех исследований, подвергнутых воспроизведению, 41% либо вовсе не подтвердились, либо показали куда меньший размер эффекта.

Когда тема популярна, все становится еще хуже. За последние годы вышло множество работ, посвященных влиянию различных генов на разницу в риске заболеваний между мужчинами и женщинами. Результаты касались всего: от мутаций, ответственных за повышенный риск шизофрении, до генов, вызывающих гипертензию.

Иоаннидис и его коллеги изучили четыреста тридцать две таких работы и почти во всех нашли серьезные недостатки. Но что еще хуже, из всех этих сотен работ только одну удавалось неоднократно воспроизвести.

«Это не значит, что все они непременно ложны» - говорит Иоаннидис. «Но учитывая, что практически все они были проведены плохо, я бы не удивился».

По мнению Иоаннидиса, слишком много исследователей занимаются «охотой на значимость». Они ищут способы интерпретировать данные так, чтобы они прошли проверку на статистическую значимость - преодолели пресловутый порог в девяносто пять процентов.

Одна из последних работ Иоаннидиса носит намеренно провокационное название «Почему большинство опубликованных результатов ложны».

В готовящейся статье Скулер призывает создать открытую базу, чтобы исследователи вносили туда все свои запланированные эксперименты и тщательно документировали все найденные данные. По его мнению, это поможет справиться с теми проблемами, которые раскрыл перед нами эффект спада.

Все такие меры, конечно, помогут уменьшить опасность от выборочной публикации и учета данных, но им не под силу полностью истребить эффект спада. Научное исследование всегда будет оставаться в тени великой силы, которую невозможно подчинить, а можно лишь сдерживать: непредсказуемости вселенной.

Ученые уделяют мало внимания влиянию случайности на экспериментальные данные, но те опыты, что уже проведены, надежд не вселяют.

В конце девяностых Джон Крэбб, нейробиолог из Орегонского университета медицинских наук, провел эксперимент, показавший, как случайность может разделаться с воспроизводимостью. Он организовал серию опытов на мышах в трех разных лабораториях: в Олбани, Эдмонтоне и Портленде.

Крэбб постарался учесть все переменные, до которых смог дотянуться. Во всех трех лабораториях использовались мыши из одних и тех же линий, доставленные в один день одним поставщиком. Мышей растили в одинаковых условиях, в одних и тех же опилках. Им организовали одинаковый световой день, держали в группах одинакового размера, кормили одним и тем же кормом. До них дотрагивались только руками в одинаковых хирургических перчатках, а все опыты проводили на одинаковом оборудовании в один и тот же час дня.

Если какие-то эксперименты обязаны были выдержать тест воспроизводимости, то именно эти. По всей логике, три лаборатории должны были выдать одинаковые результаты. Но все пошло не так.

В одном из опытов мышам вводили дозу кокаина. В Портленде мыши под кайфом пробегали на шестьсот сантиметров больше обычного. В Олбани - на семьсот один. Но в Эдмонтоне подопытные зверушки носились, как заведенные, и разница составила пять тысяч сантиметров.

Такие же расхождения получились и в тестах на тревожность. Вдобавок, они отказывались следовать какой-либо закономерности. В Портленде наибольшую тревожность демонстрировали мыши одной конкретной линии, но в Олбани другая линия вырвалась вперед.

Итоги эксперимента Крэбба наводят на печальную мысль: многие невероятные научные данные в действительности - не больше чем шум. Гиперактивность эдмонтонских мышей - не интересный новый факт, а просто случайное отклонение, результат действия скрытых переменных, которых мы не понимаем. Но проблема в том, что именно такие выдающиеся данные чаще других публикуются и привлекают больше внимания. Они статистически значимы и совершенно неожиданны. Они привлекают гранты и дополнительные исследования. В итоге мы получаем казус, на разрешение которого могут уйти годы.

Возможно, эффект спада - на самом деле исчезновение иллюзий. Карл Поппер думал, что фальсификация результата должна произойти одним махом, в одном решающем эксперименте - Галилей опроверг механику Аристотеля за обеденный перерыв - но в реальности все намного сложнее и дольше.

Многие научные теории считаются истинными, хотя уже провалили множество экспериментальных проверок. Вербальное затенение продемонстрировало эффект спада, но на эту теорию по-прежнему продолжают полагаться. То же самое происходит и с уменьшающимся действием антипсихотиков второго поколения, и с коэффициентом слабой связи распадающихся нейтронов (он уменьшился больше чем на десять стандартных отклонений между 1969 и 2001 годом).

Даже закон тяготения не всегда качественно описывает природные феномены. В одном опыте, физики измеряли силу гравитации при помощи глубоких скважин в пустыне Невады и получили расхождение между теоретическими и экспериментальными данными на два с половиной процента. И все равно антипсихотики второго поколения продолжают выписывать, наша теория нейтрона не изменилась, и закон гравитации также остается прежним.

Аномалии демонстрируют, насколько ненадежен эмпиризм. Научные идеи дают противоречивые результаты, страдают от эффекта спада, но все равно остаются прописными истинами в учебниках и движут медицинской практикой.

Почему? Потому что они выглядят истинными. В них есть смысл и логика. Мы не можем позволить себе с ними расстаться.

Вот поэтому эффект спада и тревожит так сильно. Дело не в том, что он раскрывает человеческие слабости науки и склонность ученых подгонять данные под ожидания - это как раз неудивительно, по крайней мере для самих ученых. Дело не в том, что он выставляет многие великолепные теории модными увлечениями, которые рано или поздно будут отвергнуты - эта идея не нова со времен Томаса Куна.

Эффект спада показывает, насколько трудно на самом деле что-то доказать. Нам нравится думать, будто эксперименты демонстрируют нам истину. Но это не всегда так.

Если идея истинна, это еще не значит, что ее можно доказать. Если идею можно доказать, это еще не значит, будто она истинна. Когда опыт окончен, нам все равно предстоит выбирать, во что мы верим.

научные парадоксы, перевод