Три способа улучшить результаты когнитивных тестов без спецтерапии

Oct 14, 2012 14:53

Дороти Бишоп (Dorothy Bishop) - прекрасный английский нейропсихолог, который занимается исследованием дислексии, аутизма и нарушением языковых функций. В своих исследованиях она старается жестко придерживаться стандартов правильной научной методологии, чему посвящены ее несколько критических научных публикаций. Бишоп также ведет частный блог, в котором она в популярной форме излагает свои взгляды на разные темы. Ниже приводится перевод ее статьи, посвященной методологическим ошибкам в оценке эффективности терапевтических вмешательств.


Дороти Бишоп

Три способа улучшить результаты когнитивных тестов без специальных терапий

Центральной темой моих исследований являются возрастные нейрорастройства, такие как аутизм, особые языковые нарушения и дислексия, для которых время от времени предлагались разнообразные чудодейственные лечения. Эти заявления часто были основаны на слухах (anecdote) или на исследованиях без использования контрольных групп. Находя недочеты в таких исследованиях, я часто ощущаю себя в роли некого вредителя - отравителя родительских надежд и радости (kill-joy). Однако я продолжаю этим заниматься, поскольку мне не нравится, когда людей сбивают с толку, и это ведет к значительным финансовым расходам, а иногда к тому, что родители подвергают своих детей процедурам, которые в лучшем случае утомительны, а в худшем - болезненны и опасны.

Психологические или образовательные терапевтические вмешательства имеют много общего с медицинскими терапиями. Для получения убедительных доказательств эффективности используется та же самая методология с рандомизированными контрольными группами (RCT).  Но для чего именно нужен RCT? В использовании лекарств акцент делается на контроле, во-первых, из-за спонтанного самоизлечения и, во вторых, из-за эффекта плацебо - улучшения, происходящего из-за того, что пациент находится в центре медицинского внимания. В психологических и образовательных вмешательствах есть три других возможных источника предвзятой интерпретации. Терапия может казаться эффективной, если нет контроля (1) за изменениями связанными с развитием, (2) над эффектами за счет практики (3) над статистическим эффектом возврата к норме (regression to the mean).

Изменения, связанные с развитием

Этот эффект понять проще всего. Дети будут лучше делать разные вещи попросту из-за того, что они становятся старше.  Если кто-то даст мне некую специальную игру для тренировки мозга, которая, как  предполагается, излечивает дислексию, и мой ребенок ходит на занятия каждый день в течении года, то он вероятнее всего сможет читать больше слов в конце терапии, чем в начале. Однако это вряд ли является достаточно хорошим доказательством эффективности игры, поскольку большинство детей выучивает больше слов по мере взросления.



Действительно, его ноги тоже вырастут в конце терапии, однако я не буду считать это результатом тренировки мозга. Это настолько очевидно, что вряд ли это даже следует озвучивать, однако в некоторых обстоятельствах люди подразумевают, что развитие является статичным. Например, вебстраница Национального Сообщества Аутизма (the National Autistic Society) утверждает, что «аутизм это пожизненная инвалидность вследствие порока развития».  Это не означает, что дети с аутизмом не меняются с возрастом, однако легко представить, что кто-то может это проинтерпретировать именно таким образом. В самом деле, инструменты диагностики аутизма сконцентрированы на поведении ребенка 4-5 лет из-за того, что в этом возрасте аутичные черты наиболее очевидны. По мере того, как ребенок становится старше, эти черты могут смягчиться или принять другую форму.  К примеру, можно посмотреть детальное описание дочери Клары Парк (Clara Claiborne Park), которая едва использовала речь в 4 года, но могла говорить короткими предложениями в 8 лет. Если ваш ребенок подвергается терапии в возрасте 4 лет и затем демонстрирует улучшения, то легко предположить, что это происходит благодаря терапии.  Однако улучшения могли произойти в любом случае. Это привело меня к исследованию в 1980-х годах, в котором проводилась оценка проводившейся на дому  терапии с детьми, поздно начавшими говорить. Дети, подвергшиеся терапии, продемонстрировали колоссальное улучшение. Однако то же самое произошло с контрольной группой. Без присутствия контрольной группы можно было бы легко предположить, что для всех поздно говорящих детей следует проводить терапию на дому, однако наличие контрольной группы ведет к совершенно другим рекомендациям.  Данные свидетельствуют, что лучше всего занять позицию наблюдения, поскольку большинство детей улучшились спонтанно. Это не подразумевает, что не следует проводить терапию с детьми, у которых сложности с языком: мои собственные исследования имеют дело с идентификацией тех детей, которые не смогли бы улучшиться сами по себе.  Однако весьма легко преуменьшить степень изменения, которое может произойти без всякого вмешательства, особенно в случае очень маленьких детей.

Эффект Практики

Во многих тестах люди улучшаются по мере практики. Многие люди пробовали WiiFit, который предлагает серию тестов для установления «соответствия возрасту». Это включает такие действия, как удерживание баланса на доске,  где точка, отвечающая за центр тяжести, должна удерживаться в правильном положении, а также выполнение сложных вычислений в короткое время. В первый раз, когда я выполнила эти тесты, мой возраст был оценен как 76 лет. Однако, день спустя он уменьшился до 60 лет, и с дальнейшей практикой наблюдалось быстрое снижение возраста. Я не думаю, что мои слабые и ограниченные попытки в упражнениях WiiFit уменьшили дряхлость на 16 лет: скорее всего, я улучшилась, поскольку четко знала, что предполагается делать. Первый раз у меня не было никакой стратегии в выполнении заданий, в некоторых случаях я просто неверно поняла, что от меня требовалось. Так что неудивительно, что я улучшилась в такой степени лишь после второй попытки.  Важно отметить, что тесты по балансу используются в центрах Доре (Dore centres) для оценки успеха их тренировочной программы для нейрорасстройств развития. Некоторые эти тесты показывают значительные эффекты в результате практики (Liao et al, 2001).

Родители могут видеть, что дети выполняют задание заметно лучше, и у них может возникать впечатление, что произошли существенные изменения мозга. Однако без учета коррекции на эффект практики выполнения, этo может быть заблуждением. Насколько мне удалось установить, центры Доре также не корректируют изменения, связанные с возрастом в тестах по балансировке, хотя для эти эффекты хорошо установлены (смотри, например, здесь:   http://www.ncbi.nlm.nih.gov/pubmed/17105679).

Когнитивные тесты варьируются по степени того, насколько на них влияет практика, но в большинстве случаев будет сказываться преимущество для тех, кто с ними уже знаком. Взять, например, пару хорошо-известных тестов на невербальные способности - матрицы и сборку объектов (из фрагментов). Матрицы включают нахождение логики для визуальных моделей. В тот момент, когда понимаешь, как конструируется особая модель, гораздо легче произвести то же самое в следующий раз, поскольку количество гипотез для правильного ответа довольно ограничено. Сборка объектов представляет собой своего рода паззл, в котором куски собираются таким образом, чтобы получилась осмысленная форма, однако неизвестно, что собой представляет эта осмысленная форма - по крайней мере, не в первый раз, когда это делаешь.  Выполнив тест однажды, вы, вероятнее всего,  продемонстрируете более высокие результаты на второй раз, даже после нескольких лет. В коротком интервале IQ после первого теста увеличивался на 5-10 единиц (Rapport et al, 1997). Я изучала эффект практики на понимание языка в тесте, который сама разработала: у детей наблюдались значительные улучшения между первым и вторым тестом, хотя в тесте использовались другие наименования (но в том же формате).  McArtur специально наблюдал за степенью того, насколько улучшения проявляются в группах детей протестированных на чтение и язык, и продемонстрировал значительные улучшения.

Эффект практики означает, что приросту, наблюдаемому в тестовых оценках после терапевтического вмешательства невозможно дать правильную интерпретацию, если только такие же самые тесты в то же самое время не давались тем, кто не проходил терапию. Опять же, выглядит очевидным, однако этот момент часто упускается научными исследователями, равно как и неучеными. Показательный пример можно привести из исследования терапий для детей с языковыми проблемами, проведенный Гиллам с коллегами (Gillam et al). Это исследование было запланировано как рандомизированное и с контрольными группами. Было четыре группы: трем из них предлагались специальные терапии для улучшения языка, а четвертой предлагалось компьютерное обучение общих «академических навыков». Наблюдалось улучшение во всех четырех группах, причем степень улучшения для трех групп, подвергавшихся терапиям, была не лучше, чем для контрольной группы. Стандартным объяснением подобного результата было бы заключить, что терапии были неэффективны, поскольку изменения, с ними связанные, были не лучше, чем для контрольной группы. Однако, впечатленные улучшениями в результатах тестов и очевидно не осведомленные об эффектах практики в выполнении этих тестов, авторы заключили, что все терапии были эффективны и уделили время обсуждению того, почему обучение, проводившееся с контрольной группой могло привести к таким же самым «улучшениям» языка.

Еще один момент: иногда полагают, что не следует беспокоиться об эффекте практики, если тест -повторный тест демонстрируют надежность. Но это не так. Высокая надежность (в статистическом смысле - johnlaurel) означает лишь, что порядок ранжирования (rank ordering) группы детей стабилен в разных случаях тестирования. Однако индексы надежности не чувствительны к абсолютному уровню выполнения задания. Поэтому, если бы мы взяли группу тестовые оценки детей в первый раз и добавили им на 10 очков в тесте во второй раз, то степень надежности была бы идеальной, поскольку порядок ранжирования был бы такой же самый. Надежность, однако, является важным фактором в рассмотрении статистического эффекта возврата к норме.

Эффект возврата к норме

Статистический эффект возврата к норме (regression toward the mean) является сложной концепцией для понимания даже для людей с образованием в области статистики. Как мастерски отмечено Камбеллом и Кенни (Campbell and Kenny) в их вводном курсе, эффект возврата к норме вводил в заблуждение многих людей, включая нобелевских лауреатов. В частности, они утверждают, что «ученые, занимающиеся социальными науками, неверно оценивают благоприятное воздействие терапий ... и торговцы чудодейственными снадобьями (snake-oil peddlers )зарабатывают себе на жизнь благодаря тому, что наша интуиция нас подводит, когда мы пытаемся понять эффект возврата к норме.

Вероятно, наиболее простой способ понять, что это собой представляет, это представить группу из 10 человек и попросить их бросить монету 10 раз, и затем посчитать общее число набранных очков. Далее, разделим их на две группы: пять человек, которые набрали наименьшее число и пять тех, кто набрали наибольшее и повторим эксперимент. Что нам следует ожидать? Если мы принимаем, что мы не верим в ничего другое как в случай (никаких сверхъестественных сил или  «выигрышных полос»), мы бы ожидали, что в среднем те, кто получили малое количество очков, получат больше, а те, что в среднем получили больше, уменьшатся. Это от того, что для любого человека вероятнее всего получение средней оценки для любого набора случайных пробных попыток. Это самый простой пример, когда результат теста определяется только случайностью.

Когнитивные тесты интересны тем, что обычно они определяются двумя компонентами: «правильной» оценкой (‘true’ score), которая отражает действительные способности тестируемого и «ошибкой» ('error' score), которая вызвана случайными влияниями. Предположим, для примера, что вы тестируете у ребенка способность читать. В действительности известно, что ребенок хорошо читает, и находится в числе 10% лучших для своего возраста, однако точное количество слов, который ребенок способен правильно прочесть зависит от многих факторов: от того, какие именно слова были выбраны для теста (ребенок может знать слово «катакомбы» но не знать слово «зев»), от настроения, в котором находится ребенок в день тестирования, от того, насколько удачно были угаданы сомнительные слова. Все эти факторы будут отражаться в «ошибке» измерения,  которая является дополнительным случайным фактором, влияющим на результаты теста. Хороший тест определяется главным образом «правильной» оценкой, так что лишь малая доля привносится «ошибкой», и это можно определить по факту того, что ранжирование оценок у  детей будет одинаковым в тестах и в повторных тестах.  Иными словами, корреляция между первым тестированием и вторым тестированием должна быть высокой.

Модельные тестовые оценки для 21 ребенка в тестах различной степени надежности



На рисунках показаны смоделированные тестовые оценки для группы из 21 ребенка, для которых варьировалась степень надежности в тесте - повторном тесте. В каждом случае,  оценки для участников, для которых они были низкими в первом тесте,  отмечены синим цветом, для тех, у кого средние оценки, используется фиолетовый цвет,  и для тех, у кого высокие оценки в первом тесте -красный цвет.  Моделирование подразумевает отсутствие систематической разницы между первым и вторым разом - отсутствие влияния терапии, практики или взросления.  Оценки моделируются как случайные в первом случае, и те, что получаются во второй раз, должны давать корреляцию между двумя тестами, причем средняя оценка для всей группы меняться не должна.

Теперь представим себе, что мы выбираем детей потому, что в первый раз у них была более низкая оценка.  Поскольку случайность влияет на тестовую оценку, во второй раз следует ожидать, что оценка улучшится, поскольку случайность будет сдвигать среднюю оценку группы в сторону среднего. Левая часть рисунка показывает ситуацию, когда надежность теста (корреляция между 1-м и 2-м тестом) равна нулю, то есть результаты определяются лишь случайностью, подобно случайно брошенным игральным костям.  Средние величины оценок для синего, фиолетового, красного разные по определению (они выбираются как низкие, средние и высокие). Однако во второй раз они все одинаковые. В итоге имеем, что средняя величина для второго раза у тех, для кого изначально оценки низкие (синий  цвет), увеличиваются, а для тех, у кого они высокие, они снижаются.

Средняя и правая части рисунка показывают более правдоподобную ситуацию, когда тестовые оценки представляют собой смесь правильной оценки и некой ошибки. Для  теста с очень высокой степенью надежности (правая панель), эффект регрессии невелик, но для теста со средней степенью надежности он очевиден даже для этой весьма маленькой выборки.

Главный смысл всего этого в том, что если мы выбираем участников на базе низких показателей в тестах, как это часто делается для детей с плохими показателями в тестах на чтение (в случаях дислексии),  тогда можно ожидать, что средняя оценка в тестах улучшится по чисто статистической причине, если только тест не обладает высокой степенью надежности. В целом, психометрические тесты сделаны так, что у них вполне приличная степень надежности, однако это варьируется от теста к тесту, и величина надежности редко превышает 0.75-0.8.

Таким образом, эффект возврата к среднему значению представляет серьезную опасность в длительных повторных исследованиях (longitudinal studies). Это является еще одной причиной, почему тестовые оценки могут меняться со временем. Жанг и Томблин (Zhang & Tomblin, 2003) отмечают, что эту проблему можно преодолеть, если использовать разные тесты для того, чтобы отбирать детей и для того, чтобы измерять их улучшение. Или можно разрешить эффект  возврата к среднему значению, если исследование включает в себя контрольную группу, для которой возврат к среднему такой же самый, как для исследуемой группы.

Итак, если вы начали читать этот блог, считая, что люди, которые настаивают на контрольных группах для терапевтических исследований являются своего рода жандармами методологии (methodological Stasi),  у которых RCT - это просто навязчивая идея, то я надеюсь, что мне удалось убедительно показать, что проблемы вполне реальные. Есть слишком много поводов, чтобы убедить себя в том, что терапия приводит к улучшению, в то время, как она не имеет никакого значения. То, насколько сложно продемонстрировать положительные эффекты терапии может приводить к  унынию, однако грамотно спланированные исследования, с использованием правильного контроля, являются единственным способом преодоления предвзятости.

Дополнительные источники информации:

7th BDA International Conference - 2008: Dyslexia: Making Links

2nd UK Paediatric Neuropsychology Symposium  DysTalk online (video)

И пара коротких статей о том, как не следует проводить исследования терапевтических вмешательств:

BISHOP, D. V. M.  2007. Curing dyslexia and ADHD by training motor co-ordination: Miracle or myth? Journal of Paediatrics and Child Health, 43, 653-655

BISHOP, D. V. M. 2008. Criteria for evaluating behavioural interventions for neurodevelopmental disorders (Letter). Journal of Paediatrics and Child Health, 44, 520-521

дискуссия, discussion, education, образование, аутизм, autism, терапия

Previous post Next post
Up