Вопросы и ответы по поводу специфичности тестов на ВИЧ (часть 1)

Dec 25, 2019 13:11


За многие годы общения с ВИЧ-отрицателями, регулярно сталкиваюсь с рядом вопросов по поводу специфичности тестирования ВИЧ. Этот пост не претендует на исчерпывающий ответ на все вопросы связанные с тестированием - это очень обширная тема, но я постараюсь охватить самые принципиальные вопросы.

Самый фундаментальный вопрос - как мы можем быть уверены что в организме человека есть ВИЧ, если у мы обнаружили положительную реакцию его сыворотки с белками ВИЧ?

Если точность ИФА  проверяют на определенных наборах сывороток где мы заранее знаем, что сыворотка содержит антитела, то кто определил первую сыворотку как положительную?

Подобные «детские» вопросы могут возникнуть по поводу других технологий.



Часть I.  Общая теория тестирования

Начну я с короткого экскурса в формальную теорию тестирования. Пока будет пересказ общей теории, в основном из этой статьи из Википедии. Давайте определим фундаментальные понятия. Тестирование решает задачу бинарной классификации.  Мы имеем некий прибор, на вход которого подаем образцы, а на выходе мы имеем либо (+) либо (-). Важно подчеркнуть, что в роли прибора может выступать любой метод. Например фотодетектор, который должен определять день сейчас или ночь, или автопилот автомобиля, который должен определить есть ли пешеход на проезжей части или нет.

Чувствительность - какой часть положительных образцов определены тестом как положительные. Чем меньше ложноотрицательных результатов, тем выше чувствительность.



Специфичность - какая часть отрицательных образцов определены тестом как отрицательные. Чем меньше ложноположительных результатов, тем выше специфичность.

Обе характеристики очень важные, но в разных ситуациях. Если это скрининг донорской крови - в первую очередь важна чувствительность. Если назначение лечения - то важна и чувствительность и специфичность в равной мере. Другими словами, цена ложноположительных (ошибок первого рода) и ложноотрицательных (ошибок второго рода) результатов будет зависеть от ситуации, и именно соотношения цены этих ошибок будет определять баланс чувствительности и специфичности теста. Дополнительные ограничения накладывает массовый характер тестирования  - тест не должен быть излишне дорогим, процедура тестирования должна занимать приемлемое время и не быть излишне сложной, результаты должны быть хорошо воспроизводимы.

На практике, создать скрининговый тест который будет обладать одновременно 100% чувствительностью и специфичностью, как правило, невозможно (если знаете, напишите в комментариях). Более того, используя один и тот же принцип (например ИФА), можно создать тесты с разной чувствительностью и специфичностью в зависимости от порога отсечки фонового сигнала. В любом автоматизированном тесте измеряется некая физическая величина, сигнал, которая имеет непрерывный диапазон значений. В ИФА - оптическая плотность, в ПЦР - интенсивность флюоресценции продуктов реакции, в радиоиммунном анализе - суммарная поглощенная детектором доза излучения. Уровень сигнала от отрицательных образцов будем называть фоновым сигналом.  Как правило распределение сигнала от положительных и отрицательных образцов являют собой плавные кривые, которые в общем случае пересекаются (см. рисунок). Но так как,  мы решаем задачу бинарной классификации, нам нужно выбрать порог отсечки фонового сигнала.



Рис. 1. TP -истинно положительные результаты, TN - истинно отрицательные, FN - ложноотрицательные, FP - ложноположительные.

В зависимости от выбранного порога отсечки фона у нас будут разные чувствительность и специфичность, то есть разные соотношения ошибок первого и второго рода. Если непрерывно менять порог отсечки,  и наносить по одной оси (Y) чувствительность, а по (X)  процент ложноположительных результатов - мы получим кривую которую называют  рабочая характеристика приёмника (англ. receiver operating characteristic).



Рис. 2

Давайте разберемся, чему соответствуют крайние точки на этом рисунке, чтобы легче было анализировать.

Начало координат отвечает тесту 100% специфичностью (отсутствие ложноположительных результатов) но и с нулевой чувствительностью. Несмотря на 100% специфичность, такой тест будет непригоден, он все образцы будет определять как отрицательные.

Второй экстремальный случай - крайняя верхняя правая точка, соответствует тесту с 100% чувствительностью, но с нулевой специфичностью. Такой тест определяет все образцы как положительные. Этот случай также не пригоден на практике.

Левая верхняя точка (0,1)  - это теоретически идеальный тест, который будет обладать 100% чувствительностью и специфичностью одновременно.

Очень важной характеристикой является площадь под этой кривой. Чем больше эта площадь, тем лучше метод разделяет положительные и отрицательные образцы. Штриховая линия отвечает тесту который работает как случайное угадывание -  подбрасывание монетки например.

Как можно улучшать детектор? Первый путь - уменьшать разброс и величину   фонового сигнала. Например, в цифровой камере делают более качественную матрицу, и уровень шумов снижается, что позволяет сделать фото в темное время суток более качественными. Для ИФА это соответствует использованию более качественных реактивов, антигена более высокой чистоты, уменьшению неспецифического связывания (прилипания) белков к стенке лунки, итп. Другой метод - использовать усиления полезного сигнала. Например в случае цифровой камеры - использовать более светосильный объектив или просто подсветить картину (вспышка). Исключительная чувствительность ПЦР связана именно с многократным усилением уровня полезного сигнала.

Это теоретическая основа понимания не только как работают тесты, но и любого алгоритма-классификатора. Собственно, эта теория впервые разработана во время второй мировой войны для повышения качества распознавания объектов. Хотя пока мы ничего не говорили про тесты на ВИЧ, вообще не конкретизировали алгоритм классификации, но определенные выводы помогут нам в дальнейшем разобраться с дизайном алгоритма тестирования на ВИЧ и особенностями различных методов ее проверки.

Важные выводы:

1. Соотношение чувствительности и специфичности для конкретного метода не является чем то фиксированным, а выбирается исходя из соотношения цены ошибки первого и второго рода.

2. Мы можем значительно улучшить тест либо уменьшив фоновый сигнал, либо усилив полезный.

Previous post Next post
Up