Мозгоускорители - Страница 51

Корреляция

Посмотрите на таблицу 3 внизу. Связан ли симптом X с болезнью А? Другими словами, можно ли по симптому X диагностировать болезнь А?

Таблица 3. Связь между болезнью А и симптомом X

В таблице 3 говорится о том, что у 20 человек, страдающих болезнью А, присутствует симптом X, а у 80 человек, страдающих болезнью А, он отсутствует; при этом у десяти человек, не страдающих болезнью А, также присутствует этот симптом, а у 40 человек, не страдающих этой болезнью, отсутствует. На первый взгляд может показаться, что это простейшая задача на поиск ковариации, которую только можно себе представить. Вариантов всего два (или/или). Вам не нужно собирать информацию, или кодировать исходные данные и присваивать им численные значения, или вспоминать всю информацию об этих данных. У вас нет никаких предубеждений, которые могут повлиять на ваш выбор в пользу одного ответа, а не другого; и информация представлена для вас уже в виде сводки. Как же люди справляются с этой базовой задачей на поиск ковариации?

На самом деле очень плохо.

Самая распространенная ошибка в решении этой задачи — полагаться исключительно на графу «да/присутствует». «Да, этот симптом связан с этой болезнью. У некоторых людей с симптомом X обнаружена эта болезнь». Тенденция к выражению такого рода мнения является примером необъективности подтверждения — склонности искать доказательства, которые подтвердят уже имеющуюся гипотезу, не учитывая при этом тех доказательств, которые могут эту гипотезу опровергнуть.

Другие, взглянув на таблицу, обращают внимание на две графы. Кое-кто делает вывод, что симптом связан с этой болезнью, «потому что людей, имеющих этот симптом и страдающих этой болезнью, больше, чем людей, имеющих этот симптом и не болеющих этой болезнью». Другие делают вывод, что симптом не связан с болезнью, «потому что среди страдающих этой болезнью людей больше тех, кто не имеет этого симптома, чем тех, кто его имеет».

Не имея представления о статистике как науке, мало кто понимает, что нужно принимать во внимание все четыре графы таблицы, чтобы суметь ответить на простой вопрос о связи между этими двумя явлениями.

Нужно составить пропорцию для сравнения количества людей, у которых диагностировали данное заболевание в сочетании с данным симптомом, и количества людей, у которых обнаружили данную болезнь, но не этот конкретный симптом. Затем вы составляете пропорцию для сравнения количества людей, у которых нет данного заболевания, но есть этот симптом, и количества людей, у которых нет заболевания и нет симптома. Так как в результате получаются две одинаковые пропорции, мы понимаем, что этот симптом ничуть не больше связан с этой болезнью, чем с ее отсутствием.

Вас, наверное, встревожит тот факт, что большинство людей, включая врачей и медсестер, которые ежедневно занимаются лечением болезней, как правило, затрудняются дать правильный ответ при изучении таких данных, как приведенные в таблице 3. К примеру, можно показать им таблицу, в которой отмечено, сколько больных некой болезнью выздоровели в результате определенного вида лечения, сколько не выздоровели, а также сколько больных выздоровели без этого лечения и не выздоровели без этого лечения. Врачи иногда могут предположить, что определенное лечение помогает больным, потому что из получивших его большее количество людей выздоровело, чем не выздоровело. Но, не зная соотношения этого количества людей с количеством выздоровевших без этого лечения и количеством людей, не выздоровевших без этого лечения, невозможно сделать верные выводы. В связи с этим такие таблицы иногда называют таблицы 2x2, или четырехпольные таблицы.

Существует статистический критерий, называемый хи-квадрат, который рассматривает вероятность того, что две пропорции достаточно отличаются друг от друга, чтобы можно было с уверенностью утверждать, что перед нами подлинная взаимосвязь явлений. Мы называем взаимосвязь подлинной, если разница между двумя пропорциями статистически значима.

Типичный критерий, на основе которого можно утверждать, значима связь или нет, формулируется так: показывает ли тест (хи-квадрат или любой другой статистический тест), что данная степень связи может оказаться случайной лишь в пяти случаях из ста. Если так, мы говорим, что уровень статистической значимости равен 0,05. Тест оценки значимости можно применять не только к дихотомическим данным (или/или), но и к непрерывным.

Когда мы имеем дело с непрерывными случайными величинами и хотим знать, насколько тесно они связаны одна с другой, мы применяем статистический метод корреляции. Возьмем две переменные величины, которые очевидно коррелируют между собой, — рост и вес. Конечно, связь между ними не абсолютная, потому что, как мы знаем, есть много примеров невысоких людей с относительно большим весом и, наоборот, высоких людей с относительно небольшим весом.

Статистические методы могут рассказать нам о том, насколько тесна связь между двумя величинами. Один из часто используемых методов исследования степени связи между непрерывными величинами называется методом корреляции смешанных моментов Пирсона. Корреляция, равная 0, означает, что между двумя величинами нет никакой связи. Корреляция, равная +1, означает, что между двумя величинами существует полная положительная связь, то есть если значение первой величины увеличивается, то значение второй величины увеличивается в соответствующей степени. Корреляция, равная -1, означает полную отрицательную связь.