2. Эксперименты, в которых людей (или любые другие объекты) в случайном порядке распределяют по группам, на которых сравнивают разные способы воздействия (или воздействие и его отсутствие), в целом намного точнее исследований, основанные на анализе множественной регрессии.
3. Наши предположения, касающиеся человеческого поведения, так часто ошибочны, что если вообще возможно проверить какую-нибудь важную гипотезу о поведении, то нужно в обязательном порядке проводить эксперимент.
Все вопросы, которые прозвучали в начале этой главы, спрашивали об одном: может ли некая независимая переменная (она же предиктор — представляющая собой исходные данные или предполагаемую причину) влиять на зависимую или результирующую переменную — то есть на конечный результат или достигнутый эффект. Эксперименты задают разные значения независимым переменным; корреляционный анализ же просто измеряет их.
Один из методов, использующий корреляционный анализ, это анализ множественной регрессии (АМР), в котором некоторое количество независимых переменных коррелирует одновременно (иногда последовательно, но мы не будем обсуждать этот вариант АМР) с некоторым количеством зависимых переменных. Интересующая нас независимая переменная (предиктор) изучается наряду с другими независимыми переменными, которые называются контрольными переменными. Цель — показать, что переменная А влияет на переменную Б, за вычетом суммарного влияния других переменных. Другими словами, взаимосвязь остается, даже когда принимается во внимание влияние контрольных переменных на зависимые переменные.
Рассмотрим следующий пример. Курение коррелирует с повышенной вероятностью заболеваний сердечно-сосудистой системы. Хочется сказать, что курение является причиной заболеваний сердечно-сосудистой системы. Но проблема в том, что и с курением, и с этими заболеваниями коррелирует множество других переменных, таких как возраст, социальное положение и избыточный вес. Курильщики в возрасте курят дольше, чем курильщики молодые, поэтому из корреляции «курение — болезнь» нужно исключить влияние возраста, иначе результат будет говорить о том, что с заболеваниями сердечно-сосудистой системы связано объединение двух переменных — возраста и курения. А мы хотим знать, есть ли связь между курением и сердечно-сосудистыми заболеваниями, независимо от того, сколько человеку лет. Для этого мы «контролируем» влияние возраста на вероятность заболевания, исключая корреляцию «возраст — болезнь» из корреляции «курение — болезнь». В результате мы сможем сказать, что связь между курением и сердечно-сосудистыми заболеваниями установлена для каждой возрастной группы.
ТУ же самую логику можно применить и к социальному статусу. При прочих равных составляющих, чем ниже ступенька социальной лестницы, тем выше вероятность, что занимающий ее человек будет курить и чем ниже социальный статус, тем выше риск сердечных заболеваний, независимо от других факторов риска, таких как курение. Так же обстоит дело с избыточным весом. И так далее. Корреляции этих переменных как с курением, так и с риском заболеваний нужно исключать из корреляции между курением и сердечно-сосудистыми заболеваниями.
Теоретический аспект анализа множественной регрессии состоит в том, что если вы контролируете всё, что связано с независимой переменной и зависимой переменной, выделив из общего сочетания именно эти корреляции, то вы можете обнаружить истинную причинно-следственную связь между предсказывающей и результирующей переменными. Это в теории. На практике множество факторов мешают устойчиво получать этот результат.
Во-первых, как определить, что мы установили все возможные искажающие факторы — переменные, связанные и с предсказывающей, и с результирующей переменной? Почти никогда нельзя утверждать это наверняка. Мы можем только измерить то, что кажется нам важным, и проигнорировать бесконечное число переменных, которые кажутся нам неважными. Но ПООН: Предположения Обычно Оказываются Неверными. Поэтому, как правило, мы терпим поражение в этой игре.
Во-вторых, насколько точно мы измеряем каждую возможную искажающую переменную? Если мы измерили ее неточно, это значит, что мы недостаточно проконтролировали ее действие. Если мы измерили ее настолько неточно, что она не валидна, значит, мы не проконтролировали вообще ничего.
Иногда анализ множественной регрессии — единственный доступный способ исследовать важные и интересные вопросы. Например, вопрос о том, связана ли религиозность и соблюдение обрядов с уровнем воспроизведения потомства. Мы не можем провести эксперимент для изучения этого вопроса, случайным образом назначив, кому из участников эксперимента быть религиозным, а кому нет. Мы можем использовать только корреляционные методы, такие как АМР. Между прочим, религиозность коррелирует с уровнем воспроизведения потомства как на индивидуальном, так и на государственном и культурном уровне. При условии контролирования факторов дохода, возраста, состояния здоровья и других факторов на индивидуальном уровне, на уровне этнических групп и на уровне государств корреляция такова, что чем выше религиозность, тем выше уровень воспроизведения потомства. Мы не знаем, почему именно это так, и корреляция между религиозностью и плодовитостью может быть не причинно-следственной связью, а, скорее, следствием какой-либо иной, третьей, неизвестной переменной, которая влияет как на религиозность, так и на уровень воспроизведения потомства. Может быть, причинно-следственная связь здесь вообще работает в обратном направлении: люди, у которых много детей, начинают искать поддержку в религии! Тем не менее данное корреляционное открытие интересно само по себе и может привести к реальным практическим последствиям.