Если количество случаев велико и они распределены по группам с разными условиями эксперимента в случайном порядке, наша уверенность в том, что исследуемый эффект реален, повышается. Но есть еще один чрезвычайно важный фактор, который следует тщательно прояснить, — что следует считать одним случаем? Предположим, вы попробовали метод А в группе 1, состоящей из 30 студентов. Это стандартный способ преподавания: лекции в аудитории и домашнее задание дома. Вы также пробуете применять метод Б в группе 2 с 25 студентами: он состоит в том, что студенты смотрят дома видеозаписи лекций, а «домашнее задание» делают вместе с преподавателем в аудитории. Каково общее количество случаев (N) в данном примере? Увы, не 55, что было бы удобно для того, чтобы показать значимое различие в результатах, если оно есть.
Количество случаев N здесь равно 2. Число N равно числу случаев только при условии независимости наблюдений. Но когда речь идет об аудитории, полной студентов, или о группе людей, которые взаимодействуют друг с другом в период проведения эксперимента и измерения его эффективности, поведение каждого не является независимым от другого. Если кому-то что-то непонятно, это может привести в замешательство других; если кто-то всю лекцию веселится и отпускает шуточки, это может негативно сказаться на результатах остальных студентов. Поведение каждого индивида потенциально зависимо от поведения каждого другого индивида. В таких ситуациях можно провести тест для оценки достоверности, только если достаточно велико количество групп, и тогда число N будет количеством групп, а не количеством индивидов.
Если вы не умеете проводить статистические тесты, вас неизбежно ждет неопределенность по поводу того, каков же истинный эффект применения различных методик. Тем не менее лучше в следующий раз просто применить тот метод, который показал себя лучше, чем полагаться только на свои предположения.
Концепция независимости наблюдений чрезвычайно важна для понимания бесконечного количества событий. Трудно поверить, но в 2008 г. такие рейтинговые агентства, как Standard & Poor (S&P), использовали прогнозирующие модели возможных банкротств на рынке ипотечного кредитования, в которых предполагалось, что банкротства по ипотеке независимы друг от друга. Считалось, что банкротство Джо Докса из штата Айова никак не влияет на вероятность банкротства Джейн Доу из штата Колорадо. В таком подходе есть некоторый смысл в стабильные времена. Но в других обстоятельствах, и уж тем более в период быстрого роста цен на жилье, нельзя исключить, что вы окажетесь внутри ипотечного пузыря. В этом случае вероятность банкротства по ипотеке 20031А статистически зависит от того, обанкротилась ли ипотека 90014С.
Рейтинговые агентства никогда не были и не являются незаинтересованными сторонами. За их работу им платят банки, и услуги рейтинговой компании пользуются большим спросом, если компания привычно составляет рейтинг безопасного вложения средств. Так что происходило ли это из-за того, что рейтинговые компании были поразительно некомпетентны в прогнозировании банкротств или же попросту занимались мошенничеством, я знать не могу. В любом случае полученный урок ясен: ошибочная научная методология может привести к катастрофическим последствиям.
Предположения обычно оказываются неверными. И если даже они верны, глупо просто полагаться на них, когда их легко проверить. Принцип сплит-тестирования понятен даже ребенку: возьмите метод, который вы хотите протестировать, создайте контрольное условие, подбросьте монетку, чтобы выбрать, кто (или что) получит какой именно метод, и наблюдайте, что произойдет. Различие, найденное с помощью рандомизированной схемы, показывает, что какие-то манипуляции с независимой переменной оказывают влияние на зависимую переменную. Различие, найденное с помощью корреляционных методов, не может гарантировать, что независимая переменная действительно оказывает влияние на зависимую переменную.
Корреляционные схемы ненадежны, потому что исследователь не сопоставляет условия и события. Например, много домашней работы или мало, реклама по радио или с помощью рассылок, высокие доходы или низкие. Если вы не назначаете случайным образом условия конкретным случаям — вы получаете все возможные факторы неопределенности. Случаи одного уровня независимой переменной могут отличаться от случаев другого уровня в любом количестве аспектов, часть из них можно идентифицировать, а часть нельзя. Любая из измеряемых или неизмеряемых, или даже воображаемых величин может с большей вероятностью оказывать влияние, чем та независимая величина, которая вас интересует. А может быть и такое, что та величина, которая должна быть зависимой, на самом деле оказывает влияние и вызывает изменения в той величине, которая должна была быть независимой.
Чем больше число представленных случаев — людей, сельскохозяйственных участков и пр., тем больше вероятность, что вы найдете истинный эффект, и тем меньше вероятность, что «обнаружите» эффект, которого там на самом деле нет. Если разница, которую показывает статистический тест любого типа, оказывается такой величины, что она проявляется менее, чем один раз в 20 случайных примерах, мы считаем, что это значимое различие на уровне 0,05. Без подобного теста мы, как правило, не можем узнать наверняка, действительно ли этот эффект имеет место.
Когда вы ставите каждый случай во все группы с различными условиями эксперимента, ваша схема становится более чувствительной. Иными словами, вероятность того, что разница, найденная с помощью внутренней перестановки, будет статистически значима, выше, чем в случае разницы, найденной с помощью сравнения разных объектов, — потому что все возможные различия между любыми двумя случаями полностью контролируются, оставляя в качестве возможного различия, являющегося причиной некой взаимосвязи, исключительно различие, вызванное применением экспериментального метода.