Если, исходя из прошлых поступков человека, мы пытаемся предсказать его поведение, основанное на его личностных свойствах, мы должны быть предельно осторожны и сдержанны, за исключением тех случаев, когда выборка случаев его поведения достаточно велика и наблюдалась в различных ситуациях с разнообразным контекстом. Сложность кодирования конкретных поступков говорит о том, что наши попытки прогнозировать поведение другого человека вполне могут быть ошибочными. Нужно постоянно напоминать себе, что концепция фундаментальной ошибки атрибуции помогает нам понять, когда и где мы делаем слишком далеко идущие выводы.
Опросы общественного мнения убивают истину.
Уилл Дюрант
Общество все больше полагается на опросы и эксперименты, которые могут обеспечить нас необходимой информацией. Это хорошо, потому что, если есть возможность провести эксперимент и найти ответ на вопрос, это почти всегда лучше, чем расчет корреляции с помощью специальных методов. Один из таких методов, который называют множественной регрессией, часто используется в медицинских и социальных исследованиях. Этот метод устанавливает зависимость между множеством независимых переменных прогноза (предикторов] одновременно и зависимой переменной результата. Метод множественной регрессии ставит вопрос: «За вычетом суммарного влияния всех прочих независимых переменных как влияет независимая переменная А на результирующую переменную?»
Несмотря на свою популярность, метод множественной регрессии по сути очень слаб и часто приводит к ошибочным результатам. Проблема возникает из-за ошибки самоотбора. Если мы не распределяем в случайном порядке случаи по группам с различными условиями эксперимента, они по самым разным причинам могут отличаться друг от друга по параметру, связанному с зависимой переменной величиной. Если результаты, полученные методом множественной регрессии, значительно расходятся с результатами контрольных рандомизированных экспериментов, значит, они не верны.
Но даже если разделение на группы с различными условиями эксперимента не вполне случайно, мы можем иногда получить «естественный эксперимент». Это возможно, когда имеются целые группы случаев (людей, земельных участков, городов), которые отличаются друг от друга относительно независимой переменной величины, и когда нет оснований считать, что какие-то конкретные случаи попали в эту группу неслучайно, что сделало бы выборку нерепрезентативной и не позволило бы нам сравнить результаты, показанные в разных группах.
Общество дорого платит за эксперименты, которые не были проведены, хотя сделать это было можно. Умерли сотни тысяч человек, совершены миллионы преступлений, миллиарды долларов потрачены впустую, потому что люди торопятся с выводами и начинают действовать, не проверив сначала, насколько это целесообразно.
Когда мы изучаем поведение людей, мы сталкиваемся с соблазном положиться на их свидетельства, хотя именно они зачастую бывают ошибочными. Если есть возможность каким-либо образом измерить параметры поведения, а не ограничиваться отчетами участников, вероятность решить проблему возрастает.
Можно также проводить эксперименты над самим собой — это даст более точные ответы на вопросы о том, что влияет на ваше здоровье и благосостояние, чем любые случайные наблюдения.
Вскоре после того, как Барак Обама объявил о своем намерении баллотироваться в президенты на выборах осенью 2007 г., председатель совета директоров компании Google Эрик Шмидт взял у него интервью на пресс-конференции с участием работников компании. В начале Шмидт в шутку спросил Обаму: «Как лучше всего сортировать миллион 32-разрядных чисел?» Не дожидаясь, когда Шмидт задаст первый серьезный вопрос, Обама быстро ответил: «Мне кажется, метод пузырьковой сортировки лучше не использовать». В принципе это был верный ответ, и Шмидт в изумлении хлопнул себя по лбу, а аудитория разразилась аплодисментами. Позже в ходе интервью Обама заверил аудиторию: «Я свято верю в разум, факты, доказательства, науку и обратную связь». Он пообещал, что, заняв пост, будет руководствоваться именно этими принципами.
Присутствовавший на пресс-конференции менеджер по продукции Дэн Сирокер тут же, на месте принял решение работать на Обаму: «Он меня покорил этой пузырьковой сортировкой».
Сирокеру было что предложить штабу предвыборной кампании Обамы. Он объяснил сотрудникам штаба, как правильно проводить А/В-тестирование (оно же сплит-тестирование). Если вы не знаете, какой метод или процедуру лучше выбрать, чтобы достичь нужной цели, сравните их, решив с помощью подбрасывания монетки, кто будет использовать метод А, а кто — метод Б. Затем вы собираете интересующие вас данные и анализируете их, сравнивая средние результаты метода А со средними результатами метода Б с помощью любого подходящего статистического теста.
В этой главе дается детальное объяснение того, что из себя представляет А/В-тестирование и как правильно применять его принципы в профессиональной деятельности и в повседневной жизни. Если вы поймете, как создается настоящий эксперимент, вы будете отлично подготовлены к восприятию и критике квазинаучных открытий, публикуемых в СМИ.
К тому времени, когда Дэн Сирокер присоединился к работе над сайтом предвыборной кампании Обамы, разработчики из Google и других интернет-компаний уже несколько лет тестировали различные варианты вебстраниц в режиме онлайн. Вместо того чтобы полагаться на мнение «гиппопотамов», как насмешливо называют людей с самыми высокими доходами (от HiPPO — highest-paid person’s opinion), они руководствовались только неоспоримыми фактами, выбирая, какой вариант лучше работает. Одной группе пользователей предложили дизайн страницы с преобладанием синего цвета, другим пользователям — с преобладанием красного цвета. Им нужна была информация о «проценте кликнувших». В теории каждый элемент дизайна веб-страницы — от цветовой гаммы и до расположения текста и картинок — нужно одновременно тестировать на случайно выбранных пользователях. Именно такие доказательства (а не мнения видных экспертов) стали решающим фактором при выборе элементов дизайна сайта.