Однако мне не составляет труда помнить об ограниченности чужих суждений, основанных на коротком собеседовании!
Моя подруга — назовем ее Кэтрин — консультирует руководство медицинских учреждений по вопросам менеджмента. Она любит свою работу— отчасти потому, что ей приходится путешествовать и знакомиться с людьми. Кроме того, она немного гурман и любит ходить в хорошие рестораны. Но часто разочаровывается, вновь посетив понравившееся заведение. Во второй раз еда уже не кажется ей такой вкусной. Как вы думаете почему?
Если вы ответите «Может быть, потому что в этом ресторане часто меняется шеф-повар» или «Вероятно, у нее завышенные ожидания», вы игнорируете кое-какие важные статистические закономерности.
Статистический подход к проблеме начинается с понимания того факта, что в том, насколько вкусную еду приносят Кэтрин в любом конкретном ресторане в каждом конкретном случае, всегда содержится элемент случайности. В зависимости от обстоятельств вашего визита в ресторан вы будете по-разному оценивать качество поданных блюд. Блюдо, которое Кэтрин попробовала в этом ресторане первым, по качеству могло варьировать от среднего (или даже ниже среднего) до великолепного. Эта разница и заставляет нас относиться к качеству оцениваемой еды как к переменной величине.
Непрерывная переменная величина (которая может непрерывно изменяться в диапазоне от наименьшего до наибольшего значения — как, например, рост людей), в отличие от дискретной переменной (например, в случае с гендерной идентификацией или политическими пристрастиями), всегда имеет среднее значение и распределение относительно среднего значения. Принимая во внимание один этот факт, неудивительно, что Кэтрин часто была разочарована: нельзя избежать вероятности, что иногда второй поход в ресторан окажется хуже, чем первый (точно так же, как в некоторых случаях второй раз оказывается лучше первого).
Но это еще не все. Следует ожидать, что мнение Кэтрин о блюде, которое однажды показалось ей превосходным, ухудшится. Это происходит оттого, что чем ближе переменная величина к своему среднему значению, тем чаще она встречается. Чем она дальше от среднего значения, тем она встречается реже. Поэтому если в первый раз еда показалась ей исключительной, то в следующий раз, вероятно, ее оценка будет не такой. Это верно для так называемого нормального распределения, график которого изображается кривой нормального распределения, показанной на рисунке 2.
Нормальное распределение — это математическая абстракция, но к ней на удивление часто стремится «поведение» непрерывных переменных величин. Например, количество яиц, которые еженедельно откладывают разные курицы; количество ошибок при сборке автомобильных коробок передач за месяц; результаты теста разных людей на IQ — все эти значения часто приближаются к нормальному распределению. Никто не знает почему, но это так.
Существует несколько способов описать дисперсию (разброс, отклонение) значений переменной от ее среднего значения. Один из них — подсчитать размах выборки — разность наибольшего и наименьшего значений. Другой, более эффективный способ измерения дисперсии — метод среднего отклонения от среднего значения. Если среднее качество блюд, которые попробовала Кэтрин при первом посещении ресторанов, обозначить как, скажем, «хорошее», а среднее отклонение от среднего значения равняется, скажем, «очень хорошему» в положительную сторону и «весьма посредственному» в отрицательную сторону, мы можем сказать, что степень дисперсии — среднего отклонения мнения Кэтрин о блюдах, которые она впервые пробует в ресторанах, не очень велика. Если же среднее отклонение варьирует от «великолепного» в положительную сторону до «весьма посредственного» в отрицательную сторону, то можно сказать, что дисперсия довольно велика.
Но есть еще более действенный способ вычисления дисперсии, который можно применить к любой непрерывной переменной величине. Это среднеквадратическое отклонение, оно же СКО, обозначаемое греческой буквой σ (сигма). Среднеквадратическое отклонение — это квадратный корень из дисперсии переменной величины. В принципе, среднеквадратическое отклонение не слишком отличается от среднего, но обладает кое-какими чрезвычайно полезными свойствами.
На кривой нормального распределения на рисунке 2 отмечены среднеквадратические отклонения. Примерно 68% значений переменной находятся в пределах от +σ до -σ (от плюс одного до минус одного стандартного отклонения от среднего значения выборки). Возьмем, например, результаты теста на IQ. В большинстве IQ-тестов средним значением принято считать 100 баллов, а среднеквадратическим отклонением — 15. То есть человек с уровнем IQ, равным 115, является среднеквадратическим отклонением выше среднего значения. Расстояние между средним значением и среднеквадратическим отклонением выше среднего довольно велико. Можно ожидать, что человек с IQ, равным 115 баллам, окончит университет и даже займется научной работой. Люди с таким уровнем IQ обычно получают высшее образование и становятся специалистами в какой-то области, менеджерами или инженерами. Люди с уровнем IQ, равным 100 баллам, чаще получают среднее специальное образование или вообще нигде не учатся после школы и становятся продавцами, секретарями или рабочими.
Еще один набор полезных фактов о среднеквадратическом отклонении касается соотношения между процентилями (сотыми частями распределения, выстроенными в ряд по их величине) и среднеквадратическими отклонениями. Примерно 83% наблюдаемых случаев имеют менее одного среднеквадратичного отклонения, превышающего среднее значение. Наблюдение с одним СКО от среднего значения находится в 84% распределения. Оставшиеся 16% наблюдаемых случаев превышают 84 процентиля. Почти 98% количества всех наблюдений содержат менее двух СКО выше среднего значения. Ровно два СКО от среднего значения входят в 98%. Всего 2% оставшихся наблюдаемых случаев превышают это значение. Почти все наблюдения окажутся между тремя СКО ниже среднего значения и тремя СКО выше среднего значения.