Много лет назад мой друг и его жена хотели завести ребенка. После нескольких лет безуспешных попыток они в конце концов решили посетить врача. Новости оказались невеселыми. В его сперме было «слишком мало сперматозоидов, чтобы оплодотворение произошло естественным путем». Друг спросил у врача, насколько надежен этот анализ. «Очень надежен», — ответил доктор. Он имел в виду, что анализ не бывает ошибочным — он дает верные данные. Это не слишком точное значение термина «надежный».
Надежность измерения переменной величины есть степень воспроизводимости того же результата от измерения к измерению или при переходе от одного метода измерения к другому.
Надежность измерения роста человека практически равна 1 (почти абсолютная корреляция при разных замерах). Надежность измерения IQ с интервалом в пару недель — примерно 0,9, а измерение IQ с помощью двух разных тестов обычно дает надежность более 0,8. Два стоматолога придут к согласию по поводу степени здоровья вашего зуба с надежностью менее 0,8. Это означает, что доктор Смит запломбировал бы вам зуб, а доктор Джонс оставил бы его как есть. Кстати, в другой раз решение того же стоматолога может быть иным, иначе говоря, в разных случаях между его решениями нет абсолютной корреляции. В пятницу доктор Джонс, возможно, запломбировал бы этот зуб, а во вторник не стал бы его сверлить.
Как же обстоит дело с подсчетом количества сперматозоидов? Надежность каждого конкретного метода анализа количества сперматозоидов невысока, как и надежность получения одинакового результата при разных способах измерения. При одновременном измерении количества сперматозоидов разными способами результаты могут быть совершенно разными.
Валидность (пригодность, обоснованность) метода обычно также измеряется с помощью корреляций. Валидность способа измерения означает меру его соответствия цели измерения. Валидность IQ-тестов обычно существенна — около 0,5, — в такой степени баллы теста на уровень IQ соответствуют среднему баллу школьного аттестата. (На самом деле именно потребность в прогнозировании успеваемости учеников побудила французского психолога Альфреда Вине в начале XX в. разработать первый тест на уровень IQ.)
Пожалуйста, не забывайте о чрезвычайно важном принципе: без надежности не может быть валидности. Если оценки, которые дает человек, нестабильны (нулевая корреляция между оценкой значения переменной А в одном и другом случае), значит, они непригодны и не подходят для прогнозирования значений переменной величины Б.
Если результаты теста X и теста У, которые должны измерить значения переменной величины, совпадают только случайно, тогда в лучшем случае лишь один из этих тестов сколько-нибудь валиден. Напротив, надежность может быть очень высокой даже при отсутствии валидности. Графологи утверждают, что могут по почерку определить степень честности, трудолюбия, амбициозности, оптимизма и множество других качеств человека. Два графолога могут сойтись во мнении о качествах человека (высокая надежность), но не могут предсказать реальное поведение человека в связи с качествами его характера (нулевая валидность).
Хотя анализ почерка порой может быть довольно полезен; например, для диагностики некоторых заболеваний центральной нервной системы.
Я хочу, чтобы вы оценили в процентах корреляцию двух переменных величин. Схема всегда одинакова: насколько, по вашему мнению, вероятно, что А будет больше Б, если А была больше Б в другом случае? С помощью формул теории вероятностей ваши ответы легко преобразовать в коэффициенты корреляции.
Если вы ответите «на 50%» на один из вопросов, заданных ниже, это означает, что, на ваш взгляд, между поведением в одном и в другом случае нет никакой связи. Если вы скажете «на 90%», значит, вы считаете, что между поведением в одном и в другом случае существует чрезвычайно сильная зависимость.
Первый вопрос касается грамотности. Если вы полагаете, что количество орфографических ошибок в одном случае никак не зависит от количества ошибок в другом случае, отвечайте «50%». Если же вы считаете, что между тем, насколько грамотно вы пишете в одном конкретном случае и в любом другом, существует сильная связь, отвечайте «90%». Чтобы проверить себя — запишите свой ответ на каждый вопрос.
...1. Если Карлос получит оценку за диктант выше, чем Крейг в конце первого месяца в 4-м классе, какова вероятность, что оценка Карлоса будет выше в конце третьего месяца?
2. Если Джулия забросила больше мячей, чем Дженнифер, в первых 20 баскетбольных играх сезона, какова вероятность, что она забросит больше мячей в следующих 20 играх?
3. Если при первом знакомстве Билл показался вам более дружелюбным, чем Боб, какова вероятность, что при второй встрече он вновь покажется вам более дружелюбным?
4. Если Барбара ведет себя честнее, чем Бет, в 20 ситуациях, свидетелем которых вы были (честно оплачивала счета, не хитрила, играя в настольные игры, честно говорила о ее оценках в школе и т.д.), какова вероятность, что Барбара будет вести себя честнее, чем Бет, и в следующих 20 ситуациях, которые вы увидите?
В таблице 4 представлены корреляции, соответствующие оценкам в процентах, которые вы только что сделали.
Мне уже известны ответы на эти вопросы, основанные на проведенных ранее исследованиях. Я знаю корреляцию между результатом первого и второго диктанта, а также корреляцию между средней оценкой по результатам 20 таких повторяющихся диктантов. Я знаю корреляцию между тем, какое впечатление производит человек при первой и при второй встрече, а также корреляцию между средним значением этих впечатлений в 20 подобных случаях и т. д.