Качество отдельных индикаторов, суммарных показателей (индексов) и шкал определяется их надежностью и валидностью.

Надежность измерения связана с его устойчивостью и воспроизводимостью. Показатель может считаться надежным в той мере, в которой полученные оцен­ки могут быть воспроизведены на данной совокупности объектов измерения. Основной вид надежности - это надежность-повторяемость (или диахронная, ретестовая надежность). Оценка ретестовой надежности отражает ре­зультаты повторного применения одного и того же показателя (вопроса, теста) для одной и той же выборки случаев (респондентов) в разные моменты време­ни. Если люди отвечают на вопрос одинаково и в первом, и во втором, и во всяком последующем случае, то этот вопрос надежен. Если тест умственных способностей дает те же результаты при повторной проверке на одной и той же группе старшеклассников, то это надежный тест.

Важно отметить, что надежность инструмента измерения не отражает его точ­ность или правильность. Скажем, если на вопрос о доходе респонденты дваж­ды дадут совершенно идентичные ответы, завышенные на какие-нибудь 100%, мы имеем дело с абсолютно надежным, но неточным показателем. Если, в дру­гом случае, термометр с безукоризненной надежностью показывает электри­ческое сопротивление кожи, у нас нет оснований говорить о правильности, адек­ватности измерения. Оценка надежности-повторяемости - это корреляция между результатами повторных измерений. В случае единичного вопроса-индикатора достаточно просто сопоставить ответы одной и той же группы лю­дей, полученные в первом опросе, с ответами, данными двумя неделями или месяцем позднее, и вычислить коэффициент корреляции (см. гл. 8). На практи­ке хорошей можно считать корреляцию 0,8 и выше.



К недостаткам оценок надежности-повторяемости следует отнести, во-первых, сложность проведения повторных замеров на больших выборках, типичных для социологии. Во-вторых, истинное значение переменной также может изменяться с течением времени, например, политические симпатии могут измениться за неделю в результате каких-то скандальных разоблачений, а зарплата - суще­ственно возрасти за месяц из-за введения обязательного индексирования в ус­ловиях инфляции. В последнем случае перед исследователем встанет трудно­разрешимая задача отделить колебания, вызванные изменением истинного зна­чения переменной, от колебаний, связанных с надежностью показателя. Поэтому так важен еще один вид надежности - надежность-согласованность. Оценить надежность-согласованность можно лишь в том случае, если для измерения одной и той же переменной используют множество индикаторов. Зато для та­кой оценки достаточно однократного измерения. В психологическом тестиро­вании, например, используют батареи тестов, нацеленных на измерение одной способности или одного личностного качества. Социологи - если они распо­лагают достаточными средствами и техническими возможностями - исполь­зуют индексы и шкалы, состоящие из множества отдельных вопросов-инди­каторов.

Самый простой способ оценки надежности-согласованности - это «расщеп­ление пополам». Если, например, у нас есть 12 вопросов, предположительно измеряющих политическую активность, где каждому вопросу присвоен 1 балл, а максимальной политической активности соответствует суммарный индекс 12 баллов, то применяется следующая процедура:

1. Вопросы в случайном порядке разбиваются на два равных списка (по 6 вопросов в каждом) и предъявляются один раз группе испытуемых.

2. Далее подсчитывается коэффициент корреляции между результата­ми одних и тех же испытуемых по разным «половинам» теста: чем выше его значение, тем согласованнее оценки истинного значения политичес­кой активности, получаемые с помощью данного набора индикаторов. Не исключено, однако, что полученная таким способом оценка надежности окажется весьма чувствительной к способу «расщепления пополам»: коэффи­циент корреляции будет заметно меняться в зависимости от способа составле­ния двух списков.

Еще одна элементарная процедура, позволяющая оценить надежность отдель­ного вопроса (высказывания, пункта шкалы), - это проверка его корреляции с суммарным баллом, т. е. с суммарным значением индекса. Если для данной группы опрошенных коэффициент корреляции между отдельным вопросом о часто­те зарубежных поездок и суммарным «индексом ксенофобии» оказался равен 0,3, то можно предположить, что названный вопрос не отражает истинного значе­ния переменной «уровень ксенофобии» и может быть исключен из опросника. Ведь строго определенная надежность - это та доля измеренного разброса оце­нок, которая относится к истинному разбросу значений измеряемой перемен­ной (мы пользуемся здесь менее строгим и скорее содержательным определением, поскольку пока не обсуждали необходимые статистические понятия). Очевидно, что коррелирование с суммарным баллом - это процедура, приме­нимая для имеющих довольно простую структуру суммарных индексов и шкал (примеры вы найдете дальше в этой главе).

В любом случае важно располагать явной моделью измерения теоретичес­кой переменной, так как лишь она позволит предсказать, каковы ожидаемые отношения между отдельными индикаторами и насколько применимы описанные простые методы оценки надежности. Чтобы убедиться в этом, достаточно сравнить модель с множеством эффект-индикаторов ла­тентной переменной с моделью, включающей только причинные индикато­ры (см. рис. 3 и 4). Очевидно, что эффект-индикаторы должны быть высоко согласованны и с латентной, переменной-свойством, которую они призваны измерять, и друг с другом. Однако это не так уж очевидно для причинных индикаторов: скажем, и образование, и доход - важные компоненты поня­тия «социально-экономический статус». Однако даже если образование рас­тет, доход имеет право вести себя как угодно, т. е. он вовсе не должен пока­зывать непременно высокую корреляцию с образованием. Иными словами, если от надежных эффект-индикаторов следует ожидать высокой скоррелированности друг с другом (при использовании методов «расщепления попо­лам» или корреляции с суммарным баллом), то для причинных индикаторов столь простой подход к оценке надежности неприменим. Разработать под­ходящий метод оценки надежности здесь можно, лишь анализируя взаимо­связи разных индикаторов и разных теоретических переменных в модели измерения. Прогнозируя ожидаемую направленность и величину этих свя­зей, исследователь может оценить степень соответствия своих предсказа­ний наблюдаемым данным и сделать вывод о качестве индикатора. Самыми универсальными методами оценки надежности эмпирических индикаторов являются факторный анализ и путевой анализ. В идеале для оценки надежности используют несколько индикаторов (два-три) и по крайней мере две волны панели.

Очень важно помнить, что понятие надежности связано со случайными ошиб­ками измерения, т. е. с ошибками, которые никаким систематическим образом не связаны друг с другом или какими-то систематически действующими вне­шними переменными (скажем, полом или возрастом респондентов). Типичные источники ненадежности - это случайные несистематические факторы, свя­занные с колебаниями внимания респондентов, неоднозначностью формули­ровки вопроса, ведущей к различию в его восприятии в разных случаях; несис­тематическими различиями в проведении интервью; различиями в кодирова­нии открытых вопросов, или с ошибками при вводе данных. Например, если предложить даже очень опытным специалистам классифицировать сотню на­селенных пунктов по заранее разработанной схеме кодирования типов поселе­ний, то, вероятнее всего, можно будет найти по крайней мере несколько расхождений в получившихся классификациях. Некоторые расхождения будут свя­заны с наличием «предельных» случаев, не поддающихся однозначной классификации по предложенным правилам, некоторые - с механическими ошибками записи или невнимательностью. Предварительная оценка надежно­сти вопросов социологической анкеты требует прежде всего «отбраковки» не­ясно сформулированных вопросов, на которые люди часто отвечают случай­ным образом. Столь же низка надежность вопросов, на которые респонденты попросту не способны ответить, так как не имеют никакого мнения по затрону­той проблеме или ничего не знают о ней. Далеко не все опрошенные, столкнув­шись с иррелевантным вопросом, честно ответят «не знаю» или «не помню». Многие дадут наугад выбранный ответ из вежливости или нежелания демонст­рировать свою неосведомленность.

Методы увеличения надежности нами уже обсуждались (см. гл. 4, 5). Во-пер­вых, нужно стремиться к использованию множественных индикаторов. Когда же это невозможно, т. е. существуют теоретические или практические трудно­сти в измерении одной переменной разными способами, то следует использо­вать самые устоявшиеся и общепринятые показатели (например, если можно лишь один раз спросить респондента о его возрасте, то лучше всего использо­вать в точности такую же формулировку вопроса и те же категории ответа, ка­кие используются в общенациональных переписях, масштабных панельных исследованиях и т.п.).

К другим методам увеличения надежности можно отнести «отсев» иррелевантных вопросов, анализ словесной формулировки вопроса, обучение и кон­троль интервьюеров, совершенствование методов кодирования данных и про­цедур ввода.

Валидность измерения, в самом общем смысле, характеризует соответствие измерения его цели. Эмпирический показатель валиден (обоснован, правилен) в той мере, в какой он действительно отражает значение той теоретической пе­ременной, которую предполагалось измерить. Очевидно, что нет смысла гово­рить о валидности какого-то индикатора самого по себе. Валидность инстру­мента измерения состоит в однозначностш и правильности получаемых результатов относительно измеряемого свойства объектов, т. е. относительно предмета измерения. Можно сказать, что валидность определяет «чистоту» измерения теоретического конструкта. Когда измерение является непосредствен­ным, т.е. мы можем прямо подсчитать количество эталонных единиц измеряе­мого свойства, и на результаты измерения влияют только случайные ошибки, надежность и валидность неразличимы, валидность инструмента измерения равна его надежности. Если мы измеряем интересующее нас свойство лишь косвенно, используя какой-то индикатор, возникает различие между надежностью и валидностью. Индикатор может обладать высокой надежностью (воспроизводимостью), но при этом измерять интересующий нас социологический конструкт недостаточно «чисто». Уже на интуитивном уровне очевидно, что вполне надежный инструмент может измерять нечто другое, помимо интересу­ющего исследователя качества (например, не столько политическую активность, сколько конформизм). Косвенное измерение обычно содержит и случайный, и неслучайный ошибочный компонент. Именно неслучайный компонент, включающий в себя систематическую (скоррелированную) ошибку и, реже, имеющую одну и ту же величину для каждого случая постоянную ошибку измерения, определяет валидность показателя. Характерными примерами системати­ческой ошибки измерения в социологическом опросе или эксперименте являются уже упоминавшиеся эффекты «памяти», социальной желательности, установки за позитивный или негативный ответы. Они влияют не только на правильность, валидность индикатора интересующей исследователя переменной, но и на правильность и обоснованность результатов анализа данных: скоррелированная ошибка измерения может воздействовать на любые статистические показате­ли, в том числе на показатели взаимосвязи между переменными и на оценки значимости различий между подгруппами. Иными словами, конечным итогом «пользования невалидных индикаторов могут оказаться неверные содержательные выводы.

Проблема валидности измерения - сложнейшая проблема социологической методологии. Валидное измерение - это прежде всего результат валидной модели измерения, т. е. результат обоснованной и ясной концептуализации теоре­тических представлений. Здесь мы опишем лишь основные виды валидности и традиционные методы валидации, т. е. установления валидности измерений.

Валидностъ по содержанию показывает, в какой мере избранные исследовате­лем индикаторы отражают различные аспекты теоретического понятия. Ины­ми словами, речь идет о представительности данной совокупности измерений да отношению к концептуальной структуре переменной-признака, о полноте операционализации теоретических понятий. Например, экзамен по статистике может рассматриваться как валидный инструмент измерения статистических знаний студентов, так как экзаменационные вопросы отражают содержание лекций и учебников. Однако если все вопросы относятся лишь к одному разделу прочитанного курса - скажем, к нормальному распределению, - то результаты экзамена будут отражать, например, умение студентов переводить «сырые» баллы в стандартные оценки, но ничего не скажут о знании корреляции и регрессии.

Основная процедура оценки валидности по содержанию - это суждение экс­перта. В некоторых случаях связь между теоретическими понятиями и измеря­ющими их индикаторами столь ясна, что никакие специальные обоснования попросту не требуются: понятно, что термометр измеряет температуру. Здесь можно говорить об очевидной (иногда-лицевой, от англ. face validity) валид­ности показателя. Очевидная валидность тем выше, чем тождественнее пони­мание цели вопроса, теста или иного показателя профессионалом-социологом и неискушенным респондентом. Вопрос о частоте покупки шампуня, по всей вероятности, не содержит в себе никаких подвохов и позволяет судить именно о том типе потребительского поведения, который описан в вопросе. Однако в более сложных случаях содержательная валидность отнюдь не сводится к очевидной. Набор простых вопросов о излюбленном способе проведения досуга, предпочитаемой марке автомобиля, частоте чтения престижного журна­ла и т. п. может быть нацелен на измерение «стиля жизни» респондента (в дан­ном случае измерение позволяет отнести человека к одной из номинальных ка­тегорий стиля жизни - «выживающий», «достиженческий», «экзистенциаль­ный», «социальный» и т. п.). Судить о полноте этого набора и относительной значимости вопросов для измерения понятия «стиль жизни» могут только спе­циалисты. Основой такого экспертного суждения является теоретическое опре­деление, концептуализация исследовательской переменной. Обычно эксперт­ное суждение о валидности по содержанию выносится более или менее сти­хийно, после публикации результатов исследования. Иногда все же удается использовать более организованные процедуры - метод параллельных пане­лей или метод нескольких судей . В первом случае две или три последователь­ные панели специалистов проводят всю процедуру валидации по содержанию, т. е. сравнивают существующие дефиниции, составляют список возможных индикаторов и оценивают их репрезентативность по отношению к исследуе­мой концептуальной области. Если сравнение индикаторов, независимо ото­бранных в двух и более панелях, обнаруживает множество совпадений, можно говорить о высокой содержательной валидности.

Метод нескольких судей (экспертов) полезен в тех случаях, когда переменная-признак, которую предполагается измерить, имеет многомерную структуру. Если, например, социолог разрабатывает воображаемую шкалу социально-эко­номического благополучия регионов, то полезно обратиться к специалистам в таких областях, как демография, социальная политика, занятость, налоговая система и т. п. Опрос экспертов позволит выявить существенные факторы, вхо­дящие в шкалу, оценить их сравнительную значимость и найти релевантные эмпирические индикаторы.

Критериальная валидность (или валидность по критерию) показывает, насколь­ко хорошо результаты по данному тесту или индикатору согласуются с резуль­татами измерения другого показателя, называемого критерием. Чаще всего кри­терий - это та переменная, которая и представляет практический интерес для исследователя, но не может быть измерена в данный момент. Например, критериальная валидность вступительных экзаменов определяется той академичес­кой успеваемостью, которую в дальнейшем продемонстрируют студенты (т. е. академическая успеваемость является в данном случае критерием). Мож­но также предположить, что тест моральной оценки девиантного поведения для подростков обладает критериальной валидностью по отношению к реальному отклоняющемуся поведению. Индикатор, обладающий доказанной кри­териальной валидностью, может рассматриваться как переменная-предиктор, позволяющая предсказывать индивидуальные значения переменной-критерия. ^Конечно, нужда в предикторе, замещающем собственно критерий, возникает лишь в тех случаях, когда оценки по критерию получить трудно, т. е. речь идет о давно прошедших или еще не наступивших событиях, либо переменную-кри­терий трудно измерить из-за практических или этических соображений. Валидность предиктора обычно тем выше, чем ближе он к критерию. Скажем, идеальным методом отбора курсантов авиационного училища мог бы стать проб­ный краткосрочный курс обучения с проверкой практических навыков управления самолетом в финале: прошедшие проверку претенденты имели бы все шансы стать настоящими профессионалами. Однако такой метод слишком дорогостоящ и на практике используют тесты интеллекта, испытания визуаль­но-моторной координации и другие показатели, установив предварительно их критериальную валидность. В другом случае проективный личностный тест (типа ТАТ - теста тематической апперцепции, подразумевающего составление рассказов по фотографиям с неопределенным сюжетом) позволит выявить при­знаки психоза либо травмирующего сексуального опыта в прошлом пациента. Полное психиатрическое обследование могло бы занять очень много времени, да и данные о плохом обращении в детстве получить довольно трудно.

К основным типам критериальной валидности относят прогностическую, кон­курентную и постдиктивную («предсказывающую-назад») валидности.

Прогностическая критериальная валидность описывает точность, с которой значения данной переменной - обычно характеризующей отдельного индиви­да или группу - могут быть предсказаны на основании текущих значений какой-то другой переменной (предиктора). Очевидно, что наилучшим показате­лем такой прогностической точности будет корреляция между значениями пе­ременной-предиктора и значениями переменной-критерия для одной и той же выборки. Тогда - в пределах ошибки выборки - коэффициент корреляции бу­дет равен коэффициенту прогностической валидности.

Конкурентная валидность по критерию - это степень соответствия между те­кущими значениями переменной-критерия и переменной-предиктора. Попрос­ту говоря, исследователь использует результаты измерения по одному признаку для того, чтобы оценить значение другой переменной. Причина может заклю­чаться в том, что измерение непосредственно переменной-критерия трудноосуществимо, занимает слишком много времени и т. п. Проблема конкурентной валидности весьма значима для эмпирической социологии, где многие пове­денческие или установочные переменные измеряются не непосредственно, а через самоописания, ответы на анкетные вопросы, иными словами, через вербальное поведение. Например, мы можем оценить конкурентную валидность анкетного вопроса о частоте посещения дискотеки студентами-отличниками с помощью серии включенных наблюдений за реальным поведением данной груп­пы. Уже ранние исследования конкурентной валидности фактографических вопросов в социологии показали, что даже для относительно «безобидных», несензитивных индикаторов конкурентная валидность может изменяться в са­мых широких пределах.

В так называемом Денверском исследовании валидности, проведенном С. Стауффером и соавторами в 1947 г., сопоставлялись данные ответов респондентов на фактографические вопросы и данные официальной статистики местных организаций. Речь шла о регистрации избирателей, участии в голосовании, взносах в городскую казну, о наличии водительских прав и читательского билета и т. п. Сопоставляя данные официальной статистики (критерий) с ответами респондентов (предиктор), исследователи обнаружили, что величина расхождений составляла от нескольких процентов до почти 50%, в зависимости от содержания вопроса.

Следует, однако, помнить и об ограничениях, присущих объективным показа­телям-критериям: данные официальных документов также нередко основаны на самоотчетах и нередко подвержены ошибкам измерения. Все же в некоторых случаях процедура конкурентной валидации имеет преимущество перед предиктивной, так как первая не требует от исследователя длительного ожидания того момента, когда можно будет измерить значения критерия. Если, например, исследователь хочет оценить критериальную валид­ность теста профессиональных интересов, разработанного для студентов, как предиктора успешной профессиональной карьеры, то ему необязательно ждать десять лет, чтобы измерить значение переменной-критерия. Достаточно прове­сти тестирование профессиональных интересов для двух «крайних» групп уже работающих специалистов - преуспевших и наименее преуспевших в профес­сии в данный момент времени. Высокая корреляция между тестовым баллом и успешностью работы (или статистически значимое различие тестовых баллов «крайних» групп) будет свидетельствовать о конкурентной валидности теста. Условиями, при которых выводы о конкурентной валидности индикатора могут все же оказаться ошибочными, являются избирательное выбывание из выбор­ки (самоотбор) и реактивность переменной-предиктора. Самоотбор в нашем примере может иметь место в том случае, если среди выбывших из выборки (бывших студентов, отказавшихся от профессиональной карьеры в данной об­ласти и не охваченных по этой причине проводимым тестированием) будут сверхпредставлены высоко- либо низкомотивированные, т. е. естественное выбыва­ние будет носить неслучайный характер. В случае реактивности индикатора наши испытуемые будут отвечать на вопросы теста мотивации не так, как они отвечали будучи студентами (из-за повлиявших на них профессионального опы­та, изменения социального статуса и т. п.) И все же существуют нереактивные переменные-предикторы, конкурентная валидность которых вполне поддается обоснованию. Примером могут служить такие стабильные характеристики, как коэффициент интеллекта или «фоновые» переменные (социальное происхож­дение, национальная принадлежность и т. п.).

Наконец, в некоторых случаях мы заинтересованы в том, чтобы установить точ­ность, с которой мы можем оценить наличие какого-то критерия-признака или черты, присущей индивиду (группе) в прошлом. Пример использования проек­тивного психологического теста для постдиктивного «прогноза» детских травм приведен выше. Эта ситуация обозначается как оценка постдиктивной ва­лидности.

Описанные нами виды валидности существенны в тех ситуациях, когда перед исследователем стоит задача сравнить некий показатель с уже существующими или с используемым в практике критерием. Иными словами, критериальная валидность показателя - это корреляция с другим, предположительно «чистым», эмпирическим показателем. Однако существует и другой подход к валидности, где оценка индикатора основана на том, насколько хорошо его «пове­дение» соответствует теоретическим ожиданиям. Такая оценка может быть проведена лишь в рамках целостной теоретической модели, описывающей отношения между теоретическими переменными, их индикаторами, случайными и неслучайными ошибками измерения. Предположим, мы хотим проверить валидность новой шкалы групповой сплоченности. Основываясь на существу­ющих теоретических представлениях, мы можем предположить, что большей групповой сплоченности соответствует меньшая частота открытых конфлик­тов и большая интенсивность коммуникаций. Сравнив различные по уровню групповой сплоченности группы и определив для них значения других двух переменных (частота конфликтов и интенсивность коммуникаций), мы увидим, насколько хорошо «ведет» себя разработанный нами показатель групповой спло­ченности. Если паттерн его отношений с двумя другими переменными соответ­ствует предсказаниям теории, то мы можем заключить, что новая шкала валид­на, т. е. измеряет именно ту теоретическую переменную, которая нас интересу­ет. Этот вид валидности обычно обозначают термином «конструктная валидность» . (Иногда используют также обозначение «концептуальная валидность».)

Со статистической точки зрения абсолютная конструктная валидность предпо­лагает, что весь наблюдаемый разброс в значениях показателя связан исключи­тельно с измеряемым теоретическим конструктом. Если же часть вариации ин­дикатора связана с другой переменной - будь то другой теоретический конст­рукт или систематическая ошибка измерения,- конструктная валидность окажется меньше.

Легко заметить, что оценка конструктной валидности предполагает какую-то связь между проверкой содержательных теоретических гипотез и проверкой качества измерения. Действительно, оценка конструктной валидности посред­ством сопоставления теоретической модели «поведения» изучаемой перемен­ной с реальными отношениями индикаторов требует включения модели измерения (см. выше) в более широкую теоретическую модель.

Предположим, мы используем некоторый суммарный показатель - индекс «де­мократизма политической системы», состоящий из ряда индикаторов 1 , Х 2 , Х 3 ), каждый из которых имеет свой собственный «вес» в индексе демократизма. К таким индикаторам могут относиться наличие парламента (номинальная ди­хотомическая переменная), количество независимых телерадиокомпаний и т.п. Исходя из теоретической модели, мы ожидаем, что степень «демократизма» находится в обратной связи с долей ВНП, расходуемой на модернизацию воо­ружений. Основываясь на этой модели (см. рис. 11), можно проверить конструктную валидность изобретенного нами индекса демократизма.

С


Рис. 11. Модель взаимосвязи для переменных «демократизм»

Измерение соотношения. Коэффициент валидности выражает величину корреляции между показателем теста и мерой критерия. Этот коэффициент позволяет характеризовать валидпость единственным числовым показателем, и поэтому его часто приводят в руководствах к тестам, указывая его величину для каждого из использованных критериев. Данные, по которым вычисляется коэффициент валидности, могут к тому же быть представлены в виде таблицы ожидаемых результатов или диаграммы ожидаемого отсева (см. главу 3). Собственно говоря, такие таблицы и диаграммы - наглядные иллюстрации того, что коэффициент валидности означает для тестируемого. Напомним, что в таблицах ожидаемых результатов приводятся вероятности достижения определенного уровня выполнения критериальной деятельности испытуемым, получившим определенный показатель по данному тесту. Например, с помощью табл. 3-6, зная показатель ученика по тесту числового рассуждения из батареи Дифференциальных тестов способностей (DAT), можно определить вероятность получения им той или иной оценки по математике в 7-м классе. Для тех же данных коэффициент валидности составляет 0,60. Если, как в приведенном примере, тестовая и критериальная переменные являются непрерывными, то применим уже знакомый нам коэффициент корреляции произведения моментов Пирсона. Если же исходные данные выражены в иной форме (скажем, при использовании дихотомического критерия «выполнено-невыполнено» - см. рис. 3-7), вычисляются другие виды коэффициентов корреляции. Соответствующие вычислительные процедуры можно найти в любом типовом учебнике по статистике.

Условия, влияющие на величину коэффициентов валидности. Как и в случае с надежностью, важно точно определять характер группы, на которой вычисляется коэффициент валидности теста. Один и тот же тест может измерять различные функции, если его дать лицам разного возраста, пола, уровня образования, рода занятий и т. д. Люди с разным жизненным, учебным и профессиональным опытом могут, па-пример, воспользоваться разными методами для решения одной и той же тестовой задачи. Следовательно, тест может обладать высокой валидностью относительно заданного критерия в одной популяции и низкой или нулевой валидностью - в другой. Или, скажем, оказаться валидной мерой разных функций в двух популяциях. Поэтому в технических руководствах к тестам, предназначенным для работы с разнотипными популяциями, следует приводить соответствующие данные о понуляционной обобщаемое™ (populationgeneralizah"dity). Кроме того, когда имеет место значительная внутрипопуляционная вариация тестовых показатели"!, коэффициент валидности теста может заметно различаться в разных частях диапазона показателей и должен проверяться в соответствующих подгруппах (R. Lee, & Foley, 1986).



Вопрос неоднородности выборки имеет для измерения валидности такое же значение, как и для измерения надежности, поскольку обе характеристики обычно приводятся в виде коэффициентов корреляции. Напомним, что при прочих равных условиях чем шире размах распределения показателей, тем выше будет корреляция. Это обстоятельство необходимо иметь в виду при интерпретации коэффициентов валидности, приводимых в руководствах к тестам.

Специфическая проблема, присущая многим выборкам валидизации, связана с пре-"отбором (preselection). Например, новый тест, валидизируемый для целей профотбора,

Часть 2.

может проводиться на группе недавно нанятых работников, в отношении которых со временем будут доступны такие меры критерия, как эффективность труда. Вполне вероятно, однако, что эти работники представляют собой верхнюю (лучшую) часть выборки из всех тех, кто хотел поступить на эту работу. Поэтому нижний конец распределения тестовых показателей и критериальных мер в такой выборке окажется обрезанным. Эффектом такого предотбора, естественно, будет снижение коэффициента валидности. При последующем использовании теста, когда его будут проводить со всеми поступающими на работу в целях их отбора, можно ожидать некоторого повышения его валидности.

Коэффициенты валидности могут также измениться через какое-то время вследствие изменения норм отбора. В качестве примера сравним коэффициенты валидности, полученные с интервалом в 30 лет при обследовании студентов Йельского университета (Burnham, 1965). Определялась корреляция между прогнозирующим показателем, основанным на тестах Совета колледжей, и успеваемостью в старших классах, с одной стороны, и средним баллом первокурсника - с другой. Оказалось, что за 30 лет корреляция снизилась с 0,71 до 0,52. Анализ соответствующих двумерных распределений данных легко выявил причину этого снижения. Дело в том, что в связи с повысившимися требованиями при приеме в колледж группа студентов во втором случае стала более однородной, чем в первом, по отношению как к прогнозирующему показателю, так и к мерам критерия. Отсюда и падение корреляции, несмотря на то что точность прогноза успеваемости в колледже осталась, в общем, прежней. Иными словами, наблюдаемое снижение корреляции вовсе не свидетельствовало о том, что прогнозирующие показатели стали менее валидными, чем 30 лет назад. А ведь именно к такому выводу можно было бы прийти, упустив из виду различия в однородности групп.

Для правильной интерпретации коэффициента валидности следует принимать во внимание и форму связи между тестом и критерием. Вычисление пирсоновского коэффициента корреляции предполагает, что эта связь линейна и остается неизменной во всем диапазоне распределения. Исследование связи тестовых показателей с выполнением работы показало, что эти условия, в общем, выполняются (Coward, & Sa-ckett, 1990; Hawk, 1970). Все же особые обстоятельства могут изменять характер этой связи, и пользователю теста следует быть всегда готовым к такому повороту событий. Пусть для выполнения некоторой работы требуется лишь минимальный уровень понимания читаемого, достаточный для прочтения инструкций, названий и т. д. Но как только этот минимальный уровень превзойден, то от дальнейшего развития данного умения успешность выполнения работы уже не зависит, т. е. между тестом и выполнением работы существуют нелинейные отношения. Изучение двумерного распределения или диаграммы рассеяния, построенной по показателям теста на понимание читаемого и мерам критерия, в этом случае показало бы, что уровень выполнения работы растет, пока умение понимать читаемое не достигает требуемой степени, после чего он остается примерно тем же. Следовательно, точки на диаграмме группируются вокруг кривой, а не прямой линии.

В других случаях линия наилучшего соответствия может быть и прямой, но точки, соответствующие индивидуальным данным, могут отклоняться от нее в верхнем конце шкалы больше, чем в нижнем. Предположим, что успешное выполнение теста академических способностей - необходимое, но не достаточное условие для успешного завершения некоторого учебного курса. Это значит, что учащиеся с низкими показа-

Глава 6. Валидность: измерение и интерпретация

телями по данному тесту получат скорее всего неудовлетворительные оценки, тогда как среди учащихся с высокими показателями одни получат положительные оценки, а другие, из-за недостаточной мотивации, отсутствия интереса или других неблагоприятных условий, не сдадут экзамена. В этой ситуации будет наблюдаться большая вариативность выполнения критериальной деятельности у учащихся с высокими тестовыми показателями, чем с низкими. Такое условие в двумерном распределении называется гетероскедастичностью." Пирсоновская корреляция предполагает гомо-скедастичность, т. е. одинаковую вариабельность во всем диапазоне двумерного распределения. В приведенном примере двумерное распределение было бы веерообразным - широким в верхнем конце и узким в нижнем. Уже визуального анализа двумерного распределения обычно бывает достаточно для установления характера связи между тестом и критерием. Таблицы ожидаемых результатов и диаграммы ожидаемого отсева также правильно показывают относительную эффективность теста на разных уровнях.

Величина коэффициента валидности. Какова должна быть величина коэффициента валидности? На этот вопрос нет единого ответа, так как при интерпретации коэффициента валидности нужно учитывать ряд сопутствующих обстоятельств. Разумеется, корреляция должна быть достаточно высокой для того, чтобы быть статистически значимой на приемлемом уровне, таком как 0,01 или 0,05 (см. главу 4). Иными словами, прежде чем делать какие-либо выводы о валидности теста, нужно иметь обоснованную уверенность в том, что полученный коэффициент валидности не появился в результате случайных колебаний выборки из генеральной совокупности с нулевой корреляцией.

Установив значимую корреляцию между тестовыми показателями и критерием, необходимо еще оценить ее величину в аспекте тех целей, ради которых и создавался данный тест. Если мы собираемся предсказывать точное значение критериального показателя у конкретных лиц (скажем, средний балл студента в колледже), коэффициент валидности можно интерпретировать исходя из стандартной ошибки оценки (standard error of estimate, или сокращенно, SE„ ), которая аналогична ошибке измерения, обсуждавшейся в связи с надежностью. Напомним, что ошибка измерения указывает допустимый предел возможной ошибки индивидуального показателя в результате ненадежности теста. Аналогично этому, ошибка оценки указывает допустимый предел возможной ошибки прогнозируемой величины индивидуального критериального показателя в результате недостаточной валидности теста.

Ошибка оценки вычисляется по следующей формуле:

гд - е г 1, - квадрат коэффициента валидности и SD V - стандартное отклонение критериального показателя. Заметим, что при полной валидности (г п, = 1,00) ошибка оценки была бы равна нулю. С другой стороны, если валидность теста равна нулю, то ошибка оценки достиг ает величины стандартного отклонения распределения критерия \ s E es , = SD y -v/l - 0 = SD y ). При этих условиях вероятность правильного прогноза не

Термины «гомоскедастичность» и «гетероскедастичность» (букв, «одинаковая рассеянность» и «Неодинаковая рассеянность» соответственно) введены в статистику А. А. Чупровым. - Примеч. н «Уч. ред.

Часть 2. Технические и методологические принципы

превышает вероятности случайного угадывания, и диапазон ошибки предсказания равен ширине распределения критериальных показателей. Между этими двумя пределами И будут заключаться ошибки оценки, соответствующие тестам с варьирующей валидностью.

Обращаясь к формуле для SE a , покажем, что выражение Jl-/Ј позволяет определить величину ошибки оценки относительно ошиб ки простого угадывания (т. е. при нулевой валидности). Иными словами, если ^|1 - г£ = 1,00, то ошибка оценки столь же велика, как и при случайном угадывании критериального показателя у конкретного испытуемого. Использование такого теста не дало бы нам никакого выигрыша в точности предсказания. Если же коэффициент валидности равен 0,80, Tajl-rЈ =0,60, и максимальная ошибка составляет 60 % от величины той, которая была бы при случайном угадывании. Выражаясь иначе, использование этого теста позволяет нам предсказывать индивидуальные результаты в критериальной деятельности с пределом ошибки, который на 40 % меньше, чем в случае угадывания.

Может показаться, что даже при такой необычайно высокой валидности, как 0,80, ошибка предсказываемых показателей довольно значительна. Если бы главной функцией психологических тестов было предсказание точного положения индивидуума в критериальном распределении, такая перспектива выглядела бы совершенно обескураживающей. Когда мы рассматриваем тесты в аспекте ошибки оценки, большинство из них представляются не особенно эффективными. Однако чаще всего при тестировании нет необходимости предсказывать точный результат критериальной деятельности каждого обследуемого человека, но требуется лишь определить, кто из них превзойдет некоторый минимальный стандарт выполнения, или критический показатель выбранной в качестве критерия деятельности. Каковы шансы у Мери Грин закончить медицинское училище, у Тома Хиггинса усвоить курс вычислительной математики, а у Беверли Брюса преуспеть в качестве астронавта? Кто из поступающих на работу, скорее всего, будет хорошим клерком, страховым агентом, механиком? Такая информация полезна не только для профотбора, но и для профориентации. Например, студенту полезно и выгодно знать, что у него хорошие шансы благополучно окончить юридический факультет, даже если мы не можем с уверенностью сказать, будет ли его средний балл 74 или 81.

Тест может заметно повысить свою предсказуемостную эффективность, если для него будет установлена любая значимая корреляция с критерием, какой бы низкой она ни была. При некоторых обстоятельствах валидность порядка 0,20-0,30 уже оправдывает включение теста в программу отбора. Для многих целей тестирования оценивание тестов с точки зрения их стандартной ошибки оценки является неоправданно строгим. В большинстве случаев должны применяться другие способы оценивания тестов, те, которые бы учитывали типы решений, принимаемых на основе их результатов. О некоторых из них пойдет речь в следующем разделе.

1. Определение. Основное психометрическое неравенство

Соответствие теста измеряемому психическому свойству называется валидностью теста . Валидность является важнейшим психометрическим свойством теста. Если высокая надежность говорит о том, что тест действительно что-то измеряет, то высокая валидность указывает на то, что тест измеряет именно то, что мы хотим измерить. Конечно, на валидность теста также негативно влияют случайные факторы. Поэтому в психометрике принято следующее основное психометрическое неравенство:


Валидность? Надежность,

что означает, что валидность не может превышать надежность теста.

Но в отличие от надежности, помимо случайных факторов, на валидность теста влияют систематические факторы. Они привносят систематические искажения в результаты. Эти факторы есть другие психические свойства, которые мешают проявиться в результатах теста тому свойству, на измерение которого направлен тест.

Например, мы хотим измерить потенциал обучаемости (важнейший компонент общих интеллектуальных способностей человека). Если мы даем испытуемому тест с жестким ограничением времени исполнения и отсутствием возможности вернуться и исправить допущенную ошибку, то очевидно, что искомое психическое свойство оказывается смешанным в тесте с ложным психическим свойством – стрессоустойчивостью: испытуемые с высокими показателями стрессоустойчивости будут лучше выполнять тест. В этом проявится эффект систематического искажения.

В современной психометрике разработаны десятки разнообразных теоретических и экспериментальных методов проверки валидности тестов. Основным элементом практически всех этих методов является так называемый критерий. Критерий валидности – это не зависимый от теста, внешний по отношению к тесту источник информации об измеряемом свойстве. Мы не можем судить о валидности теста до тех пор, пока не сравним его результаты с источником истинной (или заведомо более валидной) информации об измеряемом свойстве – с критерием.

2. Типы критериев валидности

В научных исследованиях преобладают специальные лабораторные критерии. Например, конструируется компактный тест-опросник на тревожность. А в качестве критерия валидности для него используется специальный трудоемкий объективный лабораторный эксперимент, в котором воспроизводится реальная ситуация тревожности (испытуемым-добровольцам угрожают за ошибочные действия ударами тока и т. п.).

На практике очень часто в качестве критерия валидности используются прагматические критерии – показатели эффективности той деятельности, ради прогнозирования которой предпринимается тестирование.

Очень часто в качестве критерия валидности используется экспертная оценка. Например, мы хотим убедиться, что короткий тест на измерение уровня дисциплинированности валиден. Для этого проводится опрос учителей об уровне дисциплинированности хорошо известных им учеников. После этого сравниваются результаты теста и экспертный рейтинг учеников по дисциплинированности.

Остановимся подробнее на этом последнем примере. Здесь мы имеем один из самых простых и популярных методов эмпирического (статистического) измерения валидности. Это метод известных групп. К участию в психометрическом эксперименте по проверке валидности теста приглашаются испытуемые, про которых известно, к какой группе по критерию они относятся. В случае с тестом дисциплинированности подбираются ученики, заведомо дисциплинированные по данным экспертной оценки учителей (высокая группа по критерию) и заведомо недисциплинированные (низкая группа по критерию). Ученики со средними показателями по критерию в тестировании не участвуют.

После проведения теста производится расчет, например, простейшей корреляции между тестом и критерием (табл. 1).

Таблица 1 Расчет простейшей корреляции между тестом и критерием

Элемент «a» в этой таблице – это число испытуемых, попавших в высокую группу по тесту и по критерию, элемент «b» – число испытуемых, попавших в высокую группу по тесту, но в низкую группу по критерию и т. д.

Очевидно, что при полной валидности теста элементы «b» и «с» таблицы должны быть равны нулю, т. е. тест не должен давать ошибок (говорить о том, что ученик низкодисциплинированный, когда учителя говорят о том, что ученик высокодисциплинированный – случай «с»).

3. Математическое выражение критерия валидности (коэффициент Гилфорда)

Меру совпадения (корреляции) между крайними группами по тесту и по критерию оценивают с помощью самого простого Фи-коэффициента Гилфорда:

При численности протестированной группы в 30 человек (это минимальная выборка для проверки валидности) статистически значимую связь теста с критерием мы можем констатировать – Ph 1 ? 0,36. Хотя это и очень невысокая валидность, но все же тест в данном случае дает значимо лучшие результаты, чем случайное гадание.

Однако метод известных групп обладает серьезным недостатком. Он не всегда позволяет использовать тест для прогноза. Дело в том, что при формировании известных групп оценивается поведение, которое происходило в прошлом, а мы хотим сделать тест для прогноза поведения, которое будет происходить в будущем. Многие тесты, используемые в образовательной психодиагностике, обладают указанным недостатком. Они проходят в лучшем случае проверку по методике известных групп и не обладают прогностической валидностью (или эта валидность строго экспериментально не доказана).

4. Основные схемы валидизации психодиагностических методик

Решение проблемы прогностической валидности под силу только крупным научно-методическим центрам. Ведь к психометрическому исследованию по проверке прогностической валидности надо привлекать на порядок больше испытуемых – не 30, а, как минимум, 300, так как неизвестно, кто из этих 300 попадет в крайние группы.

Например, мы хотим использовать тест для прогноза готовности школьников для обучения в вузе. Это типичная прогностическая психодиагностическая задача. Кто-то должен взяться за нелегкую многолетнюю программу проверки прогностического потенциала этого теста. Нужно протестировать 300–500 школьников, а затем подождать, кто из них поступит в вуз и будет успешно там учиться. После двух-трехлетнего интервала можно сформировать критериальные группы и подсчитать корреляцию с прежними тестовыми показателями этих бывших школьников. Только после реализации такой схемы психометрического эксперимента можно утверждать, что тест прошел проверку на прогностическую валидность. Без этого мы исходим только из доверия к научной интуиции разработчика теста и не имеем независимых доказательств того, что тест можно использовать для прогноза.

Различение обычной дешевой схемы валидизации теста (по известным группам) и дорогой прогностической схемы валидизации теста – важнейший элемент психодиагностической грамотности не только для психологов, но и для педагогов, как, впрочем, и для любых заказчиков психодиагностической информации.

Измерение соотношения. Коэффициент валидности выражает величину корреляции между показателем теста и мерой критерия. Этот коэффициент позволяет характеризовать валидпость единственным числовым показателем, и поэтому его часто приводят в руководствах к тестам, указывая его величину для каждого из использованных критериев. Данные, по которым вычисляется коэффициент валидности, могут к тому же быть представлены в виде таблицы ожидаемых результатов или диаграммы ожидаемого отсева (см. главу 3). Собственно говоря, такие таблицы и диаграммы - наглядные иллюстрации того, что коэффициент валидности означает для тестируемого. Напомним, что в таблицах ожидаемых результатов приводятся вероятности достижения определенного уровня выполнения критериальной деятельности испытуемым, получившим определенный показатель по данному тесту. Например, с помощью табл. 3-6, зная показатель ученика по тесту числового рассуждения из батареи Дифференциальных тестов способностей (DAT), можно определить вероятность получения им той или иной оценки по математике в 7-м классе. Для тех же данных коэффициент валидности составляет 0,60. Если, как в приведенном примере, тестовая и критериальная переменные являются непрерывными, то применим уже знакомый нам коэффициент корреляции произведения моментов Пирсона. Если же исходные данные выражены в иной форме (скажем, при использовании дихотомического критерия «выполнено-невыполнено» - см. рис. 3-7), вычисляются другие виды коэффициентов корреляции. Соответствующие вычислительные процедуры можно найти в любом типовом учебнике по статистике.

Условия, влияющие на величину коэффициентов валидности. Как и в случае с надежностью, важно точно определять характер группы, на которой вычисляется коэффициент валидности теста. Один и тот же тест может измерять различные функции, если его дать лицам разного возраста, пола, уровня образования, рода занятий и т. д. Люди с разным жизненным, учебным и профессиональным опытом могут, па-пример, воспользоваться разными методами для решения одной и той же тестовой задачи. Следовательно, тест может обладать высокой валидностью относительно заданного критерия в одной популяции и низкой или нулевой валидностью - в другой. Или, скажем, оказаться валидной мерой разных функций в двух популяциях. Поэтому в технических руководствах к тестам, предназначенным для работы с разнотипными популяциями, следует приводить соответствующие данные о понуляционной обобщаемое™ (populationgeneralizah"dity). Кроме того, когда имеет место значительная внутрипопуляционная вариация тестовых показатели"!, коэффициент валидности теста может заметно различаться в разных частях диапазона показателей и должен проверяться в соответствующих подгруппах (R. Lee, & Foley, 1986).



Вопрос неоднородности выборки имеет для измерения валидности такое же значение, как и для измерения надежности, поскольку обе характеристики обычно приводятся в виде коэффициентов корреляции. Напомним, что при прочих равных условиях чем шире размах распределения показателей, тем выше будет корреляция. Это обстоятельство необходимо иметь в виду при интерпретации коэффициентов валидности, приводимых в руководствах к тестам.

Специфическая проблема, присущая многим выборкам валидизации, связана с пре-"отбором (preselection). Например, новый тест, валидизируемый для целей профотбора,

Часть 2.

может проводиться на группе недавно нанятых работников, в отношении которых со временем будут доступны такие меры критерия, как эффективность труда. Вполне вероятно, однако, что эти работники представляют собой верхнюю (лучшую) часть выборки из всех тех, кто хотел поступить на эту работу. Поэтому нижний конец распределения тестовых показателей и критериальных мер в такой выборке окажется обрезанным. Эффектом такого предотбора, естественно, будет снижение коэффициента валидности. При последующем использовании теста, когда его будут проводить со всеми поступающими на работу в целях их отбора, можно ожидать некоторого повышения его валидности.

Коэффициенты валидности могут также измениться через какое-то время вследствие изменения норм отбора. В качестве примера сравним коэффициенты валидности, полученные с интервалом в 30 лет при обследовании студентов Йельского университета (Burnham, 1965). Определялась корреляция между прогнозирующим показателем, основанным на тестах Совета колледжей, и успеваемостью в старших классах, с одной стороны, и средним баллом первокурсника - с другой. Оказалось, что за 30 лет корреляция снизилась с 0,71 до 0,52. Анализ соответствующих двумерных распределений данных легко выявил причину этого снижения. Дело в том, что в связи с повысившимися требованиями при приеме в колледж группа студентов во втором случае стала более однородной, чем в первом, по отношению как к прогнозирующему показателю, так и к мерам критерия. Отсюда и падение корреляции, несмотря на то что точность прогноза успеваемости в колледже осталась, в общем, прежней. Иными словами, наблюдаемое снижение корреляции вовсе не свидетельствовало о том, что прогнозирующие показатели стали менее валидными, чем 30 лет назад. А ведь именно к такому выводу можно было бы прийти, упустив из виду различия в однородности групп.

Для правильной интерпретации коэффициента валидности следует принимать во внимание и форму связи между тестом и критерием. Вычисление пирсоновского коэффициента корреляции предполагает, что эта связь линейна и остается неизменной во всем диапазоне распределения. Исследование связи тестовых показателей с выполнением работы показало, что эти условия, в общем, выполняются (Coward, & Sa-ckett, 1990; Hawk, 1970). Все же особые обстоятельства могут изменять характер этой связи, и пользователю теста следует быть всегда готовым к такому повороту событий. Пусть для выполнения некоторой работы требуется лишь минимальный уровень понимания читаемого, достаточный для прочтения инструкций, названий и т. д. Но как только этот минимальный уровень превзойден, то от дальнейшего развития данного умения успешность выполнения работы уже не зависит, т. е. между тестом и выполнением работы существуют нелинейные отношения. Изучение двумерного распределения или диаграммы рассеяния, построенной по показателям теста на понимание читаемого и мерам критерия, в этом случае показало бы, что уровень выполнения работы растет, пока умение понимать читаемое не достигает требуемой степени, после чего он остается примерно тем же. Следовательно, точки на диаграмме группируются вокруг кривой, а не прямой линии.

В других случаях линия наилучшего соответствия может быть и прямой, но точки, соответствующие индивидуальным данным, могут отклоняться от нее в верхнем конце шкалы больше, чем в нижнем. Предположим, что успешное выполнение теста академических способностей - необходимое, но не достаточное условие для успешного завершения некоторого учебного курса. Это значит, что учащиеся с низкими показа-

Глава 6. Валидность: измерение и интерпретация

телями по данному тесту получат скорее всего неудовлетворительные оценки, тогда как среди учащихся с высокими показателями одни получат положительные оценки, а другие, из-за недостаточной мотивации, отсутствия интереса или других неблагоприятных условий, не сдадут экзамена. В этой ситуации будет наблюдаться большая вариативность выполнения критериальной деятельности у учащихся с высокими тестовыми показателями, чем с низкими. Такое условие в двумерном распределении называется гетероскедастичностью." Пирсоновская корреляция предполагает гомо-скедастичность, т. е. одинаковую вариабельность во всем диапазоне двумерного распределения. В приведенном примере двумерное распределение было бы веерообразным - широким в верхнем конце и узким в нижнем. Уже визуального анализа двумерного распределения обычно бывает достаточно для установления характера связи между тестом и критерием. Таблицы ожидаемых результатов и диаграммы ожидаемого отсева также правильно показывают относительную эффективность теста на разных уровнях.

Величина коэффициента валидности. Какова должна быть величина коэффициента валидности? На этот вопрос нет единого ответа, так как при интерпретации коэффициента валидности нужно учитывать ряд сопутствующих обстоятельств. Разумеется, корреляция должна быть достаточно высокой для того, чтобы быть статистически значимой на приемлемом уровне, таком как 0,01 или 0,05 (см. главу 4). Иными словами, прежде чем делать какие-либо выводы о валидности теста, нужно иметь обоснованную уверенность в том, что полученный коэффициент валидности не появился в результате случайных колебаний выборки из генеральной совокупности с нулевой корреляцией.

Установив значимую корреляцию между тестовыми показателями и критерием, необходимо еще оценить ее величину в аспекте тех целей, ради которых и создавался данный тест. Если мы собираемся предсказывать точное значение критериального показателя у конкретных лиц (скажем, средний балл студента в колледже), коэффициент валидности можно интерпретировать исходя из стандартной ошибки оценки (standard error of estimate, или сокращенно, SE„ ), которая аналогична ошибке измерения, обсуждавшейся в связи с надежностью. Напомним, что ошибка измерения указывает допустимый предел возможной ошибки индивидуального показателя в результате ненадежности теста. Аналогично этому, ошибка оценки указывает допустимый предел возможной ошибки прогнозируемой величины индивидуального критериального показателя в результате недостаточной валидности теста.

Ошибка оценки вычисляется по следующей формуле:

гд - е г 1, - квадрат коэффициента валидности и SD V - стандартное отклонение критериального показателя. Заметим, что при полной валидности (г п, = 1,00) ошибка оценки была бы равна нулю. С другой стороны, если валидность теста равна нулю, то ошибка оценки достиг ает величины стандартного отклонения распределения критерия \ s E es , = SD y -v/l - 0 = SD y ). При этих условиях вероятность правильного прогноза не

Термины «гомоскедастичность» и «гетероскедастичность» (букв, «одинаковая рассеянность» и «Неодинаковая рассеянность» соответственно) введены в статистику А. А. Чупровым. - Примеч. н «Уч. ред.

Часть 2. Технические и методологические принципы

превышает вероятности случайного угадывания, и диапазон ошибки предсказания равен ширине распределения критериальных показателей. Между этими двумя пределами И будут заключаться ошибки оценки, соответствующие тестам с варьирующей валидностью.

Обращаясь к формуле для SE a , покажем, что выражение Jl-/Ј позволяет определить величину ошибки оценки относительно ошиб ки простого угадывания (т. е. при нулевой валидности). Иными словами, если ^|1 - г£ = 1,00, то ошибка оценки столь же велика, как и при случайном угадывании критериального показателя у конкретного испытуемого. Использование такого теста не дало бы нам никакого выигрыша в точности предсказания. Если же коэффициент валидности равен 0,80, Tajl-rЈ =0,60, и максимальная ошибка составляет 60 % от величины той, которая была бы при случайном угадывании. Выражаясь иначе, использование этого теста позволяет нам предсказывать индивидуальные результаты в критериальной деятельности с пределом ошибки, который на 40 % меньше, чем в случае угадывания.

Может показаться, что даже при такой необычайно высокой валидности, как 0,80, ошибка предсказываемых показателей довольно значительна. Если бы главной функцией психологических тестов было предсказание точного положения индивидуума в критериальном распределении, такая перспектива выглядела бы совершенно обескураживающей. Когда мы рассматриваем тесты в аспекте ошибки оценки, большинство из них представляются не особенно эффективными. Однако чаще всего при тестировании нет необходимости предсказывать точный результат критериальной деятельности каждого обследуемого человека, но требуется лишь определить, кто из них превзойдет некоторый минимальный стандарт выполнения, или критический показатель выбранной в качестве критерия деятельности. Каковы шансы у Мери Грин закончить медицинское училище, у Тома Хиггинса усвоить курс вычислительной математики, а у Беверли Брюса преуспеть в качестве астронавта? Кто из поступающих на работу, скорее всего, будет хорошим клерком, страховым агентом, механиком? Такая информация полезна не только для профотбора, но и для профориентации. Например, студенту полезно и выгодно знать, что у него хорошие шансы благополучно окончить юридический факультет, даже если мы не можем с уверенностью сказать, будет ли его средний балл 74 или 81.

Тест может заметно повысить свою предсказуемостную эффективность, если для него будет установлена любая значимая корреляция с критерием, какой бы низкой она ни была. При некоторых обстоятельствах валидность порядка 0,20-0,30 уже оправдывает включение теста в программу отбора. Для многих целей тестирования оценивание тестов с точки зрения их стандартной ошибки оценки является неоправданно строгим. В большинстве случаев должны применяться другие способы оценивания тестов, те, которые бы учитывали типы решений, принимаемых на основе их результатов. О некоторых из них пойдет речь в следующем разделе.

Как и оценки надежности, оценки валидности теста получают в форме коэффициентов корреляции. Однако в отличие от интерпретации коэффициента надежности при интерпретации коэффициента корреляции как оценки валидности принимают во внимание гораздо больше и теоретических, и практических соображений. В целях иллюстрации мы ограничимся здесь обсуждением интерпретации доказательств валидности по критерию, поскольку именно с этой ситуацией чаще всего сталкивается большинство индустриально-организационных психологов.
Коэффициент корреляции.
При обсуждении надежности теста было отмечено, что большинство психологов сочтут приемлемой оценку надежности в диапазоне свыше 0,80-0,90, при условии, что она основана на компетентно проведенном исследовании. При интерпретации коэффициентов валидности по критерию нет таких четких ориентиров. За те примерно 90 лет, в течение которых проводится тестирование при приеме на работу, эти коэффициенты редко превышали r = 0,50; этот показатель кажется довольно низким по сравнению с коэффициентами надежности, превышающими 0,80 или даже 0,90. Однако следует помнить, что коэффициент надежности, в сущности, является мерой корреляции между двумя оценками одной и той же характеристики. В отличие от этого, коэффициент валидности по критерию является оценкой корреляции между двумя различными показателями - результатами теста и какой-либо другой оценкой поведения.
Поведение в целом определяется сложным комплексом множества причин, и какой бы то ни было тест может, по-видимому, оценить лишь немногие из релевантных для Данного поведения прогностических факторов. Например, для прогнозирования абсентеизма часто используют оценки удовлетворенности работой, но все работающие люди знают, что решение не пойти на работу в один из дней может и не иметь никакого отношения к удовлетворенности работой или к ее отсутствию. Если воспользоваться терминологией главы 2, то удовлетворенность работой может быть одним из детерминантов абсентеизма, но ее влиянием объясняется лишь небольшая часть дисперсии этой критериальной переменной.
Процентная доля дисперсии критерия, которая объясняется с помощью результатов данного теста, называется коэффициентом детерминированности. Математически этот показатель вычисляется путем возведения в квадрат коэффициента корреляции между тестом и критерием. Если между тестом и оценкой выполнения работы (критерием) существует корреляция с r = 0,50, то коэффициент детерминированности будет равен 0,25 (25 %). Другими словами, около 75 % (1,00 - 0,25) различий в выполнении работы не учитывается, поскольку существует много других факторов, которые не измеряются данным тестом, но влияют на то, как люди выполняют свою работу.
Детеминанты.
Диапазон значений коэффициента детерминированности ограничен, и в настоящее время верхним пределом является значение примерно 25 %. Поэтому может показаться, что не имеет смысла направлять значительные ресурсы на конструирование, доказательство валидности и использование тестов в организациях с целью прогнозирования. Однако здесь идет речь о статистическом прогнозе, то есть о прогнозе, который определяется величиной дисперсии критерия (такого как выполнение работы), объясняющейся влиянием предсказывающей переменной (результат теста).
На практике индустриально-организационные психологи часто считают, что тест с коэффициентом валидности по критерию 0,30 (9 % дисперсии) полезен и во многих ситуациях его использование повышает эффективность принятия решений. Концепция полезности релевантна измерениям любого типа, проводимым для принятия любых кадровых решений, но лучше всего это видно на примере показателя успешности приема на работу в организацию.
Термин показатель успешности приема на работу обозначает долю или процент принятых на работу сотрудников, которые успешно справляются со своими задачами. Этот процентный показатель может снижаться за счет ошибок при отборе, относящихся к двум типам. Если приняты на работу люди, которые работают плохо, то это ошибка ложного положительного отбора. Противоположная ситуация, когда принято решение не нанимать людей, которые в дальнейшем работали бы хорошо, - это ошибка ложного отрицательного отбора. Связь между этими ошибками и правильными решениями о приеме на работу показана на рис. 3.5.

Черта отсекаемая по прогнозу (predictor cutoff score)

На графике, представленном на рис. 3.5, показана связь между результатами отборочного теста, использованного при приеме на работу (предсказывающая переменная), и общей оценкой выполнения работы (критерием). В целях иллюстрации предполагается, что все новые сотрудники, принятые на работу в эту компанию в данный период времени, проходили тестирование. Однако результаты теста не использовались для отбора, а были зафиксированы и сохранены, чтобы воспользоваться ими впоследствии, когда появятся оценки выполнения работы этими сотрудниками. (Это, конечно, та же самая процедура, что и составление прогноза валидности по критерию.)
Имеются еще два предположения о ситуации, которую отображает график, представленный на рис. 3.5. Во-первых, предполагается, что если бы тест использовался для отбора сотрудников, то кандидаты, получившие менее 50 баллов, не были бы приняты на работу. Пятьдесят баллов - это черта отсекания по прогнозу. Во-вторых, предполагается, что сотрудники, получившие оценку выполнения работы выше среднего балла (3) шкалы, считаются в организации успешными, а остальные таковыми не считаются. Оценка 3 - это черта отсекания по критерию.
С учетом этой информации о графике на рис. 3.5 становится яснее смысл ошибок ложного положительного и ложного отрицательного отбора и правильных решений о приеме на работу. Каждая точка точечного графика отображает положение одного сотрудника с точки зрения результата теста и оценки выполнения работы. Точки, попавшие в квадрант IV, относятся к сотрудникам, которые получили баллы выше черты отсекания по прогнозу и должны были стать хорошими работниками, но им выставлены низкие оценки выполнения работы; отсюда и название «ложный положительный отбор».
Сотрудники, положение которых отображается точками из квадранта I, попали в противоположную ситуацию. Если бы при приеме на работу учитывались результаты теста, то их бы не наняли, но их показатели выше черты отсекания по критерию; отсюда название «ложный отрицательный отбор». Наконец, точки из квадрантов II и III отображают положение сотрудников, у которых оценки выполнения работы соответствуют прогнозу и относительно которых были приняты правильные решения (истинный положительный или отрицательный отбор).
При принятии решений об отборе люди в организациях сосредоточиваются на случае, представленном на рис. 3.5 в квадранте II - это ситуация, когда успешных сотрудников удается выявить заранее. То, насколько использование отборочного теста позволяет увеличить количество случаев, попадающих в квадрант II по сравнению с квадрантом IV, зависит от трех факторов:

1. Показатель успешности приема на работу без использования теста (иногда его называют базовым уровнем).
2. Коэффициент валидности теста по критерию.
3. Соотношение числа кандидатов на каждое рабочее место и количества вакансий (отборочное соотношение).

Число кандидатов, из которых надо выбрать одного человека для заполнения одного рабочего места, называется отборочным соотношением (selection ratio). Если это соотношение равно 1:1 (всего один кандидат на каждое место), то не надо принимать решения и нет оснований использовать тест. С другой стороны, если кандидатов больше, чем рабочих мест, то надо принимать решения. Полезность конкретного теста определяется тем, поможет ли он тому, кто принимает решения, лучше справиться со своей задачей.
Опубликованы таблицы, с помощью которых можно сразу же ответить на вопрос о полезности теста, если известны текущий показатель успешности приема на работу, коэффициент валидности по критерию отборочного теста и отборочное соотношение. На рис. 3.6 приведена выдержка из таблиц Тейлора - Расселла (Taylor amp; Russel, 1939). На этом рисунке отражена следующая ситуация:

1. Показатель успешности приема на работу без использования нового теста равен 50 % (успешно работает половина принятых на работу сотрудников).
2. С помощью исследования валидности установлено, что критериальная валидность нового теста r = 0,41 (с помощью теста можно выявить около 17 % различий в выполнении данной работы).
3. Отборочное соотношение равно 50 % (в среднем на каждое вакантное место претендуют два кандидата).

Как показывает жирная черная линия на рис. 3.6, компания, которая должна нанять только половину людей, претендующих на рабочие места (отборочное соотношение 50 %), может увеличить свой показатель успешности от 50 % до более чем 65 %, используя отборочный тест с коэффициентом критериальной валидности r = 0,41. Такое повышение показателя успешности может привести к существенной экономии средств, которая обсуждалась в статье Шмидта и Хантера (Schmidt amp; Hunter, 1981) (отрывок из нее приведен в начале этой главы в рубрике «Психология в действии»).

Предсказывающее значение r для различных отборочных соотношений при условии, что 50 % сотрудников из группы сочтены работающими успешно

Из статьи Н. С. Taylor and J. Т. Russell, «The Relationship of Validity Coefficients to the Practical Effectiveness of Tests in Selection: Discussion and Tables». Journal of Applied Psychology, 1939, 23, 565-578.

Таблицы Тейлора-Расселла уже более 50 лет помогают индустриально-организационным психологам и другим специалистам оценивать полезность тестов. Чтобы подчеркнуть историческую ценность этих таблиц, здесь приведен один из первых графиков; в настоящее время обычно используются затабулированные данные. В таблицах, разработанных Гизелли и Брауном (Ghiselli amp; Brown, 1955), непосредственно показано процентное увеличение эффективности работы при различных значениях коэффициента валидности. Таблицы Нейлора и Шайна (Naylor amp; Shine, 1965) особенно полезны в тех случаях, когда невозможно провести четкое различие между успехом и неудачей в работе, из-за чего нельзя пользоваться таблицами Тейлора-Расселла.
Общая валидность теста

Резюмируя сказанное выше, повторим, что доказательства валидности выводов, которые можно сделать из результатов теста, традиционно делятся на три категории. Это не означает, что существуют различные типы валидности; различные подходы к сбору доказательств валидности любого данного теста должны приводить к одинаковым выводам. Идеальным способом конструирования теста является последовательное использование на разных этапах разработки теста нескольких различных процедур.

Таким образом, валидиость «встроена» в тест с самого начала, а не появляется на последних этапах разработки теста... Процесс доказательства валидности начинается с определения черт или конструктов, которые выводятся из психологической теории, предыдущих исследований или систематичных наблюдений и анализа областей реального жизненного поведения... Затем подготавливают пункты теста, соответствующие определениям конструктов. За этим этапом следует эмпирический анализ пунктов и отбор наиболее валидных пунктов из первоначальной их совокупности... На последнем этапе проводится доказательство валидности... по отношению к внешнему критерию, взятому из реальной жизни» (Anastasi, 1989).