Надежность и валидность измерения. Оценка валидности методики может носить количественный и качественный характер Вопросы и задания
К числу основных критериев оценки психодиагностических методик относится надёжность и валидность. Большой вклад в разработку этих понятии внесли зарубежные психологи (А. Анастази, Е. Гизелли, Дж. Гилфорд, Л. Кронбах, Р. Торндайк и Е. Хаген и др.). Ими были разработаны как формально-логический, так и математико-статистический аппарат (прежде всего корреляционный метод и фактический анализ) обоснования степени соответствия методик отмеченным критериям. В психодиагностике проблемы надёжности и валидности методик тесно взаимосвязаны, тем не менее, существует традиция раздельного изложения этих важнейших характеристик. Следуя ей, начнём с рассмотрения надёжности методик.
НАДЁЖНОСТЬ
В традиционной тестологии термин "надёжность " означает относительное постоянство, устойчивость, согласованность результатов теста при первичном и повторном его применении на одних и тех же испытуемых. надёжность методики - это такой критерий, который говорит о точности психологических измерений, т.е. позволяет судить о том, насколько внушают доверие полученные результаты.
Важной проблемой практической диагностики является выяснение негативных факторов, влияющих на точность измерений:
1. нестабильность диагностируемого свойства;
2. несовершенство диагностических методик
3. меняющаяся ситуация обследования
4. различия в манере поведения экспериментатора
5. колебания в функциональном состоянии испытуемого
6. элементы субъективности в способах оценки и интерпретации результатов
Разновидностей надёжности методик так же много, как и условий, влияющих на результаты диагностических испытаний.
Так как все виды надёжности отражают степень согласованности двух независимо полученных рядов показателей, то математико-статистический приём, с помощью которого устанавливается надёжность методики, - это корреляции (по Пирсону или Спирмену, см гл. XIV). Надёжность тем выше, чем больше полученный коэффициент корреляции приближается к единице, и наоборот.
основной упор делается на работы К.М. Гуревича (1969, 1975, 1977, 1979), который, проведя тщательный анализ зарубежной литературы по этой проблеме, предложил толковать надёжность как:
1. надёжность самого измерительного инструмента,
2. стабильность изучаемого признака;
3. константность, т.е. относительную независимость результатов от личности экспериментатора.
Показатель, характеризующий измерительный инструмент, предлагается называть коэффициентом надёжности, показатель, характеризующий стабильность измеряемого свойства, - коэффициентом стабильности; а показатель оценки влияния личности экспериментатора - коэффициентом константности.
ВАЛИДНОСТЬ
Валидность по своей сути - это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность. Проверка валидности методики называется валидизациеи.
Валидность в первом ее понимании имеет отношение к самой методике, т.е. это валидность измерительного инструмента. Такая проверка называется теоретической валидизациеи. Валидность во втором понимании уже относится не столько к методике, сколько к цели ее использования. Это прагматическая валидизация. Итак, при теоретической валидизации исследователя интересует само свойство, измеряемое методикой. Это, по существу, означает, что проводится собственно психологическая валидизация. При прагматической валидизации суть предмета измерения (психологического свойства) оказывается вне поля зрения.
что тест измеряет:
1. методика признавалась валидной, так как то, что она измеряет, просто "очевидно";
2. доказательство валидности основывалось на уверенности исследователя в том, что его метод позволяет "понять испытуемого";
3. методика рассматривалась как валидная (т.е. принималось утверждение, что такой-то тест измеряет такое-то качество) только потому, что теория, на основании которой строилась методика, "очень хорошая".
Провести теоретическую валидизацию методики - это показать, действительно ли методика измеряет именно то свойство, качество, которое она, по замыслу исследователя, должна измерять. Доказывается не только путём сопоставления с родственными показателями, а также и с теми, где исходя из гипотезы значимых связей не должно быть. Таким образом, для проверки теоретической валидности важно, с одной стороны, установить степень связи с родственной методикой (конвергентная валидность) и отсутствие этой связи с методиками, имеющими другое теоретическое основание (дискриминантная валидность).
Для проведения прагматической валидизации методики, т.е. для оценки ее эффективности, действенности, практической значимости, обычно используется независимый внешний критерий - показатель проявления изучаемого свойства в повседневной жизни. Таким критерием может быть успеваемость (для тестов способностей к обучению, тестов достижений, тестов интеллекта), производственные достижения (для методик профессиональной направленности), эффективность реальной деятельности - рисования, моделирования и т.д. (для тестов специальных способностей), субъективные оценки (для тестов личности).
Американские исследователи Тиффин и Маккормик (1968), проведя анализ используемых для доказательства валидности внешних критериев, выделяют четыре их типа:
1) критерии исполнения (в их число могут входить такие, как количество выполненной работы, успеваемость, время, затраченное на обучение и т.п.);
2) субъективные критерии (обычно субъективные критерии получают с помощью интервью, опросников, анкет);
3) физиологические критерии (замеряется частота пульса, давление крови, электросопротивление кожи, симптомы утомления и т.д.);
4) критерии случайностей (применяются, когда цель исследования касается, например, проблемы отбора для работы таких лиц, которые менее подвержены несчастным случаям).
Оценка валидности методики может носить количественный и качественный характер.
№ 19 Виды валидности. Измерение валидности
Вопрос о валидности до последнего времени представляется одним из самых сложных. Наиболее укоренившимся определением этого понятия является то, которое приведено в книге А. Анастази: «Валидность теста - понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает»
Валидность по своей сути - это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность, практическая полезность.
По этой причине не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сторону валидности хочет рассмотреть исследователь, используются и разные способы доказательства. Другими словами, понятие валидности включает в себя разные ее виды, имеющие свой особый смысл. Проверка валидности методики называется валидизацией.
Очевидная валидность - описывает представление о тесте, сложившееся у испытуемого. Тест должен восприниматься обследуемым как серьезный инструмент познания его личности, чем-то схожий с вызывающим уважение и в какой-то мере трепет медицинским диагностическим инструментарием. Очевидная валидность приобретает особое значение в современных условиях, когда представление о тестах в общественном сознании формируется многочисленными публикациями в популярных газетах и журналах того, что можно назвать квазитестами, с по- мощью которых читателю предлагается определить все, что угодно: от интеллекта до совместимости с будущим супругом.
Конкурентная валидность оценивается по корреляции разработанного теста с другими, валидность которых относительно измеряемого параметра установлена. П. Клайн отмечает, что данные о конкурентной валидности полезны тогда, когда есть неудовлетворительно работающие тесты для измерения некоторых переменных, а новые создаются для того, чтобы улучшить качество измерения. В самом деле, если уже существует эффективный тест, то для чего нужен такой же новый?
Прогностическая валидность устанавливается с помощью корреляции между показателями теста и некоторым критерием, характеризующим измеряемое свойство, но в более позднее время. Например, прогностическая валидность какого- либо теста интеллекта может быть показана корреляцией его показателей, полученных у испытуемого в возрасте 10 лет, с академической успеваемостью в период окончания средней школы. Л. Кронбах считает прогностическую валидность наиболее убедительным доказательством того, что тест измеряет именно то, для чего он был предназначен. Основная проблема, с которой сталкивается исследователь, пытающийся установить прогностическую валидность своего теста, состоит в выборе внешнего критерия. В особенной степени чаще всего это касается измерения личностных переменных, где подбор внешнего критерия - чрезвычайно сложная задача, решение которой требует немалой изобретательности. Несколько проще обстоит дело при определении внешнего критерия для когнитивных тестов, однако и в этом случае исследователю приходится «закрывать глаза» на многие проблемы. Так, академическая успеваемость традиционно используется в качестве внешнего критерия при валидизации тестов интеллекта, но в то же время хорошо известно, что успехи в обучении далеко не единственное свидетельство высокого интеллекта.
Инкрементная валидность имеет ограниченное значение и относится к случаю, когда один тест из батареи тестов может иметь низкую корреляцию с критерием, но не перекрываться другими тестами из этой батареи. В этом случае данный тест обладает инкрементной валидностью. Это может быть полезно при проведении профотбора с помощью психологических тестов.
Дифференциальная валидность может быть проиллюстрирована на примере тестов интересов. Тесты интересов обычно коррелируют с академической успеваемостью, но по-разному для разных дисциплин. Значение дифференциальной валидности, так же как и инкрементной, ограничено.
Содержательная валидность определяется через подтверждение того, что задания теста отражают все аспекты изучаемой области поведения. Обычно она определяется у тестов достижений (смысл измеряемого параметра полностью ясен!), которые, как уже указывалось, тестами собственно психологическими не являются. На практике для определения содержательной валидности подбираются эксперты, которые указывают, какая область (области) поведения наиболее важна, например, для музыкальных способностей, а затем, исходя из этого, генерируются задания теста, которые вновь оценивают эксперты.
Конструктная валидность теста демонстрируется полным, насколько это возможно, описанием переменной, для измерения которой предназначается тест. По сути дела, конструктная валидность включает в себя все подходы к определению валидности, которые были перечислены выше. Кронбах и Мил (Cronbach & Meehl,1955), которые ввели в психодиагностику понятие конструктной валидности, пытались решить проблему отбора критериев при валидизации теста. Они подчеркивали, что во многих случаях ни один отдельно взятый критерий не может служить для валидизации отдельного теста. Можно считать, что решение вопроса о конструктной валидности теста представляет собой поиск ответа на два вопроса:
1) существует ли реально некоторое свойство; 2) надежно ли измеряет данный тест индивидуальные различия по этому свойству. Вполне понятно, что с конструктной валидностью связана проблема объективности в интерпретации результатов по изучению конструктной валидности, однако эта проблема общепсихологическая и выходит за рамки валидности.
Не существует какого-либо единичного показателя, с помощью которого устанавливается валидность психологического теста. В отличие от показателей надежности и дискриминативности, нельзя осуществить точные статистические расчеты, подтверждающие валидность методики. Тем не менее разработчик должен представить весомые доказательства в пользу валидности теста, что потребует от него психологических знаний и интуиции.
валидность ≤ надежность.
Это означает, что валидность теста не может превышать его надежность.
Данное соотношение, однако, неверно трактовать как указание на прямую пропорциональную связь валидности и надежности. Повышение надежности отнюдь не обязательно приводит к повышению валидности. В терминах А. Анастази валидность определяется репрезентативностью теста относительно измеряемой области поведения. Если эта область поведения складывается из разнообразных феноменов, то содержательная валидность теста автоматически требует представленности в нем моделей всех этих разнообразных феноменов. Возьмем глобальное понятие «речевая способность» (этому психолингвистическому термину в традиционной тестологии соответствует термин «вербальный интеллект»). Сюда относятся такие относительно независимые друг от друга навыки, как навыки письма и чтения. Если заботиться о содержательной валидности соответствующего теста, то нужно ввести в него группы заданий на проверку этих довольно разных по своему операциональному составу компонентов вербального интеллекта. Вводя разнородные пункты и субшкалы (субтесты), мы обязательно сокращаем внутреннюю согласованность, одномоментную надежность теста, но зато добиваемся существенного повышения валидности. Таким образом, для расширения области применения теста психодиагност должен избегать излишнего повышения внутренней согласованности. Одновременно с этим снижением внутренних корреляций между различными пунктами теста обязательно исчезает отрицательный эксцесс на кривой распределения тестовых баллов, и она все более приближается по форме к нормальной кривой.
Эмпирическая валидность. Если в случае с содержательной валидностью оценка теста производится за счет экспертов (устанавливающих соответствие заданий теста содержанию предмета измерения), то эмпирическая валидность измеряется всегда с помощью статистического коррелирования: подсчитывается корреляция двух рядов значений - баллов по тесту и показателей по внешнему параметру, избранному в качестве критерия валидности.
Прагматические традиции западной тестологии привязывали эмпирическую валидность теста к внешним для психологии социально-прагматическим критериям. Эти критерии являются показателями, обладающими непосредственной ценностью для определенных областей практики. Практика всегда имеет целью либо повысить, либо понизить эти показатели. Например, в области педагогической психологии это «успеваемость» (которую надо повысить), в психологии труда это «производительность труда» и «текучесть кадров», в медицине - «состояние здоровья пациента». Ориентируясь непосредственно на эти категории, психолог, пытающийся скоррелировать результаты теста с этими показателями, фактически решает сразу две задачи: задачу измерения валидности и задачу измерения практической эффективности своей психодиагностической программы. Если получен значимый коэффициент корреляции, то можно считать, что решены с позитивным результатом сразу обе эти задачи. Но если корреляции не обнаружено, то остается неопределенность: либо невалидна сама процедура (тестовый балл не отражает, например, стрессоустойчивость оператора), либо неверна гипотеза о наличии причинно-следственной связи между психическим свойством и социально значимым показателем (стрессоустойчивость не влияет на процент аварийных ситуаций).
Таким образом, социально-прагматические критерии являются комплексными: они позволяют измерить валидность-эффективность, но не каждое из этих двух свойств теста отдельно. На практике психолога часто ожидает и еще более сложная ситуация, когда заказчик требует от психолога на основании полученного диагноза сразу же определенных мер по вмешательству в ситуацию (отбор, консультирование, обучение и т. п.). В этом случае повышение показателей (достоверное по сравнению с контрольной группой) доказывает одновременно и валидность-эффективность диагностики, и эффективность самого вмешательства. А отрицательный результат дает еще большую неопределенность, так как оказывается невозможным отделить неэффективность вмешательства от низкой валидности диагностики.
Процедура эмпирической валидизации. Организация выборки при эмпирической валидизации зависит от временного статуса критерия. Если этот критерий - событие в прошлом (ретроспективная валидизация), то к участию в психодиагностическом обследовании достаточно привлечь только тех испытуемых, которые оказались на экстремальных полюсах по этому критерию. В результате применяется метод экстремальных (контрастных) групп. Коррелирование с суммарным баллом по тесту оценивается с помощью бисериального коэффициента по формуле.
Если критерий - будущее событие (проспективная валидизация), то выборка должна быть составлена с запасом - с учетом вероятного объема экстремальных групп в будущем. Например, нужно выяснить, позволяет ли диагностика темперамента прогнозировать повышенный риск психосоматических заболеваний (гипертония, язва, астма и т. п.). Пусть на основании эпидемиологических исследований известно, что в течение трех лет из. 1000 здоровых людей этими болезнями заболевают 57 человек. Это означает, что превентивной (предупреждающей) диагностикой должно быть охвачено около 2000 человек, чтобы получить численность «высокой» группы (заболевших) порядка 100 человек. Проспективная валидизация выявляет прогностическую эффективность диагностической процедуры. Высокая прогностическая валидность доказывает как валидность самого измерения, так и наличие предполагаемой причинной связи.
№ 20 Достоверность как специальная разновидность валидности применительно к тестовым самоотчетам. Методы борьбы с социальной желательностью.
Особой разновидностью валидности является ДОСТОВЕРНОСТЬ. Речь идет о сознательных или бессознательных искажениях, которые вносит в тестовые результаты сам испытуемый, руководствуясь в ходе теста особой мотивацией, отличающейся от той, которая присуща ему в реальном поведении. Способность теста защищать информацию от МОТИВАЦИОННЫХ ИСКАЖЕНИЙ и есть достоверность теста. Особенно, остро проблема достоверности стоит в случае тест-опросников, которые допускают больше свободы в выборе испытуемым любого варианта ответа. Типичный прием обеспечения достоверности - наличие в тест-опросниках ШКАЛ ЛЖИ, введение вопросов «не про что», введение параллельных вопросов, вопросов дублей. Эти шкалы основываются главным образом на феномене СОЦИАЛЬНОЙ ЖЕЛАТЕЛЬНОСТИ - стремлении испытуемых давать в ходе тестирования социально одобряемую информацию. Если испытуемый набрал по шкале лжи балл выше критического, то его протокол объявляется недостоверным и ему предлагается либо выполнить данный тест еще раз более откровенно, либо выполнить другой тест. Многие более специфичные ловушки, направленные на измерение достоверности, часто входят как компонент в структуру конкретного теста, а иногда даже не подлежат разглашению как элемент ноу-хау (информационного изобретения) и профессиональной тайны, разделяемой разработчиками только с лицензированными пользователями методики, подписавшими особое лицензионное соглашение при приобретении теста. Достоверность тестирования тесно связана со степенью доверительности общения, которую смог психолог установить с данным испытуемым. Здесь полезно различать две диагностические ситуации: консультативную (СИТУАЦИЯ КЛИЕНТА) и аттестационную (СИТУАЦИЯ ЭКСПЕРТИЗЫ). В первом случае испытуемый участвует в тестировании на добровольной основе и сам заинтересован получить рекомендации по результатам тестирования (как, например, в профориентационной консультации). Во втором случае тестирование проводится по инициативе педагога или администрации, психолога, родителей, т. е. других лиц, и эти другие больше заинтересованы в результатах, чем сам испытуемый. Понятно, что в аттестационной ситуации вопрос о достоверности особенно актуален. И опросники, не снабженные шкалами лжи, использовать в таких ситуациях бесполезно. Наоборот, в ситуации клиента могут быть использованы такие методики, на которые испытуемый заведомо будет отвечать некорректно в ситуации экспертизы. Вопросы достоверности и стандартизации тесно связаны между собой. Очень часто даже объективные тесты достижений, если они проходили стандартизацию на добровольцах (в ситуации консультации), должны быть рестандартизированы ля того, чтобы их использовали в аттестационной ситуации.
№ 21 Технология создания и адаптации методик
Создание оригинальной методики или адаптация зарубежной методики не могут сводиться только к проверке (или перепроверке) отдельных психометрических свойств - репрезентативности, надежности, валидности, достоверности - в произвольной последовательности. В одних случаях целесообразно начинать с одного этапа работы, в других - с другого. В действительности любая реальная ситуация использования теста не является ситуацией только «конструирования» или только «применения». Можно без преувеличения сказать, что существует континуум между крайними полюсами:
«конструирование» __________________ «применение»
и каждая ситуация до определенной ступени удалена от обоих полюсов. Трудно назвать такой случай, когда бы конструирование совершенно нового теста начиналось с нуля, «на пустом месте». Также трудно найти и такие случаи, когда все аспекты тестирования были бы полностью неизменными и воспроизводили бы уже совершенно исследованную нормативную ситуацию применения готового теста. Но все это многообразие ситуаций, всю комбинаторику независимых параметров психологи-практики, как правило, пытаются свести к двум-трем типовым ситуациям.
1. Ситуация применения. Тест кем-то разработан (возможно, В: других социокультурных условиях), известны тестовые нормы, полученные на представителях данной языковой культуры (несоответствие выборки стандартизации и выборки применения по половозрастной структуре и профессионально-культурным признакам признается несущественным).
2. Ситуация адаптации. Тест кем-то разработан – проверены надежность и валидность, но отсутствуют тестовые нормы (как правило, отсутствуют вообще для любых представителей данной языковой культуры). Задача адаптации сводится, таким образом, к построению тестовых норм.
3. Ситуация конструирования. Есть концепция психического свойства, но нет процедуры его измерения, удовлетворяющей требованиям места, времени, возможностям количественного анализа и ограничениям прочих ресурсов. Надо придумать измерительную процедуру, проверить ее надежность и валидность, построить тестовые нормы.
Остановимся прежде всего на вопросах адаптации так называемых переводных тестов. Путь быстрого пополнения репертуара методик за счет множества готовых зарубежных методик кажется многим психологам наиболее экономичным, кратчайшим путем к надежной и валидной психодиагностике. Но ведь если при этом адаптация сводится только к построению нормативного распределения тестовых баллов, то это означает, что валидность и надежность адаптированной методики в новых условиях принимаются на веру, а теоретическая концепция автора теста и содержание использованных им критериев валидности просто переносятся в наши условия без изменений (ведь для любой, в том числе и для невалидной и ненадежной методики, можно получить распределение). Подобный перенос дает пренебрежимые погрешности только для тестирования относительно элементарных психических свойств (таких, как свойства нервной системы, функциональные состояния, сенсомоторные параметры, элементарные когнитивные функции, причем с использованием объективных процедур (психофизиологическая регистрация, тесты с «физическими» критериями успеха и т. п.). При тестировании интегральных психических свойств личности и индивидуального сознания (черты, мотивы, установки, самооценка, общие способности, стиль общения, ценностные ориентации, интересы и т. п.), а также при употреблении любых лингвистических средств в самой процедуре тестирования (включая не только формулировки задач, вопросов; но и исходную формулировку инструкции к тесту) и использовании культурно-специфических критериев оценки правильности результата (определения шкального ключа) ограничиваться только сбором тестовых норм при адаптации - недопустимо!
Требуется серьезная эмпирическая работа по проверке надежности и валидности в новых социокультурных условиях, работа, фактически соответствующая по своему объему созданию оригинальной методики. С этой точки зрения, заимствование зарубежных общедиагностических тестов способностей, черт характера, интересов и т. п. вовсе не оказывается кратчайшим путем к психодиагностике. Этот путь кажется короче только тем, кто сознательно или по неведению пренебрегает принципами психометрики.
Перечислим необходимые этапы эмпирико-статистической работы при адаптации многомерного переводного тест-опросника.
1. Анализ внутренней валидности, внутренней согласованности пунктов, из которых состоит тест-опросник. Этот анализ призван показать, что существует некое (еще неясно, какое именно) общее диагностическое свойство, лежащее на пересечении всех эмпирических индикаторов (в центре «пучка» скоррелированных пунктов-векторов). Такой анализ обязателен по отношению ко всем тестовым шкалам, полученным с помощью факторного анализа, например к тест-опросникам EPI Айзенка и 16PF Кеттелла. А вот к опроснику «локус контроля» или ко многим основным клиническим шкалам MMPI требование внутренней согласованности применять не обязательно, так как пункты в эти шкалы подбирались по внешнему критерию и не связаны в один «пучок». Анализ внутренней согласованности может быть применен и к одномерным, и к многомерным тестам. В первом случае достаточно иметь настольный калькулятор. Для многомерных тестов необходимо использование специальной компьютерной программы «Анализ пунктов».
2. Проверка устойчивости к перетестированию. Эта проверка совершенно необходима при диагностике свойств, по отношению к которым теоретически ожидается инвариантность во времени. Анализ ретестовой надежности может быть (так же как анализ надежности согласованности) совмещен с исследованием информативности отдельных пунктов теста, а также, возможно, и устойчивости отдельных пунктов. Без сведений о ретестовой надежности психолог не имеет права использовать тест для построения любого элементарного статического экстраполирующего прогноза.
3. Анализ корреляций с релевантным внешним критерием. Этот этап адаптации совершенно необходим, если тест разрабатывался изначально как критериально-ориентированный, т. е. отбор пунктов производился на основании их корреляций с каким-то критерием валидности. Например, подобная работа проделана коллективом Ф. Б. Березина для сокращенной модифицированной версии MMPI (Березин Ф. Б. и др., 1976).
4. Проверка или рестандартизация тестовых норм. Об этом этапе уже говорилось выше. К сожалению, только этот этап работы по адаптации тестов до недавнего времени признавался всеми психологами как необходимый. Но и в этом случае далеко не всегда воспроизводилась необходимая статистическая работа по проверке устойчивости полученного распределения тестовых баллов к расщеплению выборки.
5. Специфичный этап для многомерных тестов - проверка воспроизводимости структуры отношений между шкалами. Например, для теста Айзенка принципиальна ортогональность, статистическая независимость факторов «экстраверсия - интроверсия» и «нейротизм - стабильность». На воспроизводимости структуры связей шкал между факторами 16PF основывается корректность подсчета вторичных факторов (Ямпольский Л. Г., 1981; Мельников В. М., Ямпольский Л. Г., 1985).
Даже беглый взгляд на пять перечисленных этапов позволяет убедиться в том, что адаптация зарубежных тестов мало чем уступает по объему эмпирико-статистической работы созданию оригинальных методик. Здесь было бы даже более адекватным использование не термина «адаптация», а выражения «исследование зарубежной методики на отечественной выборке».
№22 Требования к психометрической подготовке психолога
Для эффективного развития практической психодиагностики сегодня требуется резкое повышение психометрической культуры всех психологов, использующих измерительные психодиагностические методики. Методами рестандартизации теста, простейшими приемами проверки надежности и валидности должны владеть все психологи.
До сего дня сохранилось не вполне оправданное разделение (и даже противопоставление) психологов, считающих себя специалистами в области клинических методов, и психологов, считающих себя специалистами по тестированию. Но в большинстве реальных практических ситуаций требуется сочетание этих методов. Клинические, диалогические методы необходимы на начальных этапах работы в заданной области для того, чтобы психолог сумел построить ясное содержательное представление о предмете психодиагностики. Они также необходимы в особых спорных случаях, требующих индивидуализированного подхода. Но когда от психолога требуется проведение ускоренных, массовых обследований, обращение к некоторым стандартизованным, измерительным методикам становится неизбежным. Здесь требуется психометрическая грамотность в подборе такого рода методик: нельзя использовать методики, о которых неизвестно, какого рода психометрической отладке они подвергались.
Всеобщая психометрическая грамотность психологов не исключает выделения из их среды специалистов особого рода - психологов-психометристов, профессионально занимающихся психометрическим обеспечением психодиагностики. Поэтому целесообразно привести здесь два списка нормативных требований - к психологу и к психологу-психометристу.
Требования к психологу:
1. Психолог должен уметь квалифицированно разбираться с психометрической документацией в методической литературе по психодиагностике, должен знать, какие психометрические характеристики теста должны указать его разработчики, в какой степени эти психометрические характеристики соответствуют типу теста, с одной стороны, и актуальной задаче, для которой его требуется использовать, с другой. Например, в тех случаях, когда требуется использовать тест для прогноза со значительным упреждением, а сведений о проверке прогностической валидности не получено, тест не может считаться готовым для решения данной задачи.
2. Психолог должен правильно определить, в какой мере известные тестовые нормы по требующейся методике применимы в его ситуации с учетом контингента испытуемых и типа диагностической ситуации, существует ли ситуация «внутрикультурного переноса» и нужна ли рестандартизация тестовых норм. При необходимости психолог должен уметь самостоятельно практически произвести рестандартизацию, построив и проанализировав распределение тестовых баллов.
3. Психолог должен уметь самостоятельно собирать данные, проводить корреляционную обработку и измерять эмпирическую валидность эффективность методики по отношению к заданному критерию. При необходимости психолог должен уметь самостоятельно конкретизировать операциональные индикаторы критериальной информации.
4. Психолог должен уметь самостоятельно определять появление слишком высокой погрешности в результатах, утрату методикой необходимого уровня надежности, при этом проверять свою гипотезу статистически.
5. Психолог обязан вести двойную документацию: все копии протоколов он должен быть готов передать в головную методическую организацию (научно-академическую или отраслевую) для пополнения общего банка данных и совершенствования психометрических характеристик методики. Все модификации, вносимые в методику (формулировку инструкции, отдельных вопросов, последовательность предъявления), психолог должен согласовывать с головной методической организацией, так как самодеятельное введение на местах разнообразных частных модификаций влечет за собой утрату психометрической чистоты получаемых результатов, не ускоряет, а замедляет создание модификаций, адаптированных к специфическим условиям и обладающих необходимыми психометрическими свойствами. Тщательное соблюдение заданных методических стандартов - необходимый атрибут психометрической культуры психолога.
6. Психолог должен уметь самостоятельно выявлять и измерять уровень мотивационных искажений, обусловливающих фальсификацию тестовых данных испытуемыми, должен уметь корректно отсеивать недостоверные протоколы, статистически фиксировать достижение приемлемого уровня достоверности для массовых результатов в групповой психодиагностике.
7. Психолог должен овладевать приемами сложного количественного подсчета косвенных тестовых показателей, а также интегральных показателей, требующих агрегирования многообразной числовой информации. Он должен уметь поставить задачу программисту (или психологу-психометристу) для проведения расчетов на компьютере.
Психолог-психометрист должен уметь:
1. Самостоятельно планировать и осуществлять все этапы по психометрическому конструированию или адаптации психодиагностических методик: проверку надежности и валидности на уровне отдельных пунктов теста, отсев ненадежных и невалидных пунктов, построение и анализ распределения тестовых баллов, составление математических уравнений для прогнозирования или «решающего правила» для распознавания.
2. Организовывать хранение и обработку психодиагностических данных на компьютере, владеть навыками работы на компьютере в рамках стандартных операционных систем, знать структуру используемых в психодиагностике баз данных и уметь управлять базами данных.
3. Организовать работу психологов-психодиагностов по ведению документации к используемым методикам, по соблюдению методических стандартов, по сведению и интеграции результатов в общие банки психодиагностической информации.
4. Вести картотеку методик в рамках заданной области (отраслевой психологической службы), тщательно иерархизируя методики по уровню психометрической обеспеченности, вести библиотеку методических материалов и методических рекомендаций по использованию стандартизованных методик.
№23 Психодиагностические ситуации и задачи
Психодиагностические задачи можно различать с точки зрения того, кто и как будет использовать диагностические данные и какова ответственность психодиагноста в выборе способов вмешательства в ситуацию обследуемого.
· Данные используются специалистом-смежником для постановки непсихологического диагноза или формулирования административного решения. Эта ситуация типична для использования психодиагностических данных в рамках деятельности различных комиссий (административной, аттестационной, дисциплинарной). Психолог выносит суждение о специфических особенностях мышления, личности сотрудника, а руководство учреждения принимает решение, за которое психолог не несёт персональную ответственность. В данном случае психолог выступает в качестве эксперта, давая свою оценку наряду с прочими участниками. Он должен следить за тем, чтобы характер использования результатов не выходил за рамки, очерченные требованиями профессиональной этики. С этой целью документ, который готовит психолог для заказчика, должен содержать информацию об ограничениях в использовании результатов.
После надежности ключевым критерием оценки качества методик является валидность. Вопрос о валидности методики решается лишь после того, как установлена достаточная ее надежность, поскольку ненадежная методика не может быть валидной. Но самая надежная методика без знания ее валидности является практически бесполезной.
Следует заметить, что вопрос о валидности до последнего времени представляется одним из самых сложных. Наиболее укоренившимся определением этого понятия является то, которое приведено в книге А. Анастази: "Валидность теста - понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает" .
Валидность по своей сути - это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой - какова ее действенность, эффективность, практическая полезность.
Не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сторону валидности хочет рассмотреть исследователь, используются и разные способы доказательства. Иными словами, понятие валидности включает в себя разные ее виды, имеющие свой особый смысл. Проверка валидности методики называется валидизацией.
Валидность в первом ее понимании (пригодна ли методика для измерения того, для чего она была создана) имеет отношение к сущности самой методики, т.е. это внутренняя валидность измерительного инструмента. Такая проверка называется теоретической валидизацией.
Валидность во втором понимании (какова действенность, эффективность, практическая полезность методики) относится не столько к методике, сколько к цели ее использования. Это прагматическая валидизация.
Обобщая, можно сказать следующее:
- - при теоретической валидизации исследователя интересует само свойство (конструкт), измеряемое методикой. Это, по существу, означает, что проводится собственно психологическая валидизация
- - при прагматической валидизации суть предмета измерения (психологического свойства) оказывается вне поля зрения. Главный акцент сделан на то, чтобы доказать, что "нечто", измеряемое методикой, имеет связь с определенными областями практики.
Теоретическая валидизация методики осуществляется путем доказательства ее конструктной валидности. Конструктная валидность, обоснованная Л. Кронбахом в 1955 г., характеризуется способностью методики к измерению такой черты, которая была обоснована теоретически (как теоретический конструкт). Когда сложно найти адекватный прагматический критерий, может быть выбрана ориентация на гипотезы, сформулированные на основе теоретических предположений об измеряемом свойстве. Подтверждение этих гипотез свидетельствует о теоретической обоснованности методики. Сначала необходимо насколько возможно полно, содержательно описать конструкт, для измерения которого она предназначена. Достигается это за счет формулирования гипотез о нем, предписывающих, с чем данный конструкт должен коррелировать, а с чем не должен. После этого данные гипотезы проверяются. Такой способ наиболее эффективен для валидизации личностных опросников, поскольку установление единственного критерия их обоснованности является затруднительным.
В качестве конструкта могут выступать интеллект, черты личности, мотивы, установки и т.д. Обращение к конструктной валидности необходимо в тех случаях, когда результаты диагностических измерений используются не просто для предсказания поведения, а для выводов о том, в какой степени испытуемые обладают определенной психологической характеристикой. При этом измеряемая психологическая характеристика не может быть отождествлена с какой-либо наблюдаемой особенностью поведения, а представляет собой теоретическую концепцию. Конструктная валидность имеет значение при разработке принципиально новых методик, для которых не определены внешние критерии валидности.
Таким образом, провести теоретическую валидизацию методики - это доказать ее конструктную валидность, т.е. установить, что методика измеряет именно тот конструкт (свойство, качество), который она по замыслу исследователя должна измерять. Так, если какой-то тест разрабатывался для того, чтобы диагностировать умственное развитие детей, надо проанализировать, действительно ли он измеряет именно это развитие, а не какие-то другие особенности (например, личность, характер и т.п.). Следовательно, для теоретической валидизации кардинальной проблемой является отношение между психологическими явлениями и их показателями, посредством которых эти психологические явления пытаются познать. Такая проверка показывает, насколько замысел автора и результаты методики совпадают.
Чаще всего конструктная валидность методики определяется через ее внутреннюю согласованность, а также через конвергентную и дискриминантную валидность. Еще одним способом определения конструктной валидности является факторный анализ.
Внутренняя согласованность отражает то, насколько задания, вопросы, составляющие материал методики, подчинены основному направлению измеряемого как целого, ориентированы на изучение одного и того же явления. Анализ внутренней согласованности осуществляется путем коррелирования ответов на каждое задание с общим результатом методики. Так, если тест состоит из заданий, показавших значимую корреляцию с его общим баллом, то говорят, что тест обладает внутренней согласованностью, поскольку все его задания подчинены конструкту, представленному в тесте.
Критерием внутренней согласованности является также корреляция между суммарным баллом методики и результатами выполнения отдельных ее частей. Тесты, где в качестве конструкта выступает интеллект, всегда состоят из раздельно применяемых субтестов (таких, например, как осведомленность, аналогии, классификации, умозаключения и т.д.), из результатов которых складывается общий балл теста. Значимые корреляции между результатами каждого субтеста и общим баллом также свидетельствуют о внутренней согласованности всего теста.
Кроме того, для доказательства внутренней согласованности используются контрастные группы, которые формируются из испытуемых, показавших самые высокие и самые низкие суммарные результаты. Выполнение методики группой с высокими результатами сравнивается с выполнением группой с низкими результатами, и если первая группа справляется с заданиями лучше, чем вторая, методика признается внутренне согласованной.
Как подчеркивает А. Анастази, критерий внутренней согласованности методики - это существенная мера ее однородности. Так как этот показатель помогает охарактеризовать область поведения или свойство, выборочно проверяемое методикой, то степень ее однородности имеет отношение к конструктной валидности. Конечно, сама по себе внутренняя согласованность методики мало что может сказать о том, что она измеряет. Однако при наличии тщательно проработанных теоретических оснований создания методики, прочно обоснованной научной базы эта процедура подкрепляет теоретические представления о ее психологической сущности.
Другой способ определения конструктной валидности предполагает оценку методики по двум показателям, противоположным друг другу. Важно сопоставить показатели валидизируемой методики, с одной стороны, с методиками, имеющими тот же теоретический конструкт, и, с другой - с методиками, имеющими другое теоретическое основание. Для этого используется предложенная Д. Т. Кэмпбеллом и Д. В. Фиске процедура оценки конвергентной и дискриминантной валидности.
Конвергентная валидность (от лат. - сходиться к одному центру, конвертировать) - это заключение о подобии (изоморфизм - гомоморфизм) данного метода (методики, теста, меры) другому методу, предназначенному для тех же целей (конвергентному, сходному). Она выражается в требовании статистической зависимости диагностических показателей, если они направлены на измерение концептуально родственных психических свойств индивида.
Дискриминантная валидность (от лат. - разница, различие) - заключение об отличии одного метода (методики, теста, меры) от другого, теоретически отличающегося от первого. Она выражается в отсутствии статистической зависимости между диагностическими показателями, отражающими концептуально независимые свойства.
Конвергентная и дискриминантная валидности - это виды критериальной валидности. В эту категорию входят любые типы валидности, оцениваемые с использованием независимого признака, являющегося критерием оценки, сравнения .
Итак, процедура оценки конвергентной и дискриминантной валидности состоит в установлении одновременно как сходства, так и различия психологических феноменов, измеряемых новой методикой, с уже известными методиками. Она предполагает использование наряду с валидизируемой методикой специальной батареи контрольных методик, подобранной таким образом, чтобы в нее входили как методики, предположительно связанные с валидизируемой, так и не связанные с пей. Экспериментатор должен заранее предсказать, какие методики будут высоко коррелировать с валидизируемой, а корреляции с какими методиками будут низкими. В соответствии с этим различают конвергентную валидность (проверка степени близости прямой или обратной связи) и дискриминантную валидность (установление отсутствия связи). Методики, которые, но предположению, высоко коррелируют с валидизируемой, называются конвергирующими, а не коррелирующие - дискриминантными.
Подтверждение совокупности теоретически ожидаемых связей составляет важный круг сведений конструктной валидности. В англоязычной психодиагностике такое операциональное определение конструктной валидности обозначается как предполагаемая валидность (assumed validity).
Наличие корреляции между новой и аналогичной по конструкту методике, валидность которой ранее доказана, указывает на то, что разрабатываемая методика "измеряет" примерно то же психологическое качество, что и эталонная методика. И если новый метод одновременно оказывается более компактным и экономичным в проведении и обработке результатов, то психодиагносты получают возможность использовать новый инструмент вместо старого. Такой прием особенно часто используется в дифференциальной психофизиологии при создании методик диагностики основных свойств нервной системы человека. Особое место в процедуре определения конструктной валидности занимает факторный анализ (факторная валидность). Он позволяет строго статистически проанализировать структуру связей показателей исследуемой методики, определить их факторный состав и факторные нагрузки, выявить скрытые признаки и внутренние закономерности их взаимосвязи.
Итак, при теоретической валидизации методики требуется применение разнообразных экспериментальных процедур, способствующих накоплению информации о диагностируемом конструкте. Если эти данные подтверждают гипотезу, то тем самым подтверждается психологическая концепция, положенная в основу методики, и способность методики служить инструментом измерения этой концепции. Чем убедительнее подтверждение, тем определеннее можно говорить о валидности методики по отношению к психологической концепции, положенной в ее основу.
Важную роль для понимания того, что методика измеряет, играет сопоставление ее показателей с практическими формами деятельности. Но здесь особенно важно, чтобы методика была тщательно проработана в теоретическом плане, т.е. чтобы имелась прочная, обоснованная научная база. Тогда при сопоставлении методики с взятым из повседневной практики внешним критерием, соответствующим тому, что она измеряет, может быть получена информация, подкрепляющая теоретические представления о ее сущности.
Важно помнить, что если доказана теоретическая валидность, то интерпретация полученных показателей становится более ясной и однозначной, а название методики соответствует сфере ее применения.
Что касается прагматической валидизации, то она подразумевает проверку методики с точки зрения ее практической эффективности, значимости, полезности, поскольку диагностической методикой имеет смысл пользоваться только тогда, когда доказано, что измеряемое свойство проявляется в определенных жизненных ситуациях, в определенных видах деятельности. Ей придают большое значение особенно там, где встает вопрос отбора.
Если обратиться к истории развития тестологии , то можно выделить такой период (1920-1930-е гг.), когда научное содержание тестов и их теоретический "багаж" интересовали в меньшей степени. Важно было, чтобы тест работал, помогал быстро отбирать наиболее подготовленных людей. Эмпирический критерий оценки тестовых заданий считался единственно верным ориентиром в решении научных и прикладных задач.
Использование диагностических методик с чисто эмпирическим обоснованием, без отчетливой теоретической базы нередко приводило к псевдонаучным выводам, к неоправданным практическим рекомендациям. Нельзя было точно назвать те особенности, качества, которые выявляли, например, тесты. Б. М. Теплов, анализируя тесты того периода, назвал их "слепыми пробами" .
Такой подход к проблеме валидности методик был характерен вплоть до начала 1950-х гг. не только для США, но и для других стран. Теоретическая слабость эмпирических методов валидизации не могла не вызвать критики со стороны тех ученых, которые в разработке методик призывали опираться не только на "голую" эмпирику и практику, но и на теоретическую концепцию. Практика без теории, как известно, слепа, а теория без практики мертва. В настоящее время теоретико-прагматическая оценка валидности методик воспринимается как наиболее продуктивная.
Для проведения прагматической валидизации методики, т.е. для оценки ее эффективности, действенности, практической значимости, обычно используется независимый внешний критерий - показатель, обладающий непосредственной ценностью для определенной области практики. Таким критерием может быть и успеваемость (для тестов способностей к обучению, тестов достижений, тестов интеллекта), и производственные достижения (для методик профессиональной направленности), и эффективность реальной деятельности - рисование, моделирование и т.д. (для тестов специальных способностей), и субъективные оценки (для тестов личности).
Американские исследователи Д. Тиффин и Е. Маккормик, проведя анализ используемых для доказательства валидности внешних критериев, выделяют четыре их типа :
- 1) критерии исполнения (в их число могут входить такие, как количество выполненной работы, успеваемость, время, затраченное на обучение, темп роста квалификации и т.п.);
- 2) субъективные критерии (они включают различные виды ответов, которые отражают отношение человека к чему-либо или к кому-либо, его мнение, взгляды, предпочтения; обычно субъективные критерии получают с помощью интервью, опросников, анкет);
- 3) физиологические критерии (они используются при изучении влияния окружающей среды и других ситуационных переменных на организм и психику человека; замеряется частота пульса, давление крови, электросопротивление кожи, симптомы утомления и т.д.);
- 4) критерии случайностей (применяются, когда цель исследования касается, например, проблемы отбора для работы таких лиц, которые менее подвержены несчастным случаям).
Внешний критерий должен отвечать трем основным требованиям: он должен быть релевантным, свободным от помех (контаминации) и надежным.
Под релевантностью имеется в виду смысловое соответствие диагностического инструмента независимому жизненно важному критерию. Другими словами, должна быть уверенность в том, что в критерии задействованы именно те особенности индивидуальной психики, которые измеряются и диагностической методикой. Внешний критерий и диагностическая методика должны находиться между собой во внутреннем смысловом соответствии, быть качественно однородными по психологической сущности. Если, например, тест измеряет индивидуальные особенности мышления, умение выполнять логические действия с определенными объектами, понятиями, то и в критерии нужно искать проявление именно этих умений. Это в равной степени относится и к профессиональной деятельности. Она имеет не одну, а несколько целей, задач, каждая из которых специфична и предъявляет свои условия к выполнению. Из этого вытекает существование нескольких критериев выполнения профессиональной деятельности. Поэтому не следует проводить сопоставление успешности по диагностическим методикам с производственной эффективностью в целом. Необходимо найти такой критерий, который по характеру выполняемых операций соотносим с методикой.
Если относительно внешнего критерия неизвестно, релевантен он измеряемому свойству или нет, то сопоставление с ним результатов психодиагностической методики становится практически бесполезным. Оно не позволяет прийти к каким-либо выводам, которые могли бы дать оценку валидности методики.
Требования свободы от помех (контаминации) вызываются тем, что, например, учебная или производственная успешность зависит от двух переменных: от самого человека, его индивидуальных особенностей, измеряемых методиками, и от ситуации, условий учебы, труда, которые могут привнести помехи, "загрязнить" применяемый критерий. Чтобы в какой-то мере избежать этого, следует отбирать для исследования такие группы людей, которые находятся в более или менее одинаковых условиях. Можно использовать и другой метод. Он состоит в корректировке влияния помех. Эта корректировка носит обычно статистический характер. Так, производительность следует брать нс по абсолютным значениям, а в отношении к средней производительности рабочих, работающих в аналогичных условиях.
Когда говорят, что критерий должен иметь статистически достоверную надежность, это означает, что он должен отражать постоянство и устойчивость исследуемой функции.
Поиски адекватного и легко выявляемого критерия относятся к очень важным и сложным задачам валидизации. В западной тестологии много методик дисквалифицировано только потому, что не удалось найти подходящего критерия для их проверки. Например, у большей части анкет данные по их валидности сомнительны, так как трудно найти адекватный внешний критерий, отвечающий тому, что они измеряют.
Оценка прагматической валидности методик может носить количественный и качественный характер.
Для вычисления количественного показателя - коэффициента валидности - сопоставляются результаты, полученные при применении диагностической методики, с данными, полученными по внешнему критерию, тех же лиц. Используются разные виды линейной корреляции (по Спирмену, по Пирсону).
Сколько испытуемых необходимо для расчета валидности? Практика показала, что их не должно быть меньше 50, однако лучше всего более 200. Часто возникает вопрос, какой должна быть величина коэффициента валидности, чтобы она считалась приемлемой? В целом отмечается, что достаточно того, чтобы коэффициент валидности был статистически значим. Низким признается коэффициент валидности порядка 0,20 0,30, средним - 0,30- 0,50 и высоким - свыше 0,60.
Но, как подчеркивают А. Анастази и К. М. Гуревич и другие авторы, не всегда для вычисления коэффициента валидности правомерно использовать линейную корреляцию. Этот прием оправдан лишь тогда, когда доказано, что успех в какой-то деятельности прямо пропорционален успеху в выполнении диагностической методики. Позиция зарубежных тестологов, особенно тех, кто занимается профпригодностью и профотбором, чаще всего сводится к безоговорочному признанию того, что для профессии больше подойдет тот, кто больше выполнил заданий в тесте. Но может быть и так, что для успеха в деятельности нужно обладать свойством на уровне 40% решения теста. Дальнейший успех в тесте уже не имеет никакого значения для профессии. Наглядный пример из монографии К. М. Гуревича: почтальон должен уметь читать, но читает ли он с обычной скоростью или с очень большой скоростью - это уже не имеет профессионального значения. При таком соотношении показателей методики и внешнего критерия наиболее адекватным способом установления валидности может быть критерий различий.
Как показал опыт работы зарубежных тестологов, ни одна статистическая процедура не в состоянии полностью отразить многообразие индивидуальных оценок. Поэтому часто для доказательства валидности методик используют другую модель - клинические оценки. Это не что иное, как качественное описание сущности изучаемого свойства. В этом случае речь идет об использовании приемов, не опирающихся на статистическую обработку.
В современной психометрии разработаны десятки разнообразных способов проверки валидности диагностических методик, обусловленных их особенностями, а также временным статусом внешнего критерия . Однако чаще всего называются следующие способы.
- 1. Валидность "по содержанию" означает, что методика является валидной по мнению специалистов. Этот прием используется, например, в тестах достижений. Обычно в тесты достижений включается не весь материал, который прошли учащиеся, а какая-то его небольшая часть (3-4 вопроса). Можно ли быть уверенным в том, что правильные ответы на эти немногие вопросы свидетельствуют об усвоении всего материала? На это и должна ответить проверка валидности по содержанию. Для этого проводится сопоставление успешности по тесту с экспертными оценками учителей (по данному материалу). Валидность "по содержанию" также подходит критериально-ориентированным тестам, поскольку в них используются экспертные методы. Специфичным является объект экспертизы - содержание теста. Эксперты должны оценить содержание заданий теста по их соответствию психическому свойству, объявляемому в качестве содержания валидизируемого теста. С этой целью экспертам предъявляются спецификация к тесту и список заданий. Если конкретное задание полностью соответствует спецификации, то эксперт обозначает его как соответствующее содержанию теста. Иногда этот прием называют логической валидностью или "валидностью по определению". .
- 2. Валидность "по одновременности", или текущая валидность, определяется с помощью внешнего критерия, по которому информация собирается одновременно с экспериментами по проверяемой методике. Другими словами, собираются данные, относящиеся к настоящему времени: успеваемость в период испытания, производительность в этот же период и т.д. С ними сопоставляют результаты успешности по тесту.
- 3. "Предсказывающая" валидность (другое название - "прогностическая" валидность). Определяется также по внешнему критерию, но информация по нему собирается некоторое время спустя после испытания. Хотя этот прием наиболее соответствует задаче диагностических методик - предсказанию будущей успешности, применять его очень трудно. Точность диагноза находится в обратной зависимости от времени, заданного для такого прогнозирования. Чем больше проходит времени после измерения, тем большее количество факторов требуется учитывать при оценке прогностической значимости методики. Однако учесть все факторы, влияющие на предсказание, практически невозможно.
- 4. "Ретроспективная" валидность. Она определяется на основе критерия, отражающего события или состояние качества в прошлом. Может быть использована для быстрого получения сведений о предсказательных возможностях методики. Так, для проверки того, в какой мере хорошие результаты теста способностей соответствуют быстрому обучению, можно сопоставить прошлые оценки успеваемости, прошлые экспертные заключения и т.д. у лиц с высокими и низкими на данный момент диагностическими показателями.
При приведении данных о валидности разработанной методики важно точно указать, какой вид валидности имеется в виду (по содержанию, по одновременности и т.д.). Желательно также сообщать сведения о численности и особенностях индивидов, на которых проводилась валидизация. Такая информация позволяет пользующемуся методикой психологу решить, насколько валиден этот прием для той группы, к которой он собирается его применять. Как и в случае с надежностью, необходимо помнить, что в одной выборке методика может обладать высокой валидностью, а в другой - низкой. Поэтому если исследователь планирует использовать методику на выборке испытуемых, существенно отличающейся от той, на которой проводилась проверка валидности, ему необходимо заново провести такую проверку. Приводимый в руководстве коэффициент валидности применим только к группам испытуемых, подобным тем, на которых он определялся.
Анастази А. Психологическое тестирование: в 2 т. М, 1982.- Векслер Виталий Абрамович
- Саратовский государственный университет имени Н. Г. Чернышевского
- Рейдель Леонид Бенценович , кандидат наук, доцент, доцент
- Приамурский государственный университет имени Шолом-Алейхема
- ВАЛИДНОСТЬ
- ТЕСТОЛОГИЯ
- ТЕСТИРОВАНИЕ
- РЕЗУЛЬТАТ
- ИСПЫТУЕМЫЙ
- ДИДАКТИКА
- ОЦЕНКА
В статье рассматривается понятие валидности, ее виды, приводится вычислительный алгоритм проверки качества педагогического теста с помощью коэффициента валидности.
- Особенности проектирования нестандартных тестовых заданий
- Использование программных средств тестирования в педагогической практике
Педагогический тест сегодня стал одним из наиболее распространенных инновационных педагогических инструментов контроля качества образовательного процесса. Так или иначе, в своей деятельности педагоги сталкиваются с необходимостью разработать педагогический тест. Созданный тест необходимо проверить на его качество. Одним из показателей качества теста является проверка его на валидность.
Понятие «валидность» произошло от анг. слова «valid», что в переводе означает «годный». Валидность - один из базовых показателей качества созданного теста, характеризует пригодность результатов полученных после тестирования именно для той цели, ради которой и проводилось само тестирование.
Аванесов В.С. в своей статье «Тесты: история и теория» пишет: «Валидность характеризует пригодность теста для измерения определенной величины, но нельзя говорить о валидности не указав его применения» . Приведем пример для понимания смысла валидности. Два лучника стреляют по мишеням. Первый лучник набрал 70 очков, а второй 80 из 100. На первый взгляд кажется, что второй лучник лучше первого. Но при уточнении результатов оказалось, что второй лучник поразил чужую мишень. Поэтому, второй стрелок является «не валидным», он не может достигнуть цели, которая перед ним ставилась.
В научной работе Майорова А. «Теория и практика создания тестов для системы образования» говорится «Валидность – должна определять насколько тест может отражать то, что он должен оценивать» .
Валидизация теста, это ни что иное, как процесс накопления подтверждений для доказательства его валидности. В теории тестирования существует несколько классификаций валидности. Майоров А. выделяет три вида валидности: конструктная, критериальная и содержательная .
Конструктная валидность – определяется в тех случаях, когда представление об измеряемом свойстве существует в форме абстрактного образа. В критериальной или эмпирической валидности оценивается величина связи теста с независимыми критериями. Для оценки степени связи используются средства математической статистики (корреляция двух рядов значений: баллов по тесту и показателей по внешним параметрам). При этом можно выделить два подвида: текущая и прогностическая валидность. Текущая валидность рассматривает корреляцию с критерием существующим в настоящее время (например, тест по предмету сравнивается со школьными оценками). Прогностическая валидность определяется на основе сравнения результатов с критериями которые предположительно появятся в будущем (например, результаты прошлого года переносим на следующий год).
Согласно Клайну П., тест с высокой содержательной валидностью можно определить следующим образом :
- Указать категорию лиц, для которых предназначен тест.
- Составить список знаний, умений и навыков, подлежащих тестированию.
- Выполнить внешнюю экспертизу полученного списка на предмет его полноты и обоснованности.
- На основе списка составить перечень заданий.
- Выполнить внешнюю экспертизу составленных заданий.
- На данной основе создать тестовые задания образующие тест, при этом тест будет содержательно валидным.
Вычислить числовой коэффициент валидности теста означает эмпирически установить, как выполнение теста испытуемыми соотносится с другими независимо опредленными оценками их знаний. Для определения валидности требуется независимый внешний критерий, то есть оценка эксперта (преподавателя). За коэффициент валидности принимают коэффициент корреляции результатов тестовых измерений и критерия. Если экспертная оценка знаний испытуемых, полученная независимо от процедуры тестирования, представлена числовой последовательностью Y1,Y2, …, Yn , то коэффициент валидности теста может быть рассчитан по формуле, предложенной в своих работой Анастази А., Аванесовым В.С :
где n – количество испытуемых, - экспертная оценка i-го учащегося, - средняя арифметическая экспертных оценок, - стандартное отклонение экспертных оценок, - количество правильных ответов у i-го учащегося, - средняя арифметическая количества правильных ответов, - стандартное отклонение количества правильных ответов.
,
Интерпретация результатов:
a) если V принимает значение в диапазоне от 0,6 до 1 – валидность считается высокой,
b) если V принимает значение в диапазоне от 0,3 до 0,6 – валидность считается средней,
c) если V принимает значение меньшее 0,3– валидность считается низкой,
Рассмотрим пример расчета валидности теста.
Тест «Информационные процессы» должна выполнить группа студентов из 7 человек (в нашем примере мы рассмотрим небольшую группу, на практике рекомендуется проводить проверку теста на группе не менее 30 человек). Тест состоит из 10 заданий.
Экспертом, предварительно оцениваются результаты (экспертом может выступить преподаватель информационных технологий, хорошо знающий данную группу студентов, и имеющий возможность предсказать результата выполнения ими данного теста).
Результаты оценивания экспертов приведены в таблице 1.
Таблица 1. Результаты оценивания экспертов.
Номер студента |
|||||||
Расчеты можно произвести в электронных таблицах Microsoft Excel используя встроенные функции для вычислений.
Рассчитаем - среднюю арифметическую экспертных оценок:
.
Функция СРЗНАЧ в Microsoft Office Excel вычисляет среднее арифметическое значение чисел выбранного диапазона. В частности, если диапазон B4:B15 содержит числовые значения, то формула =СРЗНАЧ(B4:B15) вернет среднее арифметическое значение этих чисел.
Найдем - стандартное отклонение экспертных оценок:
Функция СТАНДОТКЛОН в Microsoft Office Excel вычислят стандартное отклонение используя указанную выборку, на основании «n-1» вычислительного метода. При этом, укажем, что стандартное отклонение - это оценка того, насколько массово разбросаны данные относительно среднего арифметического этих данных.
После проведения теста, были получены результаты, приведенные в таблице 2.
Таблица 2. Результаты тестирования.
Номер студента |
|||||||
Рассчитаем - среднюю арифметическую количества правильных оценок:
.
Найдем - стандартное отклонение количества правильных оценок:
Рассчитаем коэффициент валидности:
На основании расчетов можно сделать вывод о том, что валидность, рассмотренного в примере теста «Информационные процессы», высокая. На основании определенного показателя мы можем сказать. Что тест достигает своих результатов, а значит, разработчик теста справился со своим заданием – разработкой качественного теста по данной тематики. Заметим, что качество теста определяется не только показателем валидности, но и многими другими дополнительными показателями.
Таким образом, рассмотренный способ определения коэффициента валидности, является одним из доступных, для педагога, вариантом расчета и позволяет определить соответствие созданного теста поставленным педагогическим условиям.
Список литературы
- Аванесов В. С. Основные понятия педагогической тестологии//Научные проблемы тестового контроля знаний: Тез. докл. участников школы-семинара. М., 2005.
- Аванесов В.С. Тесты: история и теория // Управление школой, 1999, №12.
- Аванесов В.С. Формы тестовых заданий: учебное пособие для учителей школ, лицеев, преподавателей вузов и колледжей. 2-е изд. перераб. и расширен. - М.: Центр тестирования, 2005. - 156 с.
- Анастази А., Урбина С., Алексеев А.А. Психологическое тестирование - Санкт-Петербург, 2007. Сер. Мастера психологии (7-е международное издание).
- Клайн П. Введение в психометрическое проектирование. Справочное руководство по конструированию тестов. –Киев: ПАН Лтд, 1994. -184 с.12.
- Майоров А.Н. Теория и практика создания тестов для системы образования. – М.: «Интеллект-центр», 2001. -296 с.
- Самылкина Н.Н. Современные средства оценивания результатов обучения: учебное пособие - М.:Бином. Лаборатория знаний, 2012. - 197 с.
Как и оценки надежности, оценки валидности теста получают в форме коэффициентов корреляции. Однако в отличие от интерпретации коэффициента надежности при интерпретации коэффициента корреляции как оценки валидности принимают во внимание гораздо больше и теоретических, и практических соображений. В целях иллюстрации мы ограничимся здесь обсуждением интерпретации доказательств валидности по критерию, поскольку именно с этой ситуацией чаще всего сталкивается большинство индустриально-организационных психологов.
Коэффициент корреляции.
При обсуждении надежности теста было отмечено, что большинство психологов сочтут приемлемой оценку надежности в диапазоне свыше 0,80-0,90, при условии, что она основана на компетентно проведенном исследовании. При интерпретации коэффициентов валидности по критерию нет таких четких ориентиров. За те примерно 90 лет, в течение которых проводится тестирование при приеме на работу, эти коэффициенты редко превышали r = 0,50; этот показатель кажется довольно низким по сравнению с коэффициентами надежности, превышающими 0,80 или даже 0,90. Однако следует помнить, что коэффициент надежности, в сущности, является мерой корреляции между двумя оценками одной и той же характеристики. В отличие от этого, коэффициент валидности по критерию является оценкой корреляции между двумя различными показателями - результатами теста и какой-либо другой оценкой поведения.
Поведение в целом определяется сложным комплексом множества причин, и какой бы то ни было тест может, по-видимому, оценить лишь немногие из релевантных для Данного поведения прогностических факторов. Например, для прогнозирования абсентеизма часто используют оценки удовлетворенности работой, но все работающие люди знают, что решение не пойти на работу в один из дней может и не иметь никакого отношения к удовлетворенности работой или к ее отсутствию. Если воспользоваться терминологией главы 2, то удовлетворенность работой может быть одним из детерминантов абсентеизма, но ее влиянием объясняется лишь небольшая часть дисперсии этой критериальной переменной.
Процентная доля дисперсии критерия, которая объясняется с помощью результатов данного теста, называется коэффициентом детерминированности. Математически этот показатель вычисляется путем возведения в квадрат коэффициента корреляции между тестом и критерием. Если между тестом и оценкой выполнения работы (критерием) существует корреляция с r = 0,50, то коэффициент детерминированности будет равен 0,25 (25 %). Другими словами, около 75 % (1,00 - 0,25) различий в выполнении работы не учитывается, поскольку существует много других факторов, которые не измеряются данным тестом, но влияют на то, как люди выполняют свою работу.
Детеминанты.
Диапазон значений коэффициента детерминированности ограничен, и в настоящее время верхним пределом является значение примерно 25 %. Поэтому может показаться, что не имеет смысла направлять значительные ресурсы на конструирование, доказательство валидности и использование тестов в организациях с целью прогнозирования. Однако здесь идет речь о статистическом прогнозе, то есть о прогнозе, который определяется величиной дисперсии критерия (такого как выполнение работы), объясняющейся влиянием предсказывающей переменной (результат теста).
На практике индустриально-организационные психологи часто считают, что тест с коэффициентом валидности по критерию 0,30 (9 % дисперсии) полезен и во многих ситуациях его использование повышает эффективность принятия решений. Концепция полезности релевантна измерениям любого типа, проводимым для принятия любых кадровых решений, но лучше всего это видно на примере показателя успешности приема на работу в организацию.
Термин показатель успешности приема на работу обозначает долю или процент принятых на работу сотрудников, которые успешно справляются со своими задачами. Этот процентный показатель может снижаться за счет ошибок при отборе, относящихся к двум типам. Если приняты на работу люди, которые работают плохо, то это ошибка ложного положительного отбора. Противоположная ситуация, когда принято решение не нанимать людей, которые в дальнейшем работали бы хорошо, - это ошибка ложного отрицательного отбора. Связь между этими ошибками и правильными решениями о приеме на работу показана на рис. 3.5.
Черта отсекаемая по прогнозу (predictor cutoff score)
На графике, представленном на рис. 3.5, показана связь между результатами отборочного теста, использованного при приеме на работу (предсказывающая переменная), и общей оценкой выполнения работы (критерием). В целях иллюстрации предполагается, что все новые сотрудники, принятые на работу в эту компанию в данный период времени, проходили тестирование. Однако результаты теста не использовались для отбора, а были зафиксированы и сохранены, чтобы воспользоваться ими впоследствии, когда появятся оценки выполнения работы этими сотрудниками. (Это, конечно, та же самая процедура, что и составление прогноза валидности по критерию.)
Имеются еще два предположения о ситуации, которую отображает график, представленный на рис. 3.5. Во-первых, предполагается, что если бы тест использовался для отбора сотрудников, то кандидаты, получившие менее 50 баллов, не были бы приняты на работу. Пятьдесят баллов - это черта отсекания по прогнозу. Во-вторых, предполагается, что сотрудники, получившие оценку выполнения работы выше среднего балла (3) шкалы, считаются в организации успешными, а остальные таковыми не считаются. Оценка 3 - это черта отсекания по критерию.
С учетом этой информации о графике на рис. 3.5 становится яснее смысл ошибок ложного положительного и ложного отрицательного отбора и правильных решений о приеме на работу. Каждая точка точечного графика отображает положение одного сотрудника с точки зрения результата теста и оценки выполнения работы. Точки, попавшие в квадрант IV, относятся к сотрудникам, которые получили баллы выше черты отсекания по прогнозу и должны были стать хорошими работниками, но им выставлены низкие оценки выполнения работы; отсюда и название «ложный положительный отбор».
Сотрудники, положение которых отображается точками из квадранта I, попали в противоположную ситуацию. Если бы при приеме на работу учитывались результаты теста, то их бы не наняли, но их показатели выше черты отсекания по критерию; отсюда название «ложный отрицательный отбор». Наконец, точки из квадрантов II и III отображают положение сотрудников, у которых оценки выполнения работы соответствуют прогнозу и относительно которых были приняты правильные решения (истинный положительный или отрицательный отбор).
При принятии решений об отборе люди в организациях сосредоточиваются на случае, представленном на рис. 3.5 в квадранте II - это ситуация, когда успешных сотрудников удается выявить заранее. То, насколько использование отборочного теста позволяет увеличить количество случаев, попадающих в квадрант II по сравнению с квадрантом IV, зависит от трех факторов:
1. Показатель успешности приема на работу без использования теста (иногда его называют базовым уровнем).
2. Коэффициент валидности теста по критерию.
3. Соотношение числа кандидатов на каждое рабочее место и количества вакансий (отборочное соотношение).
Число кандидатов, из которых надо выбрать одного человека для заполнения одного рабочего места, называется отборочным соотношением (selection ratio). Если это соотношение равно 1:1 (всего один кандидат на каждое место), то не надо принимать решения и нет оснований использовать тест. С другой стороны, если кандидатов больше, чем рабочих мест, то надо принимать решения. Полезность конкретного теста определяется тем, поможет ли он тому, кто принимает решения, лучше справиться со своей задачей.
Опубликованы таблицы, с помощью которых можно сразу же ответить на вопрос о полезности теста, если известны текущий показатель успешности приема на работу, коэффициент валидности по критерию отборочного теста и отборочное соотношение. На рис. 3.6 приведена выдержка из таблиц Тейлора - Расселла (Taylor amp; Russel, 1939). На этом рисунке отражена следующая ситуация:
1. Показатель успешности приема на работу без использования нового теста равен 50 % (успешно работает половина принятых на работу сотрудников).
2. С помощью исследования валидности установлено, что критериальная валидность нового теста r = 0,41 (с помощью теста можно выявить около 17 % различий в выполнении данной работы).
3. Отборочное соотношение равно 50 % (в среднем на каждое вакантное место претендуют два кандидата).
Как показывает жирная черная линия на рис. 3.6, компания, которая должна нанять только половину людей, претендующих на рабочие места (отборочное соотношение 50 %), может увеличить свой показатель успешности от 50 % до более чем 65 %, используя отборочный тест с коэффициентом критериальной валидности r = 0,41. Такое повышение показателя успешности может привести к существенной экономии средств, которая обсуждалась в статье Шмидта и Хантера (Schmidt amp; Hunter, 1981) (отрывок из нее приведен в начале этой главы в рубрике «Психология в действии»).
Предсказывающее значение r для различных отборочных соотношений при условии, что 50 % сотрудников из группы сочтены работающими успешно
Из статьи Н. С. Taylor and J. Т. Russell, «The Relationship of Validity Coefficients to the Practical Effectiveness of Tests in Selection: Discussion and Tables». Journal of Applied Psychology, 1939, 23, 565-578.
Таблицы Тейлора-Расселла уже более 50 лет помогают индустриально-организационным психологам и другим специалистам оценивать полезность тестов. Чтобы подчеркнуть историческую ценность этих таблиц, здесь приведен один из первых графиков; в настоящее время обычно используются затабулированные данные. В таблицах, разработанных Гизелли и Брауном (Ghiselli amp; Brown, 1955), непосредственно показано процентное увеличение эффективности работы при различных значениях коэффициента валидности. Таблицы Нейлора и Шайна (Naylor amp; Shine, 1965) особенно полезны в тех случаях, когда невозможно провести четкое различие между успехом и неудачей в работе, из-за чего нельзя пользоваться таблицами Тейлора-Расселла.
Общая валидность теста
Резюмируя сказанное выше, повторим, что доказательства валидности выводов, которые можно сделать из результатов теста, традиционно делятся на три категории. Это не означает, что существуют различные типы валидности; различные подходы к сбору доказательств валидности любого данного теста должны приводить к одинаковым выводам. Идеальным способом конструирования теста является последовательное использование на разных этапах разработки теста нескольких различных процедур.
Таким образом, валидиость «встроена» в тест с самого начала, а не появляется на последних этапах разработки теста... Процесс доказательства валидности начинается с определения черт или конструктов, которые выводятся из психологической теории, предыдущих исследований или систематичных наблюдений и анализа областей реального жизненного поведения... Затем подготавливают пункты теста, соответствующие определениям конструктов. За этим этапом следует эмпирический анализ пунктов и отбор наиболее валидных пунктов из первоначальной их совокупности... На последнем этапе проводится доказательство валидности... по отношению к внешнему критерию, взятому из реальной жизни» (Anastasi, 1989).
Прежде чем психодиагностические методики могут быть использованы для практических целей, они должны пройти проверку по ряду формальных критериев, доказывающих их высокое качество и эффективность. Эти требования в психодиагностике складывались годами в процессе работы над тестами и над их совершенствованием. В результате появилась возможность оградить психологию от всевозможных безграмотных подделок, претендующих на то, чтобы называться диагностическими методиками.
К числу основных критериев оценки психодиагностических методик относятся надежность и валидность. Большой вклад в разработку этих понятий внесли зарубежные психологи (А. Анастази, Е. Гизелли, Дж. Гилфорд, Л. Кронбах, Р. Торндайк и Е. Хаген и др.). Ими были разработаны как формально-логический, так и математико-статисти-ческий аппарат (прежде всего, корреляционный метод и факторный анализ) обоснования степени соответствия методик отмеченным критериям.
В психодиагностике проблемы надежности и валидности методик тесно взаимосвязаны, тем не менее существует традиция раздельного изложения этих важнейших характеристик. Следуя ей, начнем с рассмотрения надежности методик.
Надежность
В традиционной тестологии термин «надежность» означает относительное постоянство, устойчивость, согласованность результатов теста при первичном и повторном его применении на одних и тех же испытуемых. Как пишет А. Анастази [ 10, т. 1 ], вряд ли можно с доверием относиться к тесту интеллекта, если по нему в начале недели ребенок имел показатель, равный 110, а к концу - 80. Повторное применение надежных методик дает сходные оценки. При этом в определенной мере могут совпадать как сами результаты, так и порядковое место (ранг), занимаемое испытуемым в группе. И в том, и в другом случае при повторении опыта возможны некоторые расхождения, но важно, чтобы они были незначительными, в пределах одной группы. Таким образом, можно сказать, что надежность методики - это такой критерий, который говорит о точности психологических измерений, т. е. позволяет судить о том, насколько внушают доверие полученные результаты.
Степень надежности методик зависит от многих причин. Поэтому важной проблемой практической диагностики является выяснение факторов, снижающих точность измерений. Была сделана попытка составить классификацию таких факторов. Среди них наиболее часто называются следующие:
1) нестабильность диагностируемого свойства;
2) несовершенство диагностических методик (небрежно составлена инструкция, задания по своему характеру разнородны, нечетко сформулированы указания, как методику предъявлять испытуемым, и т. д.);
3) меняющаяся ситуация обследования (разное время дня, когда проводятся эксперименты, разная освещенность помещения, наличие или отсутствие посторонних шумов и т. д.);
4) различия в манере поведения экспериментатора (от опыта к опыту по-разному предъявляет инструкции, по-разному стимулирует выполнение заданий и т. д.);
5) колебания в функциональном состоянии испытуемого (в одном эксперименте отмечается хорошее самочувствие, в другом - утомление и т. д.);
6) элементы субъективности в способах оценки и интерпретации результатов (когда ведется протоколирование ответов испытуемых, оцениваются ответы по степени полноты, оригинальности и т. п.).
Если все эти факторы иметь в виду и постараться в каждом из них устранить условия, снижающие точность измерений, то можно добиться приемлемого уровня надежности теста. Одним из важнейших средств повышения надежности психодиагностической методики является единообразие процедуры обследования, его строгая регламентация: одинаковые для обследуемой выборки испытуемых обстановка и условия работы, однотипный характер инструкций, одинаковые для всех временные ограничения, способы и особенности контакта с испытуемыми, порядок предъявления заданий и т. д. При такой стандартизации процедуры исследования можно существенно уменьшить влияние посторонних случайных факторов на результаты теста и таким образом повысить их надежность.
На характеристику надежности методик большое влияние оказывает исследуемая выборка. Она может как снижать, так и завышать этот показатель, например, надежность может быть искусственно завышена, если в выборке небольшой разброс результатов, т. е. если результаты по своим значениям близки друг к другу. В этом случае при повторном обследовании новые результаты также расположатся тесной группой. Возможные изменения ранговых мест испытуемых будут незначительными, и, следовательно, надежность методики будет высокой. Такое же неоправданное завышение надежности может возникнуть при анализе результатов выборки, состоящей из группы, имеющей очень высокие результаты, и из группы с очень низкими оценками по тесту. Тогда эти далеко отстоящие друг от друга результаты не будут перекрываться, даже если и вмешаются в условия эксперимента случайные факторы. Поэтому в руководстве обычно делается описание выборки, на которой определялась надежность методики.
В настоящее время надежность все чаще определяется на наиболее однородных выборках, т. е. на выборках, схожих по полу, возрасту, уровню образования, профессиональной подготовке и т. п. Для каждой такой выборки приводятся свои коэффициенты надежности. Приводимый показатель надежности применим только к группам, подобным тем, на которых он определялся. Если методика применяется к выборке, отличающейся от той, на которой проверялась ее надежность, то эта процедура должна быть проведена заново.
Так как надежность отражает степень согласованности двух независимо полученных рядов показателей, то математико-статистический прием, с помощью которого устанавливается надежность методики - это корреляции (по Пирсону или Спирмену). Надежность тем выше, чем ближе полученный коэффициент корреляции подходит к единице, и наоборот.
В данной книге при описании видов надежности основной упор делается на работы К. М. Гуревича , который, проведя тщательный анализ зарубежной литературы по этой проблеме, предложил толковать надежность как комплексную характеристику, включающую:
♦ надежность самого измерительного инструмента;
♦ стабильность изучаемого признака;
♦ константность, т. е. относительную независимость результатов от личности экспериментатора.
Основные показатели он предложил обозначить следующим образом:
♦ показатель, характеризующий измерительный инструмент, предлагается называть коэффициентом надежности;
♦ показатель, характеризующий стабильность измеряемого свойства - коэффициентом стабильности;
♦ показатель оценки влияния личности экспериментатора - коэффициентом константности.
Именно в таком порядке рекомендуется осуществлять проверку методики на надежность: целесообразно сначала проверить инструмент измерения. Если полученные данные удовлетворительны, то можно переходить к установлению меры стабильности измеряемого свойства, а уже после этого, при необходимости, заняться критерием константности.
Остановимся на более подробном рассмотрении этих показателей, характеризующих с разных сторон надежность психодиагностической методики.
Определение надежности измерительного инструмента. Оттого, как составлена методика, насколько правильно подобраны задания с точки зрения их взаимосогласованности, насколько она однородна, зависит точность, объективность любого психологического измерения. Внутренняя однородность методики показывает, что ее задания актуализируют одно и то же свойство, признак.
Для проверки надежности измерительного инструмента, говорящего о его однородности (или гомогенности), используется так называемый метод «расщепления». Обычно задания делятся на четные и нечетные, отдельно обрабатываются, а затем результаты двух полученных рядов коррелируются между собой. Для применения этого способа нужно поставить испытуемых в такие условия, чтобы они смогли успеть решить (или попытаться решить) все задания. Если методика однородна, то большой разницы в успешности решения по таким половинкам не будет, и, следовательно, коэффициент корреляции будет достаточно высоким.
Можно делить задания и другим путем. Например, можно сопоставить первую половину теста со второй, первую и третью четверть со второй и четвертой и т. п. Однако «расщепление» на четные и нечетные задания представляется наиболее целесообразным, поскольку именно этот способ наиболее независим от влияния таких факторов, как врабатываемость, тренировка, утомление и пр.
Методика признается надежной, когда полученный коэффициент не ниже 0,75-0,85. Лучшие по надежности тесты дают коэффициенты порядка 0,90 и более.
Определение стабильности изучаемого признака. Определить надежность самой методики - это не значит решить все вопросы, связанные с ее применением. Нужно еще установить, насколько устойчив, стабилен признак, который исследователь намерен измерять. Было бы методологической ошибкой рассчитывать на абсолютную стабильность психологических признаков. В том, что измеряемый признак со временем меняется, нет ничего опасного для надежности. Все дело в том, в каких пределах варьируются результаты от опыта к опыту у одного и того же испытуемого, не приводят ли эти колебания к тому, что испытуемый по непонятным причинам оказывается то в начале, то в середине, то в конце выборки. Сделать какие-то конкретные выводы об уровне представленности измеряемого признака у такого испытуемого нельзя. Таким образом, колебания признака не должны иметь непредсказуемый характер. Если не ясны причины, по которым происходит резкое колебание, то такой признак не может быть использован в диагностических целях.
Для проверки стабильности диагностируемого признака, свойства используется прием, известный под названием тест-ретест. Он заключается в повторном обследовании испытуемых с помощью той же методики. О стабильности признака судят по коэффициенту корреляции между результатами первого и второго обследования. Он будет свидетельствовать о сохранении или несохранении каждым испытуемым своего порядкового номера в выборке.
На степень устойчивости, стабильности диагностируемого свойства влияют разнообразные факторы. Число их достаточно велико. Выше уже говорилось о том, как важно соблюдать требования единообразия процедуры проведения эксперимента. Так, например, если первое тестирование проводилось в утренние часы, то и повторное должно быть проведено утром; если первый опыт сопровождался предварительным показом заданий, то и при повторном испытании это условие также должно быть соблюдено и т. д.
При определении стабильности признака большое значение имеет промежуток времени между первым и вторым обследованием. Чем короче срок от первого до второго испытания, тем (при прочих равных условиях) больше шансов, что диагностируемый признак сохранит уровень первого испытания. С увеличением временного интервала стабильность признака имеет тенденцию снижаться, так как возрастает число посторонних факторов, влияющих на нее. Следовательно, напрашивается вывод, что целесообразно проводить повторное тестирование через короткий срок после первого. Однако тут есть свои сложности: если срок между первым и вторым опытом небольшой, то некоторые испытуемые могут воспроизвести свои прежние ответы по памяти и, таким образом, отойдут от смысла выполнения заданий. В этом случае результаты двух предъявлений методики уже нельзя рассматривать как независимые.
Трудно четко ответить на вопрос, какой срок можно считать оптимальным для повторного эксперимента. Только исследователь, исходя из психологической сущности методики, условий, в которых она проводится, особенностей выборки испытуемых, должен определить этот срок. При этом такой выбор должен быть научно обоснован. В тестологической литературе наиболее часто называются временные интервалы в несколько месяцев (но не более полугода). При обследовании детей младшего возраста, когда возрастные изменения и развитие происходят очень быстро, эти интервалы могут быть порядка нескольких недель .
Коэффициент стабильности методики должен быть достаточно высоким (не ниже 0,80).
Определение константности (относительной независимости результатов от личности экспериментатора). Поскольку методика, разработанная для диагностических целей, не предназначена для того, чтобы вечно оставаться в руках своих создателей, крайне важно знать, в какой мере ее результаты поддаются влиянию личности экспериментатора. Хотя диагностическая методика всегда снабжается подробными инструкциями по ее применению, правилами и примерами, указывающими, как проводить эксперимент, однако регламентировать манеру поведения экспериментатора, скорость его речи, тон голоса, паузы, выражение лица очень трудно. Испытуемый в своем отношении к опыту всегда отразит то, как сам экспериментатор к этому опыту относится (допускает небрежность или действует точно в соответствии с требованиями процедуры, проявляет требовательность, настойчивость или бесконтрольность и т. п.).
Хотя в тестологической практике критерием константности пользуются нечасто, однако это не может служить основанием для его недооценки. Если у авторов методики возникают подозрения по поводу возможного влияния личности экспериментатора на исход диагностической процедуры, то целесообразно проверить методику по этому критерию. При этом важно иметь в виду следующий момент. Если под воздействием нового экспериментатора все испытуемые в одинаковой степени стали работать немного лучше или немного хуже, то сам по себе этот факт (хотя и заслуживает внимания) на надежность методики не окажет влияния. Надежность изменится лишь тогда, когда воздействие экспериментатора на испытуемых различно: одни стали работать лучше, другие хуже, а третьи так же, как и при первом экспериментаторе. Другими словами, если испытуемые при новом экспериментаторе изменили свои порядковые места в выборке.
Коэффициент константности определяется путем корреляции результатов двух опытов, проведенных в относительно одинаковых условиях на одной и той же выборке испытуемых, но разными экспериментаторами. Коэффициент корреляции не должен быть ниже 0,80.
Итак, были рассмотрены три показателя надежности психодиагностических методик. Может возникнуть вопрос, нужно ли при создании методик осуществлять проверку каждого из них? На этот вопрос следует дать утвердительный ответ.
Так, авторы «Стандартных требований к педагогическим и психологическим тестам» в главе «Надежность» отмечают, что коэффициент надежности - это родовое понятие, включающее в себя несколько видов, и каждый вид имеет свой особый смысл. Разделяет эту точку зрения и К. М. Гуревич . По его мнению, когда говорят о разных способах определения надежности, то имеют дело не с лучшей или худшей мерой, а с мерами разной по существу надежности. В самом деле, чего стоит методика, если не ясно, надежна ли она сама по себе как измерительный инструмент, или не установлена стабильность измеряемого свойства? Чего стоит диагностическая методика, если неизвестно, могут ли изменяться результаты в зависимости от того, кто ведет эксперимент? Каждый в отдельности показатель никак не заменит других способов проверки и, следовательно, не может рассматриваться в качестве необходимой и достаточной характеристики надежности. Только методика, располагающая полной характеристикой надежности, наиболее пригодна для диагностико-практического применения.
Валидность
Другим после надежности ключевым критерием оценки качества методик является валидность. Вопрос о валидности методики решается лишь после того, как установлена достаточная ее надежность, поскольку ненадежная методика не может быть валидной. Но самая надежная методика без знания ее валидности является практически бесполезной.
Следует заметить, что вопрос о валидности до последнего времени представляется одним из самых сложных. Наиболее укоренившимся определением этого понятия является то, которое приведено в книге А. Анастази: «Валидность теста - понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает» .
Валидность по своей сути - это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность, практическая полезность.
По этой причине не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сторону валидности хочет рассмотреть исследователь, используются и разные способы доказательства. Другими словами, понятие валидности включает в себя разные ее виды, имеющие свой особый смысл. Проверка валидности методики называется валидизацией.
Валидность в первом ее понимании имеет отношение к самой методике, т. е. это валидность измерительного инструмента. Такая проверка называется теоретической валидизацией. Валидность во втором понимании уже относится не столько к методике, сколько к цели ее использования. Это прагматическая валидизация.
Обобщая, можно сказать следующее:
♦ при теоретической валидизации исследователя интересует само свойство, измеряемое методикой. Это, по существу, означает, что проводится собственно психологическая валидизация;
♦ при прагматической валидизации суть предмета измерения (психологического свойства) оказывается вне поля зрения. Главный акцент сделан на то, чтобы доказать, что нечто, измеряемое методикой, имеет связь с определенными областями практики.
Провести теоретическую валидизацию , в отличие от прагматической, порой оказывается значительно труднее. Не вдаваясь пока в конкретные детали, остановимся в общих чертах на том, как проверяется прагматическая валидность: выбирается какой-нибудь независимый от методики внешний критерий, определяющий успех в той или иной деятельности (учебной, профессиональной и т. п.), и с ним сравниваются результаты диагностической методики. Если связь между ними признается удовлетворительной, то делается вывод о практической значимости, эффективности, действенности диагностической методики.
Для определения теоретической валидности найти какой-либо независимый критерий, лежащий вне методики, гораздо труднее. Поэтому на ранних стадиях развития тестологии, когда концепция валидности только складывалась, бытовало интуитивное представление о том, что тест измеряет:
1) методика называлась валидной, так как то, что она измеряет, просто очевидно;
2) доказательство валидности основывалось на уверенности исследователя в том, что его метод позволяет понять испытуемого;
3) методика рассматривалась как валидная (т. е. принималось утверждение, что такой-то тест измеряет такое-то качество) только потому, что теория, на основании которой строилась методика, очень хорошая.
Принятие на веру голословных утверждений о валидности методики не могло продолжаться длительное время. Первые проявления действительно научной критики развенчали такой подход: начались поиски научно обоснованных доказательств.
Таким образом, провести теоретическую валидизацию методики - это доказать, что методика измеряет именно то свойство, качество, которое она по замыслу исследователя должна измерять.
Так, например, если какой-то тест разрабатывался для того, чтобы диагностировать умственное развитие детей, надо проанализировать, действительно ли он измеряет именно это развитие, а не какие-то другие особенности (например, личность, характер и т. п.). Таким образом, для теоретической валидизации кардинальной проблемой является отношение между психологическими явлениями и их показателями, посредством которых эти психологические явления пытаются познать. Это показывает, насколько замысел автора и результаты методики совпадают.
Не столь сложно провести теоретическую валидизацию новой методики, если для измерения данного свойства уже имеется методика с доказанной валидностью. Наличие корреляции между новой и аналогичной уже проверенной методикой указывает на то, что разработанная методика измеряет то же психологическое качество, что и эталонная. И если новый метод одновременно оказывается более компактным и экономичным в проведении и обработке результатов, то психодиагносты получают возможность использовать новый инструмент вместо старого.
Но теоретическая валидность доказывается не только путем сопоставления с родственными показателями, а также и с теми, где, исходя из гипотезы, значимых связей не должно быть. Таким образом, для проверки теоретической валидности важно, с одной стороны, установить степень связи с родственной методикой (конвергентная валидность) и отсутствие этой связи с методиками, имеющими другое теоретическое основание (дискриминантная валидность).
Гораздо труднее провести теоретическую валидизацию методики тогда, когда такой путь проверки невозможен. Чаще всего именно с такой ситуацией сталкивается исследователь. В таких обстоятельствах только постепенное накопление разнообразной информации о изучаемом свойстве, анализ теоретических предпосылок и экспериментальных данных, значительный опыт работы с методикой позволяет раскрыть ее психологический смысл.
Важную роль для понимания того, что методика измеряет, играет сопоставление ее показателей с практическими формами деятельности. Но здесь особенно важно, чтобы методика была тщательно проработана в теоретическом плане, т. е. чтобы имелась прочная, обоснованная научная база. Тогда при сопоставлении методики с взятым из повседневной практики внешним критерием, соответствующим тому, что она измеряет, может быть получена информация, подкрепляющая теоретические представления о ее сущности.
Важно помнить, что если доказана теоретическая валидность, то интерпретация полученных показателей становится более ясной и однозначной, а название методики соответствует сфере ее применения. Что касается прагматической валидизации, то она подразумевает проверку методики с точки зрения ее практической эффективности, значимости, полезности, поскольку диагностической методикой имеет смысл пользоваться только тогда, когда доказано, что измеряемое свойство проявляется в определенных жизненных ситуациях, в определенных видах деятельности. Ей придают большое значение особенно там, где встает вопрос отбора.
Если опять обратиться к истории развития тестологии , то можно выделить такой период (20-30-е гг. XX в.), когда научное содержание тестов и их теоретический багаж интересовали в меньшей степени. Важно было, чтобы тест работал, помогал быстро отбирать наиболее подготовленных людей. Эмпирический критерий оценки тестовых заданий считался единственно верным ориентиром в решении научных и прикладных задач.
Использование диагностических методик с чисто эмпирическим обоснованием, без отчетливой теоретической базы нередко приводило к псевдонаучным выводам, к неоправданным практическим рекомендациям. Нельзя было точно назвать те особенности, качества, которые тесты выявляли. По существу они являлись слепыми пробами.
Такой подход к проблеме валидности тестов был характерен вплоть до начала 50-х гг. XX в. не только в США, но и в других странах. Теоретическая слабость эмпирических методов валидизации не могла не вызвать критики со стороны тех ученых, которые в разработке тестов призывали опираться не только на голую эмпирику и практику, но и на теоретическую концепцию. Практика без теории, как известно, слепа, а теория без практики мертва. В настоящее время теоретико-практическая оценка валидности методик воспринимается как наиболее продуктивная.
Для проведения прагматической валидизации методики, т. е. для оценки ее эффективности, действенности, практической значимости, обычно используется независимый внешний критерий - показатель проявления изучаемого свойства в повседневной жизни. Таким критерием может быть и успеваемость (для тестов способностей к обучению, тестов достижений, тестов интеллекта), и производственные достижения (для методик профессиональной направленности), и эффективность реальной деятельности - рисование, моделирование и т. д. (для тестов специальных способностей), субъективные оценки (для тестов личности).
Американские исследователи Д. Тиффин и Е. Мак-Кормик, проведя анализ используемых для доказательства валидности внешних критериев, выделяют четыре их типа [по 31):
1) критерии исполнения (в их число могут входить такие, как количество выполненной работы, успеваемость, время, затраченное на обучение, темп роста квалификации и т. п.);
2) субъективные критерии (они включают различные виды ответов, которые отражают отношение человека к чему-либо или к кому-либо, его мнение, взгляды, предпочтения; обычно субъективные критерии получают с помощью интервью, опросников, анкет);
3) физиологические критерии (они используются при изучении влияния окружающей среды и других ситуационных переменных на организм и психику человека; замеряется частота пульса, давление крови, электросопротивление кожи, симптомы утомления И т. д.);
4) критерии случайностей (применяются, когда цель исследования касается, например, проблемы отбора для работы таких лиц, которые менее подвержены несчастным случаям).
Внешний критерий должен отвечать трем основным требованиям:
♦ он должен быть релевантным;
♦ свободным от помех;
♦ надежным.
Под релевантностью имеется в виду смысловое соответствие диагностического инструмента независимому жизненно важному критерию. Другими словами, должна быть уверенность в том, что в критерии задействованы именно те особенности индивидуальной психики, которые измеряются и диагностической методикой. Внешний критерий и диагностическая методика должны находиться между собой во внутреннем смысловом соответствии, быть качественно однородными по психологической сущности. Если, например, тест измеряет индивидуальные особенности мышления, умение выполнять логические действия с определенными объектами, понятиями, то и в критерии нужно искать проявление именно этих умений. Это в равной степени относится и к профессиональной деятельности. Она имеет не одну, а несколько целей, задач, каждая из которых специфична и предъявляет свои условия к выполнению. Из этого вытекает существование нескольких критериев выполнения профессиональной деятельности. Поэтому не следует проводить сопоставление успешности по диагностическим методикам с производственной эффективностью в целом. Необходимо найти такой критерий, который по характеру выполняемых операций соотносим с методикой.
Если относительно внешнего критерия неизвестно, релевантен он измеряемому свойству или нет, то сопоставление с ним результатов психодиагностической методики становится практически бесполезным. Оно не позволяет прийти к каким-либо выводам, которые могли бы дать оценку валидности методики.
Требования свободы от помех вызываются тем, что, например, учебная или производственная успешность зависит от двух переменных: от самого человека, его индивидуальных особенностей, измеряемых методиками, и от ситуации, условий учебы, труда, которые могут привнести помехи, «загрязнить» применяемый критерий. Чтобы в какой-то мере избежать этого, следует отбирать для исследования такие группы людей, которые находятся в более или менее одинаковых условиях. Можно использовать и другой метод. Он состоит в корректировке влияния помех. Эта корректировка носит обычно статистический характер. Так, например, производительность следует брать не по абсолютным значениям, а в отношении к средней производительности рабочих, работающих в аналогичных условиях.
Когда говорят, что критерий должен иметь статистически достоверную надежность, это означает, что он должен отражать постоянство и устойчивость исследуемой функции.
Поиски адекватного и легко выявляемого критерия относятся к очень важным и сложным задачам валидизации. В западной тестологии много методик дисквалифицировано только потому, что не удалось найти подходящего критерия для их проверки. Например, у большей части анкет данные по их валидности сомнительны, так как трудно найти адекватный внешний критерий, отвечающий тому, что они измеряют.
Оценка валидности методик может носить количественный и качественный характер.
Для вычисления количественного показателя - коэффициента валидности - сопоставляются результаты, полученные при применении диагностической методики, с данными, полученными по внешнему критерию, тех же лиц. Используются разные виды линейной корреляции (по Спирмену, по Пирсону).
Сколько испытуемых необходимо для расчета валидности?
Практика показала, что их не должно быть меньше 50, однако лучше всего более 200. Часто возникает вопрос, какой должна быть величина коэффициента валидности, чтобы она считалась приемлемой? В общем отмечается, что достаточно того, чтобы коэффициент валидности был статистически значим. Низким признается коэффициент валидности порядка 0,20-0,30, средним - 0,30-0,50 и высоким - свыше 0,60.
Но, как подчеркивают А. Анастази , К. М. Гуревич и др., не всегда для вычисления коэффициента валидности правомерно использовать линейную корреляцию. Этот прием оправдан лишь тогда, когда доказано, что успех в какой-то деятельности прямо пропорционален успеху в выполнении диагностической пробы. Позиция зарубежных тестологов, особенно тех, кто занимается профпригодностью и профотбором, чаще всего сводится к безоговорочному признанию того, что для профессии больше подойдет тот, кто больше выполнил заданий в тесте. Но может быть и так, что для успеха в деятельности нужно обладать свойством на уровне 40 % решения теста. Дальнейший успех в тесте уже не имеет никакого значения для профессии. Наглядный пример из монографии К. М. Гуревича : почтальон должен уметь читать, но читает ли он с обычной скоростью или с очень большой скоростью - это уже не имеет профессионального значения. При таком соотношении показателей методики и внешнего критерия наиболее адекватным способом установления валидности может быть критерий различий.
Возможен и другой случай: более высокий уровень свойства, чем это требует профессия, служит помехой профессиональному успеху. Так, еще на заре XX в. американский исследователь Ф. Тейлор нашел, что наиболее развитые работницы производства имеют невысокую производительность труда. То есть высокий уровень их умственного развития мешал им высокопроизводительно трудиться. В этом случае для вычисления коэффициента валидности более подошел бы дисперсионный анализ или вычисление корреляционных отношений.
Как показал опыт работы зарубежных тестологов, ни одна статистическая процедура не в состоянии полностью отразить многообразие индивидуальных оценок. Поэтому часто для доказательства валидности методик используют другую модель - клинические оценки. Это не что иное, как качественное описание сущности изучаемого свойства. В этом случае речь идет об использовании приемов, не опирающихся на статистическую обработку.
Вопросы и задания
1. Дайте определение понятию «стандартизация методик».
2. Что такое репрезентативная выборка? Как она строится?
3. Назовите приведенные в главе критерии оценки результатов диагностических испытаний.
4. Что такое надежность методики? Назовите виды надежности.
5. Что такое валидность методики? Назовите ее основные виды.
1. Анастази А. Психологическое тестирование: В 2 кн. / Под ред. К. М. Гуревича, В. И. Лубовского. Кн. 1. - М., 1982.
2. Бурлачук Л. Ф. Психодиагностика. - СПб., 2003.
3. Бурлачук Л. Ф., Морозов С. М. Словарь-справочник по психологической диагностике. - Киев, 1989.
4. Гайда В. К., Захаров В. П. Психологическое тестирование. - Л., 1982.
5. Гуревич К. М. О надежности психофизиологических показателей // Проблемы дифференциальной психофизиологии. Т. 6. - М., 1969.
6. Гуревич К. М. Надежность психологических тестов // Психологическая диагностика. Ее проблемы и методы. - М., 1975.
7. Гуревич К. М. Статистика - аппарат доказательства психологической диагностики // Проблемы психологической диагностики. - Таллин, 1977.
8. Гуревич К. М. Что такое психологическая диагностика. - М., 1985.
9. Гуревич К. М. Проблемы дифференциальной психологии. - М.; Воронеж, 1998.
10. Носс И. Н. Введение в технологию психодиагностики. - М., 2003.
11. Общая психодиагностика / Под ред. А. А. Бодалева, В. В. Столина. - М., 1987.
12. Основы психодиагностики / Под ред. А. Г. Шмелева. - Ростов н/Д, 1996.
Часть II
ДИАГНОСТИКА
КОГНИТИВНОЙ
СФЕРЫ