Главная Учебники - Разные Лекции (разные) - часть 12
Бодалев А.А.
Столин В.В.
Аванесов В.С.
ОБЩАЯ ПСИХОДИАГНОСТИКА
СПб.: Изд-во «Речь», 2000. -440 стр. ISBN 5-9268-0026-1 ISBN 5-9268-0015-3 СПб.: Изд-во «Речь», 2006 Общая психодиагностика. Бодалев А.А.
Столин В.В.
Аванесов В.С.
В учебнике известных отечественных психологов представлены различные школы и направления мировой психодиагностики. Книга изобилует научными фактами, описаниями экспериментов и лабораторных работ, богата иллюстрирована практическими и методическими материалами. Авторы: А. А. Бодалев - предисловие, введение, заключение. В. В. Столин - предисловие, введение, глава 1, глава 9 (§§ 9.1, 9.2,9.3, 9.4, 9.5), заключение. В. С. Аванесов - глава2 (§2.1). В. С. Бабина – глава 6(§ 6.4). Е. М. Борисова -глава5. В. Б. Быстрицкас - глава 7 (§ 7.1). А. В. Визгина - глава 9 (§ 9.4). А. И. Зеличенко - глава 3 (§ 3.5). М. Ш. Магомед-Эминов - глава 6 (§§ 6.1, 6.2). Ю. М. Орлов - глава 6 (§ 6.3). С. Р. Пантилеев - глава 9 (§ 9.5). В. И. Похилько - глава 4, глава 8. В. Е. Семенов - глава 2 (§ 2.3). Е. Т. Соколова - глава 2 (§ 2.2), глава 7 (§ 7.2), глава 9 (§ 9.6), Е. О. Федотова - глава 9 (§ 9.6). Г. Т. Хоментаускас - глава 7 (§§ 7.1, 7.3). А. Г. Шмелев - глава 1, глава 3 (§§ 3.1, 3,2, 3.3, 3.4, 3,5, 3.6), глава 4, глава 6 (§ 6.4). А. М, Эткинд - глава 7 (§ 7.4). © Бодалев А.А., Столин В. А., 2000. © Издательство «Речь», 2000. © Борозенец П. В. (оформление), 2000 СОДЕРЖАНИЕ
Глава 1.
Психодиагностика как наука и как практическая деятельность
1.1. Научная психодиагностика и психодиагностическая практика
1.2. Классификации психодиагностических методик
1.3. Психодиагностические задачи
1.4. Дифференциальная психометрика
1.5. Нормативные предписания разработчикам и пользователям психодиагностических методик
1.5.2. Требования к пользователям
1.5.3. Использование методик специалистами-смежниками
Глава
2. Из истории психодиагностики
2.1. Из истории психологических тестов
2.2. Из истории проективного метода
2.3. Из истории контент-анализа как психодиагностической процедуры
Глава
3. Психометрические основы психодиагностики
3.1. Репрезентативность тестовых норм
3.4. Технология создания и адаптации методик
3.5. Прогнозирование и распознавание образов
3.6. Требования к психометрической подготовке психолога.
Глава 4
Психодиагностика черт личности
Глава
5. Психодиагностика способностей
5.4. Области применения тестов способностей
Глава 6.
Психодиагностика мотивации
6.2. Измерение мотивации достижения
6.3. Опросник для измерения потребности в достижении
Глава
7. Психодиагностика межличностных отношений
7.2. «Совметный тест Роршаха» для диагностики нарушений семейного общения
7.3.1. Диагностическая процедура
7.3.2. Интерпретация методики «Рисунок семьи»
Глава 8.
Психодиагностика индивидуального сознания
Глава 9.
Психодиагностика самосознания
9.1. Самосознание как объект психодиагностики
9.2. Методики психодиагностики самосознания
9.4. Методика управляемой проекции
9.5. Методы измерения локуса контроля
9.6. Методика косвенного измерения системы самооценок (КИСС)
ПРЕДИСЛОВИЕ
Психология наших дней - не только теоретическая дисциплина, изучающая человека, но и система прикладного знания, позволяющая и психологу-практику, и специалисту-смежнику (педагогу, руководителю, тренеру, врачу) совершенствовать свою работу с людьми. Предлагаемая читателю книга посвящена психодиагностике - разделу психологического знания, формирующемуся на стыке фундаментальных отраслей психологии с практическими запросами жизни. Современная психодиагностика все шире используется в таких областях социальной практики, как: 1) расстановка кадров, профподбор и профориентация; 2) прогнозирование социального поведения, например стабильности брака, законопослушности; 3) оптимизация обучения и воспитания; 4) консультативная и психотерапевтическая помощь; 5) судебная психолого-психиатрическая экспертиза; 6) прогнозирование психологических последствий изменения среды. Помимо этого, психодиагностические методики – один из инструментов научных исследований в психологии личности и межличностных отношений. Конкретная практическая польза от применения психодиагностики зависит от уровня социально-экономического развития общества и связанной с ним степени влиятельности субъективного, человеческого фактора в сфере производства и экономики в целом. В современном мире психодиагностика служит интересам общества в целом и интересам конкретных его членов (учащихся, пациентов здравоохранительных органов, клиентов психологических консультаций и т. д.). Еще одно важнейшее условие полезности использования психодиагностики – это ее научность, основанная на знании принципов формирования и природы диагностируемых качеств, на знании закономерностей процесса психодиагностики и характеристик ее инструментов. Психодиагностика, как уже отмечалось, используется в конкретных областях жизнедеятельности людей: в здравоохранении, в спорте, в школьном и вузовском обучении, на производстве, в семейных консультациях и т. д. В каждой из этих областей существуют специфические условия использования психодиагностических средств, специфические психодиагностические задачи и методы, составляющие предмет частных или специальных психодиагностик (профессиональной, спортивной, клинической и т. д.). Помимо этих частных вопросов в психодиагностике существуют и более общие, универсальные вопросы, решение которых составляют предмет общей психодиагностики, К ним относятся: 1) методологические, теоретические и конкретно-методические принципы построения психодиагностических инструментов и формулирования психодиагностических заключений; 2) методики психодиагностики наиболее универсальных объектов психодиагностических обследований, таких как черты личности, способности, мотивы, сознание и самосознание, межличностные отношения; 3) дифференциальная психометрика как математизированная методология обнаружения межиндивидуальных различий; 4) нормативные требования к методикам, их разработчикам и пользователям. Этим вопросам и посвящена предлагаемая вниманию читателя книга. По своему жанру она обладает одновременно характеристиками монографического исследования и руководства для специалистов и студентов-психологов. С монографией ее сближает достаточно подробное освещение истории психодиагностики, включение дискуссионных вопросов о природе и строении того или иного диагностируемого качества или психической характеристики, описание как уже имеющихся популярных психодиагностических методик, так и оригинальных, разработанных авторами книги, большое количество ссылок на работы других авторов. Возможность использовать книгу в качестве руководства обусловлена попыткой не просто сориентировать читателя в данной области знания, но и представить необходимые данные для проверки и отладки психометрических характеристик вновь создаваемых или адаптируемых методик, а также для первоначального овладения некоторыми из имеющихся методик. При этом, однако, мы исходили из недопустимости публикации большим тиражом текстов методик, ключей и нормативных данных. Это решение связано как с тем обстоятельством, что знание методики обследуемым снижает ее диагностическую ценность, так и с необходимостью воспрепятствовать бесконтрольному использованию методик неспециалистами. Кажущаяся простота методик приводит к попыткам их использования лицами, не получившими специальной подготовки, не понимающими ни «устройства» методики, ни природы обследуемых качеств, ни специфики психодиагностической ситуации. Такое непрофессиональное использование инструментов, созданных для специалистов, может привести не только к дискредитации психодиагностики, но и к нанесению прямого или косвенного вреда обследуемым. Поэтому необходимые психодиагностические материалы (тексты опросников, нормы, ключи) предполагается выпустить отдельной брошюрой, предназначенной для специалистов... В заключение хочется выразить надежду, что книга окажется полезной всем, кто готовится к работе или работает в области психодиагностики, а также заранее поблагодарить всех читателей, которые пришлют свои отзывы о книге. А, А. Бодалев, В. В. Столин Современная психология оказывает воздействие на практическую деятельность людей различными путями. Один из таких путей - это непосредственная психологическая помощь различным категориям населения. Психолог; получивший специальную подготовку, способен оказать консультативную психологическую помощь родителям в воспитании детей, супругам в ситуации семейного кризиса, детям, у которых нарушен ход нормального развития личности, юношам и девушкам в выборе профессии, руководителям в формировании стиля и приемов общения и многим другим. Психологическое консультирование основано на знании психологом не только предмета анализа и обсуждения (семейные и производственные, внутри- и межличностные конфликты), но и закономерностей самого процесса консультирования, его стратегии и тактики. Люди нуждаются в психологической помощи в ситуации как объективно существующего, так и субъективно переживаемого неблагополучия. Это переживание может быть острым и выражаться в глубоком недовольстве собой, окружающими, жизнью в целом, а иногда и в страдании. В таких случаях требуется оказание не просто консультативной, но и психотерапевтической помощи. Если страдания человека складываются в клиническую картину заболевания и человек обращается к врачу, то психотерапевтическая помощь носит медицинский характер и оказывается врачом-психотерапевтом или психологом под руководством врача. Во многих случаях, однако, требуется психотерапевтическая помощь несколько иного характера. По своей форме и цели это психотерапевтическое вмешательство совпадает с тем, которое используется при лечении больных. Оно совершается в форме беседы, дискуссии, игры (т. е. в форме общения) и направлено на избавление человека от страданий и ликвидацию причин, его вызвавших. Это вмешательство, однако, отличается от медицинского по двум существенным аспектам: 1) природа неблагополучия кроется не в болезненных процессах, происходящих в организме человека, а в особенностях его личности, специфике жизненной ситуации и характере взаимоотношений с окружающими; 2) обращающийся за помощью и объективно не является, и субъективно не признаёт себя больным. В какой бы форме ни осуществлялась психологическая помощь: в форме психологического консультирования или в форме немедицинской психотерапии, она обладает общей характеристикой - индивидуализированностью своей направленности. Эта индивидуализация базируется на глубоком проникновении в личность обратившегося за помощью, в его чувства, переживания, установки, картину мира, структуру взаимоотношений с окружающими. Для такого проникновения часто недостаточно одного лишь психологического чутья и интуиции, требуются специальные - психодиагностические - методы. Внутренняя необходимая связь психологического консультирования, немедицинской психотерапии и психодиагностики и обусловила название серии, в которой выходит данная коллективная монография. В самом общем виде психодиагностика – эта наука и практика постановки психологического диагноза. Термин «психодиагностика», распространившийся в психиатрии после появления книги Г. Роршаха «Психодиагностика» (Rorschach Н., 1921), довольно быстро вышел за пределы медицины. Термин «диагноз» начал пониматься как распознавание любого отклонения от нормального функционирования или развития и даже как определение состояния конкретного объекта (индивида, семьи, малой группы, той или иной психической функции или процесса у конкретного лица). Понятие «психодиагностика» распространилось и на профилактическое обследование индивидов и групп. Диагностическое исследование (точнее - обследование) обладает важной характеристикой, отличающей его от научного исследования. Психолог-исследователь (в том числе и исследователь в области психодиагностики) ориентирован на поиск неизвестных закономерностей, связывающих абстрактные переменные, использует «известных» (т. е. определенных по какому-либо признаку) испытуемых и пренебрегает их индивидуальными отличиями и эмпирической целостностью. Для пеиходиагностат-практика именно эти индивидуальные отличия и эмпирическая целостность являются объектом изучения; он ориентирован на поиск известных закономерностей в «неизвестных» обследуемых. Психодиагностические задачи могут решаться различными способами. Один из таких способов - это длительное наблюдение за обследуемым, совершаемое в ходе оказания ему помощи (в ходе консультирования, психотерапии). Другой способ - это наблюдение за обследуемым в реальных условиях его жизни, например, наблюдение за поведением ребенка в детском саду. Эти способы дают очень ценные сведения о человеке, однако они крайне трудоемки, не всегда доступны и дают информацию не до начала работы психолога, а уже в ходе такой работы (которая может оказаться и излишней). Поэтому в психодиагностике получили распространение специальные методики, используемые не только в сфере консультирования и психотерапии, но и во всех тех случаях, когда необходимо получить оценку той или иной психической характеристики конкретного индивида. Эти методики обладают следующими особенностями: 1) они позволяют собрать диагностическую информацию в относительно короткие сроки; 2) они представляют информацию не вообще о человеке, а о тех или иных его конкретных особенностях {интеллекте, тревожности, самооценки, чувстве юмора, наиболее характерных личностных чертах и т. п.); 3) информация поступает в виде, позволяющем дать качественное и количественное сравнение обследуемого индивида с другими людьми; 4) информация, получаемая с помощью психодиагностических методик, полезна с точки зрения выбора средств вмешательства, прогноза их эффективности, а также прогноза развития, общения, эффективности той или иной деятельности индивида. Принципы разработки психодиагностических средств и их конкретное воплощение в диагностических методиках, включая их методологическое и теоретическое обоснование, проверку валидности и надежности, входят в предмет общей психодиагностики. Развитие этой области знания в нашей стране шло неравномерно. Интенсивное развитие психодиагностики в 20-х и начале 30-х годов оказалось затем приостановленным благодаря неконтролируемому, непрофессиональному и расширительному использованию тестов. В результате в развитии отечественной психодиагностики наметилось отставание, которое стало интенсивно преодолеваться с начала 70-х годов. Большую работу в этом направлении проводит научный коллектив Санкт-Петербургского психоневрологического института имени В. М. Бехтерева[1]
. Издаются монографии, посвященные частным, или специальным, психодиагностикам[2]
. Русскоязычному читателю становятся доступными зарубежные издания[3]
. Вновь разрабатываются фундаментальные вопросы общей психодиагностики[4]
. Предлагаемая вниманию читателя книга содержит систематическое изложение ряда разделов общей психодиагностики. В ней освещаются вопросы теории и истории психодиагностики, подробно описываются приемы, используемые при психометрической отладке, проверке и разработке психодиагностических инструментов. Ряд глав посвящен психодиагностике отдельных психических характеристик, которые наиболее часто становятся предметом изучения психодиагноста или психолога-исследователя. К ним относятся черты личности, мотивация, межличностные взаимоотношения, способности, сознание и самосознание. В то же время, некоторые традиционные разделы общей психодиагностики, уже получившие освещение в литературе (например, психодиагностика интеллекта), не представлены в книге. В каждой главе, посвященной конкретной предметной области психодиагностики, приводится обзор существующих методик и, как правило, более подробно излагаются те из них, которые авторами рекомендуются к использованию. Изложение этих последних методик отражает тот этап, на котором находятся их теоретическая разработка и психометрическая отладка. Превращение психодиагностических методик в надежный инструмент науки и практики зависит от интенсивности усилий многих исследователей, проверки и перепроверки получаемых данных. ГЛАВА 1 ПСИХОДИАГНОСТИКА КАК НАУКА И КАК ПРАКТИЧЕСКАЯ ДЕЯТЕЛЬНОСТЬ
1.1.
НАУЧНАЯ ПСИХОДИАГНОСТИКА И ПСИХОДИАГНОСТИЧЕСКАЯ ПРАКТИКА
Психодиагностика - и теоретическая дисциплина, и сфера практической деятельности психолога. Как теоретическая дисциплина общая психодиагностика рассматривает закономерности вынесения валидных и надежных диагностических суждений, правила «диагностических умозаключений», с помощью которых осуществляется переход от признаков или индикаторов определенного психического состояния, структуры, процесса к констатации наличия и выраженности этих психологических «переменных». Иногда такие правила сравнительно просты, иногда довольно сложны, в одних случаях «встроены» в сам диагностические инструмент, в других - требуют особой работы с диагностическими показателями: стандартного сравнения профилей, расчета интегральных показателей, сопоставления с альтернативными диагностическими пробами, экспертной интерпретации, выдвижения и отбрасывания гипотез. Психодиагностика как теоретическая дисциплина тесно связана с соответствующими предметными областями психологической науки. Выделяемая для психодиагностики переменная должна иметь теоретический смысл в соответствующей области науки и практическую значимость для решения той или иной научной или прикладной задачи. Теоретическая обоснованность выделения, например, тех или иных личностных черт, тех или иных мотивов, - непременное условие успешности разработки диагностической процедуры, недооценка которого приводит к построению «фантомной» психодиагностики: ищутся способы выявления того, чего на самом деле не существует. Связь психодиагностики, с одной стороны, и теоретико-экспериментальной психологии - с другой, имеет двусторонний характер. Психодиагностика в целом - не только воплощение понятий соответствующих дисциплин в конкретных методиках, но и способ проверки истинности теоретико-психологических построений. Если, например, предполагается, что деятельность людей существенно отличается по мотивам, то должны быть найдены методы, выявляющие различные мотивы у разных людей. Если предполагается, что не существует психически здорового человека, который не имел бы какой-либо мотивации, то не может существовать валидных методов, которые бы диагностировали отсутствие всякой мотивации у конкретного лица, не являющегося психически больным. Если бы относительно некоторых теоретически выделенных мотивов оказалось невозможным обнаружить дифференциально-психологические различия или была бы обнаружена группа психически здоровых людей, у которых отсутствовала всякая мотивация, то это означало бы существенную недоработку самого понятия мотива. Общая психодиагностика преимущественно связана с общей, социальной и дифференциальной психологиями, частная психодиагностика - с такими областями психологии, как медицинская, возрастная, консультативная, юридическая, военная психология, психология труда, спорта и т. д. Психология соответствующей предметной области составляет одну из составных частей психодиагностики. Другая базовая дисциплина, являющаяся фундаментом общей психодиагностики и тем самым составной ее частью, - это дифференциальная психометрика, наука, обосновывающая и разрабатывающая измерительные диагностические методы; этому разделу общей психодиагностики посвящены специальный раздел в данной главе и отдельная глава в книге. Третье основание психодиагностики — практические сферы применения психологического знания, которые выдвигают психодиагностические задачи и обосновывают выделение комплексных, интегральных переменных, выступающих как объекты психодиагностики. Так, например, существуют профессии, в которых чрезвычайно важна стрессоустойчивость – способность сохранять контроль и работоспособность в угрожающих ситуациях. Значимость этой переменной выделена практикой - если бы не существовало профессий, которые связаны со стрессом, не было бы необходимости ее диагностировать. Однако практика не только показывает важность того или иного качества, но и позволяет выделить само диагностируемое качество. Научная психология пытается выразить эти качества через систему понятий; в результате такие комплексные понятия, как стрессоустойчивость, профессиональная эффективность, способность и т. д., выражаются через систему базисных психологических понятий, таких, как потребности, мотивы, умения, установки. Конечно, такой переход от эмпирически выделенных переменных к их выражению в теоретических понятиях происходит не сразу и не автоматически. Зачастую происходит параллельная диагностическая разработка практически важных комплексных (не только психологических по природе) переменных, более теоретически проработанных, но все же описательных психологических переменных (например, черты, способности) и, наконец, наиболее теоретичных психологических конструктов (например, познавательные функции, мотивы, когнитивная организация, самоотношение и т. д.). Таким образом, теоретическая психодиагностика обусловлена тремя областями психологического знания: предметной областью психологии, изучающей данные явления, психометрикой – наукой об измерении индивидуальных различий в диагностируемых переменных и практикой использования психологического знания. Практическая психодиагностика относится к теоретической так же, как инженерная эксплуатация технических устройств к их разработке и конструированию. Как и всякая эксплуатация достаточно сложных устройств в реальных, «полевых» условиях, практическая психодиагностика предполагает полезные навыки, интуицию, богатый клинический, да и житейский, опыт. Помимо этого практическая психодиагностика предполагает свод правил применения психодиагностических инструментов, основанных на знании свойств измеряемых переменных и измеряющих инструментов, на знании этических и профессиональных норм психодиагностической работы. Так, практик-психодиагност должен понимать и уметь квалифицировать условия проведения обследования и учитывать их при сопоставлении индивидуальных данных с нормативами. Например, если при проведении обследования какие-то элементы обстановки насторожили обследуемого и ситуация обследования превратилась для него в ситуацию экспертизы, то это обстоятельство может сделать невозможным сопоставление индивидуального результата с нормами, если последние были получены в ситуации доверительного контакта. И наоборот, если нормы получены в ситуации экспертизы, а конкретное обследование имеет доверительный характер, то соотнесение с нормами также становится некорректным. Все это психодиагност должен не только знать - он должен выяснить, как воспринимает ситуацию обследуемый. Практическая психодиагностика предполагает также учет мотивации клиента на обследование и знание способов ее поддержания, умение оценить состояние обследуемого в целом, знание и навыки сообщения информации обследуемому о нем самом, чуткость к действиям, которые непроизвольно могли бы нанести вред обследуемому, способность интерпретировать полученную информацию и многое другое. 1.2.
КЛАССИФИКАЦИИ ПСИХОДИАГНОСТИЧЕСКИХ МЕТОДИК
В настоящее время существует несколько достаточно обоснованных классификаций психодиагностических методик. Во-первых, можно различать диагностические методы, основанные на заданиях, которые предполагают правильный ответ, либо на заданиях, относительно которых правильных ответов не существует К первой группе относятся многие тесты интеллекта, тесты специальных способностей, некоторых личностных черт (например, тест Равена, диагностическая процедура определения полезависимости-поленезависимости Уиткина, тест ригидности Лучинса и др.). Диагностические методики второй группы состоят из заданий, которые характеризуются лишь частотой (и направленностью) того или иного ответа, но не его правильностью. Таковы большинство личностных опросников (например, тест 16PF Р Кеттелла): Во-вторых, можно различать вербальные и невербальные психодиагностические методики. Первые так или иначе опосредованы речевой активностью обследуемых; составляющие эти методики задания апеллируют к памяти, воображению, системе убеждений в их опосредованной языком форме. Вторые включают речевую способность испытуемых только в плане понимания инструкций, само же выполнение задания опирается на невербальные способности - перцептивные, моторные. Третье основание, используемое для классификации психодиагностических методик, - это характеристика того основного методического принципа, который положен в основу данной методики. По этому основанию обычно различают: 1) объективные тесты; 2) стандартизованные самоотчеты, которые в свою очередь включают: а) тесты-опросники; б) открытые опросники, предполагающие последующий контент-анализ; в) шкальные техники, построенные по типу семантического дифференциала Ч. Осгуда; и методики классификации; г) индивидуально ориентированные техники типа ролевых репертуарных решеток; 3) проективные техники; 4) диалогические (интерактивные) техники (беседы, интервью, диагностические игры)[5]
. Объективные тесты - это те методики, в которых возможен правильный ответ, т. е. правильное выполнение задания. Общим для всей группы методик стандартизованного самоотчета является использование вербальных способностей испытуемого, а также обращение к его мышлению, воображению, памяти. Тесты-опросники предполагают набор пунктов (вопросов, утверждений), относительно которых испытуемый выносит суждения (как правило, используется двух- или трехальтернативный выбор ответов). Одна и та же психологическая переменная представляется группой пунктов (не менее 6). Пункты теста-опросника могут быть прямыми, апеллирующими непосредственно либо к опыту субъекта (например: Боитесь ли Вы темноты?), либо к мнениям, суждениям испытуемого, в которых косвенно проявляются его личный опыт или переживания (например: Большинство людей честны?) Опросники строятся как одномерные или многомерные, включающие в себя целый ряд психологических переменных. Открытые опросники не предусматривают стандартизованного ответа испытуемого; стандартизация обработки достигается путем отнесения произвольных»ответов к стандартным категориям. Шкальные техники предполагают оценку тех или иных объектов (словесных утверждений, изобразительного материала, конкретных лиц и т. п.) по выраженности в них качества, заданного шкалой (например: «теплый - холодный», «сильный - слабый»). Обычно используются трех-, пяти- и семиточечные шкалы. Особый вариант шкалирования – это субъективная классификация, предполагающая выявление субъективного структурирования объектов на уровне шкалы наименований. Индивидуально-ориентированные (идеографические) техники типа репертуарных решеток могут по форме совпадать со шкальными, опросными методами, напоминать беседу или интервью. Их основное отличие от тестов-опросников состоит в том, что параметры, которые оцениваются (оси, измерения, конструкты), не задаются извне, а выделяются на основе индивидуальных ответов данного конкретного испытуемого. Отличие этих методов от метода интервью состоит в том, что репертуарные решетки позволяют осуществлять применение современного статистического аппарата и делают надежными диагностические выводы относительно индивидуальных особенностей субъекта. Проективные техники основаны на том, что недостаточно структурированный материал, выступающий в качестве «стимула», при соответствующей организации всего эксперимента в целом порождает процессы фантазии, воображения, в которых раскрываются те или -иные характеристики субъекта. В клиническом употреблении проективные техники часто строятся на интуиции и теоретической подготовке психодиагноста, которые оказываются необходимыми на этапе интерпретации данных. Исследовательское употребление проективных техник предполагает, как правило, применение контент-аналитических процедур, стандартизирующих обработку данных. Диалогические техники учитывают, что психодиагност вступает в контакт с обследуемым и достигает наилучших диагностических результатов за счет специфических особенностей этого контакта, релевантных диагностической задаче. Так, доверительный контакт необходим при диагностике семейных затруднений, характера личностного развития ребенка и во многих других случаях, в которых диагност одновременно выступает в роли и консультанта, и психотерапевта. Ситуация диагностического патопсихологического обследования диктует построение общения по принципу экспертизы. Диалогические техники могут быть вербальными (интервью, беседы) и невербальными (например, игра с ребенком может выступать как невербальная диагностическая процедура). Различные методические приемы, на основе которых строятся те или иные методики, можно расположить на одной шкале, если за единое основание классификации принять меру вовлеченности в диагностическую процедуру самого психодиагноста и степень его влияния на результат обследования. Аппаратурные методики и объективные психологические тесты обладают наименьшей вовлеченностью психодиагноста в процедуру психодиагностики, минимальным влиянием личности психодиагноста и его опытности как психолога на результаты обследования. Почти столь же малой степенью вовлеченности психодиагноста обладают и некоторые формы стандартизованных самоотчетов - многие опросники и шкальные техники. Можно сказать, что в этих методиках личные качества психолога воплотились на этапе разработки методики; сама же процедура обследования, как и фиксация ее результата, оказывается рутинной операцией, которая в принципе может выполняться с помощью лаборанта-непсихолога или по компьютерной программе. Диагностические техники, напротив, характеризуются максимальной степенью вовлеченности психодиагноста в процесс психодиагностики, максимальным влиянием его опытности, профессиональных навыков, способностей в сфере общения на результаты обследования. Этими качествами обладают различные виды бесед, интервью, диагностических игр. Например, патопсихологический эксперимент как особый психодиагностический метод характеризуется высокой степенью вовлеченности психодиагноста: должен быть создан «мотив» экспертизы (обследуемый должен понимать, что на основе его ответов будет сделано важное для него диагностическое заключение), результаты отдельных проб интерпретируются в зависимости от того, насколько выражен этот мотив (по мнению психодиагноста). Не менее явным оказывается влияние психодиагноста на результаты диагностического заключения, выносимого на основе беседы с клиентом психологической консультации. Своими реакциями, ответными репликами, манерой держаться психодиагност может как создать оптимальные условия для получения диагностически важной информации, так и полностью исказить эту информацию, ее смысл. Все остальные психодиагностические методики занимают промежуточное положение между двумя полюсами, образованными объективными тестами и диалогическими техниками. Уже многомерные тесты-опросники, предполагающие анализ профиля и интерпретацию отдельных шкал в зависимости от значений других и характера профиля в целом, требуют клинической опытности психодиагноста и, следовательно, на этапе психодиагностичен, кого заключения не свободны от влияния личности диагноста. Не менее значимым является это влияние и при необходимости кодирования результатов обследования, полученные с помощью открытых опросников либо проективных техник В последнем случае существенное значение имеет создание психодиагностом атмосферы, раскрывающей способности испытуемого к воображению, творчеству. Если ввести одновременно два основания - меру вовлеченности психодиагноста, его влияние на результаты обследования, с одной стороны, и предметную направленность инструмента - с другой, то известные на сегодня психодиагностические методики можно расположить в двухмерной классификационной таблице. Соответствующие методики окажутся расположенными в клетках таблицы, при этом столбцы будут заполнены неравномерно по строкам таблицы. Так, способности и психические функции диагностируются в основном методами, влияние психодиагноста в которых выражено минимально, - в основном объективными тестами и тестами-опросниками. Личностные черты преимущественно диагностируются тестами-опросниками; когнитивная организация, другие индивидуальные свойства выявляются преимущественно методиками среднего уровня (по степени влияния психодиагноста на процесс диагностики) - репертуарными решетками, проективными техниками. Мотивация, отношение диагностируются преимущественно проективными техниками. Роль диалогических методик, обладающих максимальной степенью включенности психодиагноста, особенно важна в области диагностики взаимоотношений, общения (таких свойств, актуализация которых требует воссоздания реальных ситуаций общения). Приведенная в данном разделе классификация отражает достаточно грубо лишь общие черты психологических диагностических методик - более конкретно вопрос о классификациях обсуждается в соответствующих главах книги. Однако и в таком виде предлагаемая классификация обладает эвристической ценностью. Если заполнить все клетки табл. 1, станет видно, где существует нехватка методов определенного типа. Так, например, явно не хватает методик диалогического типа для определения способностей (см. главу 5), поскольку' эффективная демонстрация способностей у некоторых субъектов существенно зависит от условий психодиагностики и характера контакта с психодиагностом. Пользователь психодиагностических методик, так же как их разработчик, может расчертить и заполнить подобную таблицу для себя и вписать в клетки известные ему методики. Это позволит ему лучше представить себе, какими методами необходимо овладеть и где возникаетнеобходимость в поиске и научной разработке методов. Таблица 1 Основания классификации психодиагностических методик Влияние психодиагноста на результат обследования Предмет психодиагностики Способности психические функции Личностные черты Когнитивная организация и другие индивидуальные характеристики субъективного опыта Мотивация, отношение Характеристики общения, взаимодействия Минимальное Среднее Максимальное 1.3. ПСИХОДИАГНОСТИЧЕСКИЕ ЗАДАЧИ
Общая психодиагностика в известной степени отвлекается от специфических диагностических задач, возникающих в различных частных областях психодиагностики. Однако психодиагност должен представлять себе эти задачи, поскольку они существенно определяют ограничения в использовании методов. Одно из важных различий относится не только к задачам, но ив целом к ситуациям психодиагностики. Это различение ситуации клиента и ситуации экспертизы. В первой ситуации человек обращается за помощью к психологу, он охотно идет на сотрудничество, старается выполнить инструкции как можно более точно, не имеет сознательных намерений приукрасить себя или фальсифицировать результаты. Во второй ситуации человек знает, что подвергается экспертизе, старается выдержать «экзамен», а для этого вполне осознанно контролирует свое поведение и свои ответы так, чтобы предстать в максимально выигрышном свете (или добиться своей цели даже ценой симуляции отклонений и расстройств). В ситуации клиента к диагностическому инструменту можно предъявлять гораздо менее жесткие требования относительно его защищенности от фальсификации вследствие сознательной стратегии, чем в ситуации экспертизы. Психодиагностические задачи (и ситуации психодиагностики в целом) можно различать также с точки зрения того, кто и как будет использовать диагностические данные и какова ответственность психодиагноста за выбор способов вмешательства в ситуацию обследуемого. Кратко опишем эти ситуации. 1. Данные используются специалистом-смежником для постановки непсихологического диагноза или формулирования административного решения. Эта ситуация типична для использования психодиагностических данных в медицине. Психолог выносит суждение о специфических особенностях мышления, памяти, личности больного, а врач ставит медицинский диагноз. Психолог не несет ответственности ни за диагноз, ни за то, какое именно лечение будет проведено больному врачом. По той же схеме происходит использование психодиагностических данных при психодиагностике по запросу суда, комплексной психолого-психиатрической экспертизе, психодиагностике профессиональной компетентности работника или профпригодности по запросу администрации. 2. Данные используются самим психодиагностом для постановки психологического диагноза, хотя вмешательство в ситуацию обследуемого осуществляется специалистом другого профиля. Такова, например, ситуация психодиагностики применительно к поиску причин школьной неуспеваемости: диагноз имеет психологический (или психолого-педагогический) характер, а работу по его реализации в жизнь проводят учителя, родители, другие воспитатели[6]
. 3. Данные используются самим психодиагностом для постановки психологического диагноза, а последний служит ему основанием (или основанием для действий его коллеги-психолога) для разработки путей психологического воздействия. Такова ситуация психодиагностики в условиях психологической консультации. 4. Диагностические данные используются самим обследуемым в целях саморазвития, коррекции поведения и т. п. В этой ситуации психолог несет ответственность за корректность данных, за этические, деонтологические аспекты «диагноза» и лишь частично - за то, как этот диагноз будет использован клиентом. Хотя и не существует жесткого соответствия между характером задачи и психодиагностическим методом, все же можно отметить некоторую предпочитаемость тех или иных методов в конкретных случаях. Так, в ситуациях 1 и 2 методы должны давать «стратегическую» информацию о клиенте, т. е. обеспечивать более или менее долгосрочный прогноз, они также должны позволять соотнесение обследуемого с другими людьми, т. е. предполагать стандартизацию. Поэтому в данных ситуациях наиболее часто употребляются объективные тесты и тесты-опросники, причем последние иногда основаны не на психологических категориях, а на категориях (системе понятий) заказчика. Таковы, например, известный Миннесотский многофакторный личностный опросник и его модификации. В ситуации 3 информация зачастую рассчитана на регулирование тактики практической работы самого психолога, соотнесение с «нормой» имеет меньшее значение, поэтому чаще используются идеографические техники, проективные и диалогические методы. В ситуации 4 главное требование к методам - легкость перевода получаемых с их помощью данных на язык самого обследуемого. Этому условию удовлетворяет, например, тест 16PF Р. Кеттелла, но плохо соответствует MMPI, диагностические описания которого рассчитаны на психиатра. 1.4. ДИФФЕРЕНЦИАЛЬНАЯ ПСИХОМЕТРИКА
Термин «дифференциальная психометрика» в данной книге обозначает науку о дифференциально-психологических измерениях. Дифференциальную психометрику целесообразно отличать от «общей психометрики» (Михалевская М. Б., Измайлов Ч. А., 1983). Общая психометрика имеет дело с задачами измерения психологических характеристик стимула, в частности, моделирует общепсихологические (справедливые для всех людей) функциональные зависимости между свойствами стимулов и свойствами субъективных реакций. В психофизике речь идет об установлении соответствий между физическими характеристиками стимулов и субъективными характеристиками ощущений (сенсорная психофизика в социально-психологических измерениях устанавливается соответствие между рядами социальных объектов (например, разные виды рекламируемых товаров) и определенными психическими реакциями (например, на континууме от «очень нравится» до «очень не нравится»). В дифференциальной психометрике числовые значения (ранги, категориальные шкальные значения) приписываются не стимулам, а индивидам. Дифференциальная психометрика имеет дело с индивидуальными различиями между людьми в качественном и количественном составе психических свойств, каковыми являются способности, отдельные когнитивные функции (память, внимание), мотивы, поведенческие черты, установки, оценки и самооценки, способы психического самосохранения (психической защиты) и т. п. По отношению к психодиагностике и дифференциальной психологии психометрика выступает в статусе технолого-методической дисциплины: она обосновывает требования, которым должны удовлетворять измерительные психодиагностические методы, обосновывает процедуры их разработки и применения. Основываясь на введенном выше основании классификации, современные методы психодиагностики условно можно разделить на две категории: 1) стандартизованные, измерительные методы (будем называть их в дальнейшем «тесты»), 2) экспертные методы, или методы понимания (по традиции, они часто фигурируют под названием «клинические методы»). К первым относятся объективные тесты и стандартизованный самоотчет, ко вторым - проективные и диалоговые методы. В основе первой категории методов лежит соблюдение достаточно строгих и сформулированных в явной форме правил. Эти методы обеспечивают диагноз (и на его основе прогноз) лишь с вероятностной точностью, этот диагноз оказывается более надежным по отношению к группе испытуемых, чем по отношению к отдельному испытуемому. Экспертные методы в большей степени рассчитаны на профессиональный опыт, психологическую интуицию самого психодиагноста. Эти методы оказываются незаменимыми везде, где не разработаны (или неизвестны) стандартизованные процедуры. Они часто оказываются более эффективными по отношению к психическим явлениям, плохо поддающимся объективации (субъективные переживания личностные смыслы, глубинные слои опыта), по отношению к чрезвычайно изменчивым явлениям, для которых трудно создать фиксированную операциональную модель (динамика целей, состояний, настроений, многоплановых отношений в группе). Если их применяет эксперт высокой квалификации, они оказываются более надёжным средством в случае индивидуальной диагностики. Кроме того, не следует забывать, что глубокий экспертный анализ - необходимый первичный этап в разработке всякой стандартизованной процедуры. По мере стандартизации экспертные методы также подлежат количественному обоснованию (Бешелев С. Д., Гурвич Ф. Г., 1980). Достоинства измерительных методов: объективный характер процедуры, возможность перепроверки - обеспечиваются не автоматически, а благодаря выполнению психометрических требований -требований репрезентативности, надежности, валидности (включая достоверность). Краткие определения: репрезентативность -соответствие тестовых норм выборки стандартизации тестовым нормам той популяции, на которой применяется тест; надежность - точность и устойчивость процедуры измерения, ее независимость от варьирующих случайных факторов; валидность - соответствие методики измеряемому концепту. Если эти требования не выполнены, то использование тестов - ничуть не менее произвольная процедура, чем стихийное «вчувствование» эксперта в испытуемого. Более того, в этом случае результат оказывается в нелепой зависимости от комплекса случайных и побочных обстоятельств; психодиагност в своем отношении к тесту уподобляется фаталисту, склонному уповать на жребий и выразившееся в нем «провидение» (при отсутствии каких-либо разумных доводов в пользу того или иного решения). Опасны не тесты сами по себе, а их использование без теории и без психометрики, когда стандартная процедура выполняет фактически лишь роль глухого забора, отгораживающего психодиагноста от реального испытуемого. В этом случае тест служит источником иллюзорного впечатления о возможности освобождения психолога от необходимости наблюдения за весьма информативными признаками поведения испытуемого, его манерами, способами работы над заданиями и т. п. Знание психометрики дает психологу необходимую критичность в понимании ограниченности методик, в понимании тех допущений, которые сделаны при разработке той или иной оценочной шкалы, теста, опросника, системы задач и т. п. Специфика психодиагностических процедур, по сравнению с обычными физическими измерениями, заключается в том, что здесь сама процедура измерения взаимодействует с «объектом» измерения, более того, рождается в этом взаимодействии, зависит от его характеристик и «портится», если эти характеристики меняются. В физических измерениях объект в значительных пределах пассивен и не влияет со своей стороны на физический прибор. Человек, напротив, всегда активен и может применять такую тактику, которую психодиагност при разработке методики вовсе не предусматривал. Диапазон «срабатывания» теста довольно узок и фактически сводится к той популяции, на которой происходила эмпирико-статистическая разработка теста, обеспечивающая его надежность, валидность, репрезентативность тестовых норм. Узость этого диапазона можно сравнить со свойствами пружинного динамометра из мягкого металла: достаточно тяжелый груз, выходящий по весу за допустимые пределы, порождает в пружине необратимые деформации и нарушает изометричность шкалы. Для корректного применения- теста на новой популяции или в новых целях (от целей зависит установка испытуемых в ситуации тестирования) психолог должен провести серию предварительных психометрических экспериментов, направленных на перепроверку надежности, валидности и репрезентативности теста в новых условиях. Перенесение теста с одной популяции на другую без проверки как минимум однородности распределения тестовых баллов (устойчивости тестовых норм) может приводить к серьезным диагностическим ошибкам или к непроизводительным затратам на бесполезную психодиагностику. К серьезным ошибкам может привести попытка прогноза по результатам теста, не проверенного на прогностическую валидность, - в этом случае психолог должен ограничиться лишь текущим диагнозом. Строгое следование требованиям психометрики особенно необходимо при переносе тестов, разработанных за рубежом. В условиях недостаточной разработки отечественных методик многие психологи склонны рассматривать в качестве готовых зарубежные методики, тогда как реальные языковые и социокультурные различия бывают столь сильными, что полная эмпирическая адаптация зарубежной методики по своему объему не уступает разработке оригинальной методики. Это прежде всего относится к шкалам ценностных ориентации, к характерологическим опросникам и другим личностным тестам. В данной книге читатели познакомятся с процедурами, позволяющими проверить эмпирическую корректность тестовых диагностических шкал. Для того чтобы убедиться в пригодности того или иного зарубежного теста, психолог должен уметь повторить процедуру, с помощью которой конструировался и обосновывался этот тест его авторами. Если при конструировании многомерного теста использовался факторный анализ, то нельзя считать адаптированным тест, прошедший проверку только на устойчивость тестовых норм; нужно обязательно перепроверить устойчивость самих тестовых шкал (т. е. повторить факторный анализ). 1.5. НОРМАТИВНЫЕ ПРЕДПИСАНИЯ РАЗРАБОТЧИКАМ И ПОЛЬЗОВАТЕЛЯМ ПСИХОДИАГНОСТИЧЕСКИХ МЕТОДИК
Развертывание практической работы психологов в различных сферах производства, медицины, образования, требующих применения психодиагностических методик, остро ставит вопрос о нормативном регулировании подобной практики. Речь идет о системе конкретных требований к разработчикам и пользователям методик. До недавнего времени практическое и исследовательское применение методик плохо разграничивалось, это замедлило выработку свода нормативных предписаний (стандартов) к практическому использованию тестов и нестандартизованных процедур. Требуется коренным образом изменить такое положение, когда нормативное регулирование отстает от реальной практики: нормативное регулирование должно сопровождаться выработкой такой системы правил, которая бы опережала практику, задавала ей ориентиры, перспективы на будущее. Ниже приведен возможный проект некоторой разумной, с точки зрения авторов, системы правил и ориентиров на будущее[7]
. Требования к психодиагностической литературе и методическим материалам. Разработчик и пользователь методик взаимодействуют между собой прежде всего посредством методической литературы. Стандартные требования к оформлению руководства, методических указаний, писем и другой методической литературы приняты в качестве директивных документов обществами психологов ряда стран. Целесообразно различать круг требований к документам разного типа: 1) к исследовательской литературе, публикуемой в научных журналах, сборниках и монографиях, 2) к обзорно-аналитическим руководствам и справочным изданиям, освещающим процедурные и количественные, а также содержательно-теоретические аспекты применения какой-то методики или какого-то класса методик, 3) к «подручным методическим материалам», непосредственно инструктирующим пользователя в применении методики и содержащим стимульный материал, инструкции, тексты заданий, ключи, нормы, правила интерпретации, 4) к популярным изданиям по психодиагностике. 1. Научные сообщения. Должны освещать: теоретические основания методики (концепт и методический прием), способы разработки и эмпирического обоснования, исследовательские данные о репрезентативности, надежности, валидности шкалы тестовых показателей (коэффициенты корреляций, регрессионные и факторные веса). Для читателей в научном сообщении могут быть даны «образцы» отдельные примеры тестовых заданий, позволяющие проиллюстрировать принципы, на которых построена методика. В научных сообщениях не должны освещаться: для методик с профессиональными ограничениями («п-методик») - полный текст заданий ключи, тестовые нормы, детальные инструкции по проведению и интерпретации. Обо всей этой информации автор научного сообщения должен говорить лишь косвенно, используя ссылки на распространяемую среди специалистов «инструктивную» литературу В научном сообщении могут быть приведены исчерпывающие описания методик, знание которых (и их возможное применение) непрофессионалами не может принести ущерба конкретным людям или психодиагностическому потенциалу самой методики Этот класс методик предлагается условно обозначить термином «открытые методики» («о-методики»). Автор научного сообщения имеет право определить статус разработанной им методики как открытой методики, но любые модификации или адаптации методики, уже определенной как профессиональная «п-методика», должны освещаться в научных сообщениях в соответствии с указанными требованиями. :
2. Справочно-методические издания. В этих изданиях могут быть приведены инструктивные материалы, включая текст заданий (вопросов ключи, нормы, но при одном принципиальном условии: изданию придается статус издания для специалистов, обеспечивающий ему распространение среди читателей, имеющих необходимую психологическую подготовку. Авторский коллектив такого издания лично отвечает перед Обществом психологов за распространение тиража этого издания по назначению. 3. Инструктивные документы. Содержат описание методики, обеспечивающее ее адекватное использование в точном соответствии со стандартами: предмет диагностики, сфера применения, контингент испытуемых, процедура применения. Описание обязательно должно снабжаться подробными сведениями о процедуре разработки методики и полученных при этом данных о надежности и валидности. Приведенные тестовые нормы должны сопровождаться однозначным описанием выборки стандартизации и характера диагностической ситуации в обследовании: добровольное участие испытуемых, бескорыстно сотрудничающих с психологом в:
целях помощи исследованию («научное сотрудничество»), участие платных испытуемых («платное участие»), использование методики в ходе запроса испытуемого на получение консультативной помощи («ситуация клиента»), использование методики в ходе принудительного (сплошного) административного обследования («ситуация экспертизы»). Справочно-методические издания и инструктивные документы должны периодически (с определенным интервалом, зависящим от типа методики) пересматриваться, так как условия применения методик со временем неизбежно меняются, а следовательно, изменяются психометрические свойства. В справочных и инструктивных материалах должны быть однозначно сформулированы требования к профессиональному статусу пользователя методики. Инструктивные документы должны пройти объективные испытания на однозначность указанных в них предписаний: пробная группа пользователей методики (теста) должна направлять автору документа копии протоколов по результатам обследования, на основании которых автор должен обеспечить идентичность стандартов авторского варианта методики и тех характеристик методики, которые выявляются при ее использовании. Последнее требование имеет принципиальное значение для методик, предполагающих значительное участие «экспертной» оценки (инструкции к контент-анализу, к интерпретации результатов проективной техники, полустандартизованного интервью и т. п.). Процедуры подсчета тестовых баллов и интерпретации должны быть описаны с однозначной ясностью, позволяющей получать идентичные результаты при обработке одинаковых протоколов разными пользователями. Предпочтительно включение и использование пользователями тестов локальных тестовых норм (по сравнению с не специализированными по популяции). 4. В популярных изданиях авторы-психологи не имеют права разглашать профессиональную тайну: описывать смысл диагностических приемов, знание которых испытуемыми существенно вредит валидности методики. Целесообразно придерживаться разных требований к психодиагностическим методикам разного типа. 1. Измерительные методы (тесты) должны удовлетворять следующим требованиям: а) должны быть однозначно сформулированы цели, предмет и область применения методики. Предмет, диагностический конструкт (концепт), должен быть сформулирован в теоретических понятиях и соотнесен на теоретическом уровне с системой релевантных концептов. Должна быть четко выделена область применения, под которой подразумевается особая социальная среда или сфера общественной практики (производство, медицина, семейная жизнь и т. п.), контингент испытуемых (пол, возраст, образование, профессиональный опыт, должностное положение). Должны быть конкретизированы цели использования результатов: для прогноза успешности профессиональной деятельности, для психологического вмешательства, для принятия правовых, административных решений, для прогноза стабильности коллектива и т. п.; б) процедура проведения должна быть задана в виде однозначного алгоритма, пригодного для передачи лаборанту, не имеющему специальных психологических знаний, или ввода в компьютер, используемый для предъявления заданий и анализа ответов; в) процедура обработки должна использовать статистически обоснованные методы подсчета и стандартизации тестового балла (по статистическим или критериальным тестовым нормам). Выводы (диагностические суждения) на основе тестового балла должны сопровождаться указанием на вероятностный уровень статистической достоверности этих выводов; г) тестовые шкалы должны быть проверены на репрезентативность, надежность и валидность в заданной области применения. Другие разработчики и квалифицированные пользователи должны иметь возможность повторить стандартизационные исследования в своей области и разработать частные стандарты (нормы); д) процедуры, основанные на самоотчете, должны быть снабжены средствами контроля за достоверностью, позволяющими автоматически отсеивать недостоверные протоколы; е) головная методическая организация определенного ведомства (области применения) должна вести банк данных, собранных по тесту, и производить периодическую коррекцию всех стандартов методики. 2. Экспертные методы: а) данный пункт повторяет содержание пункта а) для тестов. Дополнение: инструкции по применению снабжаются указанием на требуемую квалификацию экспертов, их необходимое количество для получения надежных данных по методу независимых оценок; б) инструкции по применению должны пройти специальные испытания на однозначность их выполнения экспертами по отношению к некоторому эталонному набору данных (текстов, рисунков, звуко-или видеозаписей и т. п.); в) процедура обработки результатов должна включать в себя такое документирование промежуточных этапов обработки, которое позволило бы перепроверить конечный результат другому эксперту; г) пользователи-разработчики должны иметь возможность воспроизвести нормативное исследование по измерению экепертжж согласованности на эталонном наборе данных; д) головная организация должна вести банк данных, обеспечивая подготовку пользователей и их переподготовку (в соответствии с пересмотренными стандартами методики). Любая методика, неудовлетворяющая перечисленным выше требованиям, не может считаться профессиональной психодиагностической методикой. Методики должны проходить аттестацию в рамках головных методических организаций в обязанности- которых входит / составление библиотек «аттестованных психодиагностических методик». Вся инструктивная литература по методикам, не прошедшим аттестацию, не может считаться пригодной для применения в практической психологии. Это не исключает возможность применения неаттестованных методик в исследовательских целях. 1.5.2. Требования к пользователям
К пользователям, являющимся профессиональными психологами, и к пользователям-непсихологам предъявляются разные требования. Пользователь-психолог: а) должен знать и применять на практике общие теоретико-методологические принципы психодиагностики, владеть основами дифференциальной психометрики, должен следить за текущей методической литературой по психодиагностике, самостоятельно вести картотеку и личную библиотечку методик, применяемых в заданной области; б) отвечает за решения, принимаемые на основе тестирования, обеспечивая их соответствие репрезентативности и прогностической валидности методики. Он предупреждает возможные ошибки, допускаемые непрофессионалами, не знакомыми с ограничениями в использовании того или иного теста; в) пользуется преимущественным правом по сравнению с непрофессионалами на проведение психодиагностики в заданной области, на использование протоколов в соответствии с профессионально-этическими принципами и интересами психологии. Он пользуется преимущественным правом получения методических материалов, в том числе приобретения их в качестве индивидуальной профессиональной собственности. Психолог обеспечивает необходимый уровень надежности диагноза, применяя параллельные стандартизованные и нестандартизованные методики, а также метод независимых экспертных оценок; г) в подборе методик в комплексную программу обследования не руководствуется субъективными предпочтениями и предубеждениями в оценке методик, а исходит из требования максимальной эффективности диагностики: максимум надежности при минимуме затрат; д) параллельно с использованием методик ведет научно-методическую работу, анализируя по собранным данным эффективность применения методики в заданной области. Ведение такой научно-методической работы входит в основной круг обязанностей психолога, работающего и в исследовательских, и в лечебных учреждениях. В этой работе психолог поддерживает оперативные контакты с головной методической организацией, передавая ей копии протоколов (для накопления банков данных) и получая инструктивные методические материалы; е) обеспечивает тщательное соблюдение всех требований для проведения стандартных методик обследования. Подсчет баллов, интерпретация, прогноз делаются в строгом соответствии с методическими указаниями. Психолог не имеет права отклоняться от стандарта в использовании методики, принятого на определенный период. Все рекламации и предложения по использованию методики психолог направляет в методический центр и требует их учета при очередном пересмотре методики; ж) обеспечивает конфиденциальность психодиагностической информации, полученной от испытуемого на основе «личного доверия». Психолог обязательно предупреждает испытуемого о том, кто и для чего может использовать эту информацию. Психолог не имеет права скрывать от испытуемого то, какие решения могут быть вынесены на основе психологической диагностики; з) психолог хранит профессиональную тайну: не передает лицам, не уполномоченным вести психодиагностическую практику, инструктивных материалов, не раскрывает перед потенциальными испытуемыми секрет той или иной психодиагностической методики, на котором основана его валидность; и) обязательно рассматривает наряду с наиболее вероятной и альтернативную диагностическую гипотезу (интерпретацию данных), применяя в психодиагностике принцип, аналогичный принципу «презумпции невиновности» в судопроизводстве; к) сообщает в региональные или центральные органы Общества психологов о всех замеченных им где-либо нарушениях нормативных (процедурных и этических) принципов психодиагностики. Психолог уполномочен лично препятствовать некорректному и неэтичному применению психодиагностики. 1.5.3. Использование методик специалистами-смежниками
Отдельные, хорошо теоретически и психометрически обоснованные методики, не требующие специальных знаний при интерпретации, могут использовать специалисты смежных с психологией областей: учителя, врачи, социологи, инженеры, экономисты. При этом специалист-смежник (пользователь) должен выполнять следующие требования: а) предварительно проконсультироваться с психологами, работающими в данной практической отрасли, о том, какие именно методики могут быть применены для решения поставленных задач. При наличии аттестованных методик пользователь должен воспользоваться именно ими; б) если психологи предупреждают пользователя о том, что правильное использование методики требует общих знаний о психодиагностике или специальной подготовки (по овладению методикой), то пользователь обязан либо выбрать другую методику, либо пройти соответствующую подготовку, либо привлечь к проведению психодиагностики психолога, либо отказаться от проведения психодиагностики; в) пользователь, получающий доступ к «п-методикам», автоматически берет на себя обязательство по соблюдению профессиональной тайны; г) пользователь соблюдает все этические нормативы в проведении обследования по отношению к испытуемому и любым третьим лицам: он, так же как психолог, не имеет права злоупотреблять доверием и обязан предупреждать испытуемого о том, как будет использована информация; д) методики, не обеспеченные однозначной стандартной инструкцией, необходимыми показателями надежности и валидности, требующие параллельного использования высокопрофессиональных экспертных методов, не могут использоваться специалистами-непсихологами; е) пользователь содействует психологам в соблюдении процедурных и этических нормативов, предпринимает меры для предотвращения некорректного использования методик. Все приведенные требования находятся в соответствии с международными профессионально-этическими стандартами, принятыми в работе психологов. Основные идеи этих стандартов могут быть кратко сформулированы в виде следующих принципов: 1) ответственность, 2) компетентность, 3) этическая и юридическая правомочность, 4) квалифицированная пропаганда психологии, 5) конфиденциальность, 6) благополучие клиента, 7) профессиональная кооперация, 8) информирование клиента о целях обследования, 9) морально-позитивный эффект исследования, 10) гражданственность и патриотизм. ГЛАВА 2 ИЗ ИСТОРИИ ПСИХОДИАГНОСТИКИ
В этой главе мы рассмотрим некоторые вопросы, связанные с историей психодиагностики как научной и практической деятельности. Конкретно будут рассмотрены три сферы психодиагностики: психологические тесты, проективные процедуры и контент-аналитические техники, - сферы, которые больше, чем другие, обладают собственной историей. В истории науки замечено, что нередко приходится возвращаться к вопросам, которые в свое время не были решены. Особенно чувствительным влияние этой нерешенности (или незаконченности) оказывается в тех случаях, когда тот или иной вопрос, решенный в свое время неверно, наследуется позднейшей наукой именно в этой ошибочной редакции и оказывает сильнейшее воздействие на все построения (Емельянов Л. И., 1978). Не являются в этом смысле исключением и проблемы психодиагностики. 2.1. ИЗ ИСТОРИИ ПСИХОЛОГИЧЕСКИХ ТЕСТОВ
Предыстория тестов уходит в глубину веков, она связана с испытаниями различных способностей, знаний, умений и навыков. Сообщается, что уже в середине III тысячелетия до н. э. в Древнем Вавилоне проводились испытания выпускников в школах, где готовились писцы. Профессионально подготовленный писец, благодаря обширным по тем временам знаниям, был центральной фигурой месопотамской цивилизации. Он был обязан знать все четыре арифметических действия, уметь измерять поля, распределять рационы, делить имущество, владеть искусством пения и игры на музыкальных инструментах. Кроме того, проверялось умение разбираться в тканях, металлах, растениях (Дандамаев М. А., 1983). В Древнем Египте только того обучали искусству жреца, кто был способен выдержать систему определенных испытаний. Вначале кандидат в жрецы проходил собеседование, в процессе которого выяснялись его биографические данные, уровень образованности; кроме того, оценивались внешность, умение вести беседу. Затем следовали проверки: умения трудиться, слушать и молчать, испытания огнем, водой, страхом преодоления мрачных подземелий в полном одиночестве и др. (Аванесов В. С., 1982). Все эти довольно жесткие испытания дополнялись угрозой смерти для тех, кто не был уверен в своих способностях к учению и в том, что сумеет выдержать все тяготы длительного периода образования. Поэтому каждому кандидату предлагалось еще раз подумать и, тщательно взвесив, решить, с какой стороны закрыть за собой дверь в храм - с внутренней или с внешней. Сообщается, что эту суровую систему испытаний успешно преодолел знаменитый ученый древности Пифагор. Вернувшись в Грецию, он основал школу, допуск в которую открывал только для тех, кто был способен преодолеть серию различных испытаний, похожих на те, которые он выдержал сам. Как свидетельствуют источники Цит. по: Голицын Н. Н., 1855, q. 118), Пифагор подчеркивал важную роль интеллектуальных способностей, утверждая, что «не из каждого дерева можно выточить Меркурия», и потому, вероятно, придавал большое значение диагностике именно этих способностей. Для этого каждому давалась сравнительно трудная математическая задача. В случае ее решения вопрос о приеме решался сразу. Однако чаще всего задача не решалась, после чего неудачника вводили в зал, где ученики, по правилам испытаний, должны были беспощадно поднимать его на смех, давая ему обидные прозвища. Если поведение новичка в этой критической ситуации характеризовалось умением отвечать на выпады, хорошо и достойно держать себя, его принимали в школу (подробнее см.: Аванесов В. С., 1982). Особое значение Пифагор придавал смеху молодых людей, утверждая, что манера смеяться является самым хорошим показателем характера человека. Он внимательно относился к рекомендациям родителей и учителей, вел тщательное наблюдение за каждым новичком после того, как последнего приглашали свободно высказываться и не стесняться, смелее оспаривать мнения собеседников (там же). Сообщается (Dubois P., 1970), что за 2200 лет до н. э. в Древнем Китае уже существовала система проверки способностей лиц, желавших занять должности правительственных чиновников[8]
. Каждые три года чиновники повторно экзаменовались лично у императора по «шести искусствам»: музыке, стрельбе из лука, верховой езде, умению писать, считать, знанию ритуалов и церемоний. Для государства система экзаменов была важным средством отбора достаточно способных, в меру эрудированных и, главное, лояльных по отношению к власти людей для последующего их использования на административной службе. Нередко результаты испытания интеллектуальных способностей становились предметом гордости того или иного народа, а иногда служили даже для извлечения доходов. Сообщается, например, что индийский царь Девсарм, желая испытать мудрость персов, прислал им шахматы. Предполагалось, что персы вряд ли сумеют разгадать суть этой игры, и потому они должны были по условию отослать в Индию подать. Сообщается, однако, что визирь Хо-срова Важургмихр понял правила шахматной игры и, в свою очередь, изобрел игру, называемую сейчас нарды. Он послал с новой игрой гонца в Индию, где ее, как выяснилось, разгадать не смогли (Орбели И. А., 1936). Другим свидетельством использования испытаний тестового характера являются материалы, излагающие основы религиозного учения чань-буддизма. Учителя чань-буддизма использовали загадки, вопросы-парадоксы с одновременным созданием ситуации психологического стресса. Отвечать на них необходимо было сразу, на раздумывание не отводилось ни секунды. Как отмечает Н. В. Абаев, в чаньских поединках-диалогах сама парадоксальность постановки вопросов (например, была ли борода у бородатого варвара или имеет ли собака природу Будды) создавала драматическое напряжение, которое усиливалось всем образом действий наставника. Хватая своего оппонента и крича на него: «Говори! Говори! Отвечай немедленно!», он создавал ситуацию психического напряжения. Чаньские парадоксальные загадки использовались, по мнению этого же автора, в качестве тестов на определенный, «чаньский» ход мышления. В зависимости от того, как тестируемый отвечал на эти загадки, опытный наставник определял, на каком уровне «просветленности» он находился и какие меры нужно принять для углубления его «чаньского опыта», а также выявлял людей, скрывающих за внешней грубостью и странностью манер свою некомпетентность (Абаев Н. В., 1980). В созданном чжурчжэнями государстве Цзинь результаты экзаменов применялись для распределения выпускников медицинского училища. Из числа выдержавших экзамены лучшие поступали на государственную службу в качестве практикующих врачей, преподавателей или исследователей, худшие получали разрешение заниматься частной практикой. Не выдержавшим экзамен рекомендовалось либо продолжить подготовку, либо сменить профессию (Воробьев М. В., 1983). Различные конкурсы и экзамены устраивались и в средневековом Вьетнаме. Всего за два года, в период с 1370 по 1372 г., удалось провести переаттестацию всех военных и гражданских чиновников, что позволило организовать проверку государственного аппарата по всей стране. В результате этого Вьетнам вновь стал сильным и жизнеспособным феодальным государством; особое внимание было уделено созданию боеспособного офицерского корпуса (Берзин Э. О., 1982). В XV в. конкурсные испытания были упорядочены: они проводились по этапам и турам. Присвоение высших степеней на экзаменах сопровождалось большими почестями. Лауреаты получали подарки от короля, их имена вносились в «золотой список», который вывешивался у Восточных ворот столицы, об их победах на конкурсе сообщалось в родную общину. Имена наиболее отличившихся высекали на специальных каменных стелах, установленных в Храме Литературы (Берзин Э. О., 1982). Интересные данные приводятся В. Н. Басиловым в отношении шаманства. У некоторых народов (например, у эскимосов) чуть ли не каждый взрослый мужчина считал себя способным к шаманству, но эти претензии отвергались в процессе испытаний. Проверка и, как результат ее, признание были непременными условиями шаманской деятельности. У разных народов проверка шамана принимала свои формы. В частности, когда у казахов кто-либо объявлял себя шаманом, то он по требованию народа должен был, ходить по снегу в трескучий мороз босиком и с обнаженной головой, лизать языком раскаленные докрасна железные предметы. У народности ханты неудачного претендента объявляли сумасшедшим. У ульчей шаман подвергался испытаниям во время поминок. Такой же обычай был у нанайцев (Басилов В. Н., 1984). Приведенный краткий исторический экскурс позволяет сделать вывод о необходимости рассматривать испытания индивидуальных способностей как важную и неотъемлемую часть общественной жизни многих (если не всех) народов мира со времен древнейших цивилизаций и до наших дней. Однако можно ли, на основании приведенных данных, говорить о глубокой истории и широкой распространенности тестов? Если согласиться с наиболее известными сейчас определениями теста, даваемыми как перевод с английского слова «test» - испытание, проверка, проба, то на поставленный вопрос надо ответить утвердительно. Дело, однако, в том, можно ли в наше время так определять тест... С течением времени обыденное представление о тесте и научное понимание теста все больше удалялись друг от друга. Хотя всякий тест включает в себя элемент испытания, он не сводится только к нему, ибо сейчас это метод исследования, включающий в себя ряд чисто научных требований. На каждом этапе развития науки требования к тестам и они сами менялись. Игнорирование этого диалектического момента нередко приводит к упрощенчеству в оценках тестов. Настоящая история тестов началась век назад, в канун периода ломки устаревшего общественного строя, революционного изменения общественного сознания, совпавшего по времени с научным кризисом, сразившим естествознание. Диалектика и материализм потрясли идеалистический фундамент психологии и стали основой новой методологии. К началу XX в. практические потребности изучения преобладающих способностей были сформулированы в виде научной проблемы исследования индивидуальных различий. Эта проблема и дала импульс к появлению первых тестов. Известный английский ученый Ф. Гальтон в течение 1884-1885 гг. провел серию испытаний, в которых посетители .лаборатории в возрасте от 5 до 80 лет могли за небольшую плату проверить свои физические качества (силу, быстроту реакции и др.), а также ряд физиологических возможностей организма и психических свойств - всего по семнадцати показателям. В число последних вошли показатели роста, веса, жизненной емкости легких, становой силы, силы кисти и удара кулаком, запоминаемости букв, остроты зрения, различения цвета и другие. По полной программе было обследовано 9337 человек. Ф. Гальтон писал, что практика вдумчивого и методичного тестирования - не фантазия; она требует рассмотрения и эксперимента (Galton F., 1884). Это был первый существенный отход от тысячелетней практики испытаний и проверок, основанной на интуиции. Применительно к тестам значение деятельности Гальтона можно сравнить с тем, что сделал Галилей для физической науки своими остроумными экспериментами. Набиравший силу радикальный эмпиризм рассматривался рядом ученых конца XIX в. как вполне приемлемая альтернатива идеализму, а эксперимент - как настоящий фундамент науки. «Только тогда психология сможет стать действительной и точной наукой, -писал, Дж. Кеттелл, — когда она будет иметь своей основой эксперимент и измерения» (Cattell D., 1890). Кеттелл, по-видимому, первым увидел в тестах средство измерения, казалось бы, неизмеряемых свойств человеческой психики. В работе, опубликованной в 1890 г., он дал список 50 лабораторных тестов, которые мы бы сейчас назвали не тестами, а контрольными заданиями. Эти тесты проводились с соблюдением только двух из известных сегодня требований к тестам: имелась инструкция по их применению и подчеркивался лабораторный (т. е. научный) характер испытаний. В частности, указывалось, что лабораторию следует хорошо оборудовать, в нее не допускаются зрители во время тестирования; все испытуемые инструктируются одинаково, все они должны хорошо усвоить, что и как нужно им делать (Cattell D., 1890). Надо ли говорить, сколь непривычной казалась идея измерения для психологии XIX века. Измерение с помощью тестов казалось тогда, а многим кажется и по сей день, делом если не странным, то претенциозным. Обыденное сознание исходило при этом из аналогии с физическими измерениями и рассматривало эти попытки математизации как чуждый для гуманитарной психологии уклон. Примерно с такими же трудностями сталкивалась и психофизика. Тем не менее к концу 20-х годов нашего столетия все больше стала ощущаться потребность в создании специфического направления, связанного с особенностями использования числа и меры. В психологии эту роль выполняла психометрия, в биологии - биометрия, в экономике - эконометрия, в науке в целом - наукометрия. К ним следовало бы добавить и социометрию, но последнюю Дж. Морено и Г. Гурвич свели к элементарным методам оценки взаимодействия индивидов в малых группах. С момента первых публикаций Ф. Гальтона и Дж. Кеттелла идея тестового метода сразу же привлекла к себе внимание ученых разных стран мира. Появились первые сторонники тестов и первые же их противники. В числе сторонников были: в Германии - Г. Мюнстерберг, С. Крепелин, В. Онри, во Франции -А. Бине, в США - Дж. Гилберт и другие. Это были исследователи нового типа, стремившиеся связать психологию тех лет с запросами практики. Однако стремление к прикладным исследованиям в психологии прошлого расценивалось как отход от науки. Кетгелл, например, сообщал, что он начал свои первые тестовые лабораторные исследования индивидуальных различий в 1885 году, но публиковаться не мог из-за противодействия В. Вундта (Cattell D., 1896). Итак, научный статус тестов не был определен, возможность измерений в психологии подвергалась сомнению. Психология переживала трудный период: она уже не могла развиваться на старой основе, но и не научилась еще смотреть на мир по-новому. «Причина кризиса, - писал Л. С. Выготский, - лежит в развитии прикладной психологии, приведшей к перестройке всей методологии науки на основе принципа практики. Этот принцип давит на психологию и толкает ее к разрыву на две науки» (цит. по: Ярошевский М. Г., Гургенидзе Г. С., 1977). Общественная практика требовательно выдвигала одну проблему за другой, и ни одну из них старая психология решить не могла - у нее не было подходящих методов. Появление в этой ситуации прикладной психологии не было случайностью. Ей было дано название «психотехника». Прикладное направление появилось и в педагогике. Хотя педология претендовала на звание науки о комплексном развитии ребенка, в тот период она была в основном прикладной педагогикой. Отвергнутые в традиционной науке - в психологии и в педагогике, тесты быстро нашли себе применение в прикладных направлениях. В общем, произошло так, как говорили в древности: если какой-либо науке не находится места в храме, она начинает развиваться у его стен. Активизация роли науки в практическом переустройстве жизни столкнулась с традицией занятий «чистой наукой, созерцанием истины». Для представителей чистой науки прикладность не имела заметной ценности. В 30-х годах ученые Кембриджа больше всего гордились тем, что их научная деятельность ни при каких мыслимых обстоятельствах не может иметь практического смысла (Сноу Ч., 1973). Цель, методы и результаты психотехники лежали в сфере практики, в то время как цели, методы и результаты традиционной психологии лежали в области теоретических рассуждений. Различались производительная и познавательная функции этих направлений. То, что имело ценность для психотехники, психология того времени ни принять, ни произвести сама не могла, так же как и психотехника мало что могла дать психологии. Размежевание стало заметным в конце 20-х - начале 30-х годов. Вместо объединения усилий обе стороны приступили к взаимным обвинениям и затяжным дискуссиям. Психология обвинялась в схоластике, узком академизме, в неспособности воспринять новое и в отрыве от практики жизни. Психотехника, в свою очередь, осуждалась за узкий практицизм, противоречащий духу науки, за отрыв от психологии; она обвинялась в голом эмпиризме, прикладности, в чрезмерном увлечении тестами... Последнее обвинение стало узловым пунктом критики. Разрыв между фундаментальным и прикладным направлениями был до недавнего времени характерен для многих наук, но не везде он протекал столь болезненно, как в психологии. Даже в исторической науке получили распространение взгляды морализирующих историков, противопоставляющих «чистое и возвышенное познание» различным формам приложения науки, влекущим за собой лишь несчастья и опасности (Шахназаров Г. X., 1981). Начало 30-х годов характеризуется широким использованием тестов во многих странах. Во Франции они стали применяться для дефектологических целей и для профориентации, в США тесты использовались при приеме на работу, в колледжи, для оценки знаний школьников и студентов, в социально-психологических исследованиях. В России тесты применялись в основном в двух основных сферах: в народном образовании и в сфере профотбора - профориентации. Затронутые тестами столь важные сферы жизни и прямое влияние результатов тестового контроля на судьбы миллионов людей породили широкую гамму мнений как за, так и против тестов. Большой энтузиазм тех, кто их применял, и не меньший пессимизм тех, кто видел несовершенство этого метода или пострадал в результате его использования, породили во многих, странах, в том числе и в России, письма в правительственные органы и в газеты с требованием запрета тестов. В отечественной истории тестов начали 30-х годов характеризуется интенсивным и неконтролируемым использованием тестов в системе народного образования и в промышленности. Практика, как это часто бывает, опережала теорию. Массовые тестовые обследования не подкреплялись серьезной проверкой качества инструментария, решения о переводе некоторых учащихся в классы для умственно отсталых детей принимались на основе коротких тестов без учета других факторов, влияющих на результаты проверки. В промышленности на основе таких же тестов делались попытки классифицировать работников по различным профессиям, без внимательного учета личных склонностей и интересов. Ввиду надвигавшейся тестомании и ряда причин субъективного характера было принято известное постановление «О педологических извращениях в системе наркомпросов» (1936), наложившее запрет на применение бессмысленных (как там отмечалось) тестов и анкет. Это постановление, по мнению А. Н. Леонтьева, А. Р. Лурия и А. А Смирнова, получило в последующие годы неправомерно расширительное толкование и привело к отказу от разработки научно обоснованных методов психологической диагностики личности (Леонтьев А. Н., Лурия А. Р., Смирнов А. А., 1968). В те годы были, однако, и другие выступления - в пользу тестов. Так, известный психолог М. Я. Басов говорил: «Я думаю все же, что эта долгая, подчас острая критика тестовой методики... в конце концов приведет не к ниспровержению, не к упразднению этой методики, а, напротив, к ее упрочнению и к ее утверждению в определенных границах, в которых она, очевидно, имеет полное право на применение и существование» (Тесты: теория и практика. М., 1928, № 2, С. 54). Тем не менее, начиная с указанного периода критика тестов приобрела широкий размах и вышла за рамки чисто научных дискуссий. В печати появился ряд публикаций, в которых тесты отвергались, как говорится, с порога. В США, например, против использования тестов выступали представители основных групп населения США - взрослые и дети, белые и негры, рабочие и управленческий персонал, а также представители национальных меньшинств. В результате проведения серии исследований по социальным последствиям тестирования выяснилось, что 37 % опрошенных возражали против использования тестов при поступлении на работу, 50 % -при продвижении по службе, 25 % - против использования тестов в школе (Brim S., 1965). Случаи нарушения этики при использовании тестов оказались столь злободневными, что ими вынужден был заняться Конгресс, устроивший специальные слушания по этому делу. В результате было принято решение, осуждающее неэтичное использование тестов, практику вторжения в частную жизнь как идущую вразрез с моральными нормами (Armor D., 1974). В августе 1966 г. в Сенате США обсуждалось предложение о полном запрещении тестов, но это предложение не было поддержано большинством. В зарубежной литературе выделяется несколько источников критики тестов. Психолог С. Брим усматривает первый источник в личностном портрете критиков, в числе которых чаще других оказываются те, кто не склонен к самопознанию и интроспекции, авторитарен в межличностных отношениях, нетерпим к мнению других и возражает против всяких социальных перемен. Как правило, в США эти лица примыкают к правым политическим группам, требующим запрещения тестов. Второй источник критики этот же автор видит в системе социальных ценностей, имеющей свои корни в отношении к вопросам равенства людей. Если в обществе одобряется принцип открытого соревнования его членов, то в каждом поколении на передовые позиции должны выдвигаться наиболее талантливые люди. В таком обществе каждый должен иметь возможность внести свой вклад в соответствии со своими способностями. Последние должны быть оценены, и потому ориентация на этот принцип создает благоприятное отношение к тестам (Brim S., 1965). Третий источник является, по мнению Р. Кеттелла (Cattell R., 1950), следствием эмоционального и сентиментального отношения людей эстетического и нарциссического типа, возражающих против всякой попытки представить «уникальную, художественную личность» в виде формул. Четвертый источник критики является научным и касается недостатков тестового метода. В 30-е годы случилось так, что психотехника не оправдала возлагавшихся на нее надежд в смысле заметного повышения производительности труда. Она и не могла это сделать, потому что на том, сравнительно низком уровне промышленного развития прогресс в значительной мере зависел от уровня индустриализации и автоматизации производства. При достижении необходимого уровня развития средств производства человеческий фактор вновь начинает играть ключевую роль. Вот почему именно в последние годы стал заметно увеличиваться поток прикладных психологических исследований, нацеленных, в частности, на повышение эффективности человека-оператора в управлении сложными техническими системами. Соответственно возросла роль психофизики, психометрии, прикладной и инженерной психологии, психологии труда и безопасности, экспериментальной психологии, научно обоснованной профориентации и профотбора. Вместе с этим опять возросло и значение тестов. Хотя в 30-е годы практическая работа по тестам затормозилась, научное изучение действительных возможностей этого метода в нашей стране не прекращалось. Часть тестов применялась под видом контрольных заданий, испытаний, и, наоборот, различные испытания нередко назывались тестами. Суть вопроса, разумеется, не в названиях, а в принципиальных отличиях. Первое отличие состоит в том, что тест является научно обоснованным методом эмпирического исследования в психологии и в ряде других наук. Важная мысль К. Маркса о том, что одна экономическая эпоха отличается от другой не тем, что она производит, а тем, каким способом она это делает относится в полной мере и к психологической науке. В период зрелости в ней, как и везде, все большее внимание направляется на способы познания и на критерии обоснования истинности знания. Второе принципиальное отличие связано со сравнительно новой ролью теста как инструмента теоретического исследования в таких, например, направлениях психологии, как изучение личности, способностей. Здесь использование тестов позволило преодолеть методологический тупик, в котором оказались авторы многочисленных теорий, концепций, интуитивных догадок и иных умозрительных построений, не видевших способа обоснования истинности своих суждений. Непосредственное же обращение к практике как критерию истины нередко дает противоречивые результаты, ибо действительно научная аргументация требует определенного структурирования, опосредования, абстрагирования и, кроме того, методической вооруженности исследователя. Только в последние годы в психологии стала широко осознаваться задача согласования теоретических разработок с эмпирическими результатами, для чего стали необходимыми методы, позволяющие это делать без заметной потери качества такого согласования. Тесты являются сейчас, по-видимому, наиболее развитой в научном отношении частью методического арсенала, позволяющего адекватно скреплять теорию с эмпирией, в соответствии с некоторыми известными стандартами качества информации. Именно такое понимание тестов все в большей мере начинает утверждаться в новейшей отечественной и зарубежной литературе (Анастази А., 1982; Бурлачук Л. Ф., 1979; Кабанов М. М., Личко А. Е., Смирнов В. М., 1983; Кулагин Б. В., 1984; Марищук В. Л. и др., 1984; Мельников В. М., Ямпольский Л. Т., 1985; Практикум по .психодиагностике. Дифференциальная психометрика, 1984; Психологические методы исследования личности в клинике, 1978; Шванцара И. и др., 1978), Обоснование качества результатов психологических исследований требует обращения к внепсихологическим понятиям и критериям: философским, логическим, математико-статистическим. В частности, философский элемент в теорию психологических измерений вносит известный тезис о неизбежности погрешности измерений. Критики психологических тестов нередко апеллируют к этому тезису как к основанию принципиальной порочности тестов в смысле точности измерений. Неточные измерения, считают они, науке вообще не нужны. При этом как-то забывается, что формой преодоления этого философского скепсиса является тезис о возможности приближенного измерения с достаточно приемлемой точностью. Применение на практике последнего тезиса позволило получить, например в физике, те фундаментальные результаты, которыми эта наука по праву гордится. Не вдаваясь в детальный анализ концепции надежности, представляющей предмет отдельного рассмотрения в данной книге, отметим здесь лишь ее связь с понятием «тест». Действительный отход от упрощенного понимания тестов требует наполнения интересующего нас понятия элементами научного языка, восхождения на более высокую ступень абстракции. Концепция надежности составляет одну из основ переосмысления сущности теста, а также одну из характеристик его качества. С появлением корреляционного анализа (в начале XX в.) были предложены три основных методических подхода к определению надежности теста. Это - повторное тестирование, использование параллельных форм одного и того же теста и, наконец, однократное тестирование с последующим разбиением матрицы исходных результатов (X) на две или большее число частей. За показатель надежности принимается значение коэффициента корреляции. Значительно позже появились попытки теоретического осмысления этой концепции. Исходным пунктом всех построений является уже упоминавшийся тезис о неизбежности погрешности измерений и, как следствие, признание множественности возможных причин искажения истинного результата измерения. Как результат факторно-аналитического переосмысления концепции надежности и гомогенности теста родилась новая технология расчета коэффициента надежности теста. Ее появление надо рассматривать как реакцию на неприемлемость и искусственность ряда таких условий и ограничений, как, например, параллельность форм одного и того же теста, равенство дисперсий всех высказываний, одинаковая их коррелируемость друг с другом. Д. Армор использовал известный факт корреляции тестовых высказываний между собой и стал рассматривать ее как аргумент, статистической функцией которого является надежность теста. Если все высказывания измеряют один и тот же признак (свойство), то для фиксированного их числа чем больше корреляция между ними, тем более надежен тест. С другой стороны, высокая корреляция обеспечивает хорошую факторизуемость корреляционной матрицы (К) и, следовательно, является залогом выделения такого одного фактора, который может объяснить связь большей части дисперсии в R. Следовательно, надежность тестов должна быть связана с результатом факторного анализа. Предложенная Армором формула оказалась сравнительно простой (Armor D., 1974, с. 20): θ = где θ - коэффициент надежности теста; k— количество высказываний; λ1
- наибольшее значение корня, получаемое при решении характеристических уравнений вида /R
- λ • J
/ = 0. Помимо надежности в понятие «тест» входит и концепция валидности. Поскольку в психологии нередки случаи увлечения точностью измерения неточно выделенных свойств, соотношение между надежностью и валидностью можно образно представить в виде кучной стрельбы, но не в центр мишени, т. е. стрельба ведется из оружия вполне надежного, но прицел стрелок выбрал не совсем точно. Современный тест - это не только надежный, но и валидный тест, однако не на все случаи жизни, а разработанный для конкретной цели. Нет тестов вообще надежных и валидных. Эти качества характеризуют не только инструмент измерения, но обязательно характер, цель и время его применения. В историческом разрезе концепция валидности, так же как и надежности, начиналась с наивного предположения о том, что метод «работает», т. е. каждый создаваемый тест рассматривался как валидный, примерно так, как если бы каждая создаваемая социологами анкета годилась для решения поставленных задач. Первые же проявления действительно научной критики развенчали эту, по сути дела, «веру» в валидность. Они же стимулировали поиск. Привлечение известных ученых к созданию тестов было для научной общественности в начале нынешнего века гарантией убедительности обоснования валидности как бы по авторитету. Но это был дотеоретический, доэмпирический, по существу, донаучный этап оценки качества тестов. Поскольку в те годы тесты разрабатывались исключительно для решения практических проблем, эмпиризм и соответствующая ему методология стали главными для обоснования качества инструментария. Это особенно проявилось в создании тестов для решения кадровых проблем: профотбора, профориентации, профконсультации, а также распределения принятого контингента по специальностям и отделениям внутри производства или учебного заведения. С точки зрения истории, можно выделить два основных, эмпирических подхода к валидизации тестов. Первый назовем прогностическим. Его логика такова. Если те, кто хорошо работает (по критерию У), показывают высокие результаты по какому-либо теcту (X
), значит, здесь есть связь, быть может, и причинная. Иначе говоря, Y
, вероятно, зависит от X. Отдавая предпочтение при приеме на работу тем, у кого выше результаты по X, предполагается, что они покажут и более высокую производительность труда. Ожидания такого рода часто сбываются, но в различной степени. Другой подход к эмпирической валидизации тестов основан на использовании экспертных оценок. Здесь логика еще проще: если эксперты (множество авторитетов) согласованно считают одних более способными, других - менее, значит, «это так». В случае когда результаты теста указывают на сходную тенденцию, т. е. данные по тесту коррелируют с данными экспертизы, то принимается, что тест является валидным и его можно далее примерять и в других подобных ситуациях. Так проводилась валидизация первого теста для измерения интеллектуальных способностей (Бине А. и Симон Т.), а в наше время - некоторых тестов для измерения социальных потребностей молодежи (Прогнозирование социальных потребностей молодежи. М., 1978). Развитие тестов в тесных рамках эмпиризма не могло продолжаться сколь-нибудь долгое время. Без теоретического мышления, как указывал Ф. Энгельс, невозможно связать между собой хотя бы два факта природы или уразуметь существующую между ними связь (Маркс К., Энгельс Ф. Соч., т. 20, с. 382). Обращение к внеэмпирическим критериям истинности было неизбежным. Отсюда последовали такие подходы к валидизации, в которых теория сочеталась с эмпирией. В качестве примера можно взять важную для традиционной психологии область научных конструктов, ключевых психологических понятий. Именно понятия и конструкты стали основным предметом многих исследований с помощью тестов. Последние призваны уточнить эмпирический состав индикаторов (высказываний), соответствующих таким конструктам-понятиям, как личность, темперамент, интеллект, экстраверт и многим другим. В современной психологии они стали предметом эмпирического исследования, и делается это с целью фундаментального обоснования практической значимости теоретических суждений. Теперь пора ответить на последний вопрос - что же такое современный психологический тест? Это теоретически и эмпирически обоснованная система высказываний (заданий), позволяющая получить измерения соответствующих психологических свойств. Теоретическое обоснование предполагает всесторонний анализ теста и результатов его применения в свете известных достижений современной психологической науки. Эмпирическое же обоснование связано с обращением к опыту, измерениям и эксперименту. Здесь может возникнуть ошибочная ассоциация с неопозитивистским принципом верификации. Этому способствует наличие в обоих случаях требования эмпирического согласования теоретических концепций (конструктов). Но, как справедливо отмечал Э. М. Чудинов, наука до и независимо от неопозитивизма руководствовалась требованием принципиальной проверяемости своих теорий. Это всегда отличало науку от религии и натурфилософских построений, обеспечивало ей строгость и точность. Неопозитивизм абсолютизировал эту грань научного познания, обратив ее против философии и против самой науки. Он трансформировал указанное требование в принцип верификации, который накладывает на науку непомерные ограничения и несовместим с ней (Чудинов Э. М., 1977). Отмеченными выше критериями надежности и валидности проблема обоснования научности тестов не закрывается. Из используемых сейчас двух критериев первый назовем общенаучным, а второй -специально научным. Их широкое применение - всего лишь дань сложившейся в теории тестов традиции. В ряде наук идеи валидности преломляются в виде стремления обосновать истинность, необходимость, системность, рациональность и др. Ключевым критерием является истинность, которая связана со всеми остальными. Валидность теста соотносится с истинностью через принцип предметности знания, указывающего на степень его соотнесенности с познаваемым. Но все это - область специального исследования, которое еще предстоит провести в процессе дальнейшего развития теории и практики применения психологических тестов. 2.2. ИЗ ИСТОРИИ ПРОЕКТИВНОГО МЕТОДА
Проективные методики представляют собой специфическую, довольно неоднородную группу психодиагностических приемов клинической ориентации. Последнее означает не столько направленность проективных методик на выявление тех или иных аномалий личности, сколько способность методик прогнозировать индивидуальный стиль поведения, переживания и аффективного реагирования в значимых или конфликтных ситуациях, выявлять неосознаваемые аспекты личности. История проективных методик - это и хронология, отмечающая особо важные вехи развития проективной техники, и история развития проективного метода как целостного подхода к пониманию природы личности и способов ее экспериментального изучения. Стало традицией вести счет проективным методикам с теста словесных ассоциаций К. Юнга, созданного им в 1904-1905 годах. Метод вызова ответных ассоциаций в психологии известен со времен В. Вундта и , Ф. Гальтона, однако именно К. Юнгу принадлежат открытие и доказательство феномена, лежащего в основе всех проективных методик, а именно возможность посредством косвенного воздействия на значимые области-переживания и поведения человека («комплексы») вызывать пертурбации в экспериментальной деятельности. Юнг показал таким образом, что бессознательные переживания личности доступны объективной диагностике. Впоследствии разнообразные варианты ассоциативного теста применялись для выявления чувства вины (детекторы лжи М. Вертгаймера и А. Р. Лурия), асоциальных вытесненных влечений (Дж. Брунер, Р. Лазарус, Л. Постмен, Ч. Эриксен и др.), для отграничения нормы от патологии (Г. Кент и А. Розанов). Тесты незаконченных предложений и рассказов также нередко считают ведущими свое происхождение от ассоциативного-теста Юнга (АнастазиА., 1982; AbtL., BellakL., 1950; Semeonoff В., 1976;Anzieu D., 1967). Подлинный триумф проективной диагностики связан с появлением в 1921 г. «Психодиагностики» Г. Роршаха, опубликованной в Берне на немецком языке. Биография Германа Роршаха, его профессиональный путь, по-видимому, немало способствовали направлению его исследований и созданию оригинального метода, ставшего одним из самых известных в мировой психологии. Отказавшись от профессии художника, Роршах тем не менее серьезно интересовался историей искусств. Ему было известно, что великий Леонардо да Винчи тренировал свое воображение путем длительного рассматривания и интерпретации причудливых конфигураций облаков на небе, влажных подтеков и неровностей на стенах, лунных отблесков на застывшей воде. Заметим, что способность человека одушевлять окружающий предметный мир присуща всем людям, а детям и художникам - в особенности. Вспомним излюбленный прием Г.-Х. Андерсена, заставлявшего кухонную утварь оживать по ночам, сплетничать о соседских обедах и философствовать. Не исключено, что эта же особенность лежит в основе эстетического восприятия действительности. И. Сельвинский писал: Отчего, когда глядим на волны, Видим вечность и судьбу людей? ……………………………………. Отчего пургу зовем «седою», «Шепот» слышим там, где камыши? Оттого, что втайне красотою Мы зовем полет своей души. Диссертация Г. Роршаха по медицине была посвящена изучению механизмов галлюцинаций, где он, между прочим, ссылается на однажды пережитое им состояние: во время первой в его медицинской практике аутопсии он явственно «видел», как ему пласт за пластом разрезают «мозг» и как эти пласты падают перед ним один за другим (Anzieu D., 1967). Переживание было очень ясным, живым и не только зрительным, но и сопровождавшимся явственными тактильными и моторными ощущениями. Роршах предположил, что в наших мечтах и фантазиях наряду со зрительными образами присутствует память и о пережитых движениях - кинестетические образы, которые слагаются в особый способ, модус мышления. Впоследствии Г. Роршах предположил, что чернильные пятна, адресованные зрительному воображению, растормаживают, оживляют моторные фантазии. Известно, что до и независимо от Роршаха с чернильными пятнами экспериментировали и другие психологи (например, Ф. Е. Рыбаков в России, А. Бине и В. Анри - во Франции), однако именно Роршах был первым, кто доказал связь образов фантазии с основополагающими чертами и свойствами личности. «Роршахиана» как дальнейшее развитие исследований и идей Роршаха в настоящее время представлена двумя ведущими направлениями: американским (Beck S., 1944; KlopferB., Davidson H., 1962; Rapaport D. et al., 1945-1946) и европейским (Bohm E., 1978; Loosli-Usteri M, 1965). Американских психологов отличает тенденция к теоретическому обоснованию теста в русле идей «нового взгляда» и психологии «эго», а также стремление к более строгому формализованному представлению и анализу эмпирических результатов. Европейские психологи в значительной мере сохраняют верность оригинальной версии Роршаха, развивая и дополняя ее в духе ортодоксального психоанализа. За время, прошедшее после выхода в свет «Психодиагностики», появились методики, родственные тесту Роршаха. Наиболее известны среди них Бен-Роршах («Bero»)-тест, тест Цуллигера и тест Хольцмана. Bero-тест создавался Роршахом и его непосредственным сотрудником как параллельная серия оригинального набора таблиц. Работа над тестом была закончена Цуллигером, также работавшим вместе с Роршахом; Цуллигеру удалось доказать, что по основным показателям теста (общему количеству ответов, количеству целостных ответов, ответов на белое пространство, ответов с участием цвета и движения) Bero -тест эквивалентен оригинальному набору таблиц. В 1948 г. Цуллигер предложил и собственный вариант теста - Z-тест, -который состоит из трех таблиц: черно-белой, полихромией и черно-красной; обработка включает ряд отсутствующих в финальной версии показателей; главное отличие теста - краткость, формализован-ность анализа результатов. Тест чернильных пятен Хольцмана (Я I. Т.) отличается еще большей стандартизованностью и схематизацией; используются две параллельные серии таблиц по 45 карточек в каждой; на вопрос каждой карточки испытуемый должен дать только один ответ. Достоинством теста Н. I. Т., сделавшим его наиболее валидным и надежным тестом среди «дериватов» методики Роршаха, является наличие нормативов и процентильных показателей по основным категориям шифровки ответов. В отечественной психологии первые, крайне немногочисленные, попытки применения теста Роршаха относятся к 20-м годам и имеют выраженную направленность на выявление аномалий личности в связи с конституциональными типами для диагностики неврозов и психопатий, а также при исследовании больных эпилепсией (цит. по: Бур-лачук Л. Ф, 1979). С 60-х годов тест Роршаха все шире внедряется в исследовательскую и клинико-диагностическую работу психологов, выходят первые методические руководства (Белая И. И., 1978; Белый Б. И., 1981; Бурлачук Л. Ф., 1979; Соколова Е. Т., 1980; Беспалько И. Г., 1978; Беспалько И. Г., Гильяшева И. Н., 1983). Важно подчеркнуть, что использование теста Роршаха в качестве диагностического инструмента сопровождается четкой, глубокой рефлексией диагностических задач и теоретических моделей обоснования теста на основе марксистской методологии. Опираясь на базисные положения о пристрастном характере психической деятельности, конкретные теоретические обоснования психологи строят на основе таких категорий, как «установка» (Цуладзе С. В., 1969; Норакидзе В. Г., 1975), «личностный компонент» восприятия (Савенко Ю. С., 1969, 1978; Блейхер В. М, Бурлачук Л.Ф., 1978), «индивидуальный стиль личности» (Соколова Е. Т., 1978, 1980). Интересной и многообещающей выглядит попытка А. М. Эткинда трактовать природу связи перцепции и личности в терминах «образа мира» как изоморфизм двух структур - чувственной ткани перцептивного образа и аффективно-когнитивного единства личности (Эткинд А. М., 1981). Продолжая хронологический обзор истории развития проективных методов, мы, естественно, не можем не отметить 1935 год, когда впервые в журнальном варианте, под двойным авторством, появилось сообщение о Тематическом апперцептивном тесте (ТАТ) как методике экспериментального изучения фантазии (Morgan С., Murray H., 1935). В то время тест не был обеспечен ни общей теоретической концепцией - в качестве метода исследования личности он стал рассматриваться в более поздних публикациях Г. Мюррея (Murray Н., 1938, 1943), - ни стандартизованным руководством по применению. У этого метода», как и у теста Роршаха, имелись свои предшественники и своя предыстория (см., напр., Abt L., Bellak L., 1950; Rapaport D., 1968). Психологам и психиатрам давно было известно, что рассказы по сюжетным картинкам, специально подобранным для исследуемого контингента, позволяют судить о склонностях людей и нередко выявляют болезненные состояния психики. На первый взгляд замысел ТАТ казался более простым и очевидным, чем идея Г. Роршаха. Действительно, разве Чарльзу Диккенсу, заканчивающему свой любимый роман о Дэвиде Копперфилде, не чудилось, как он сам писал, «будто он отпускает в сумеречный мир частицу самого себя» (Диккенс Ч., 1984, т. 6, с. 7). Мы также различаем за нравственными страданиями героев Ф. М. Достоевского искания его собственной мятущейся души. К сожалению, подобные аналогии, к которым прибегал сам Мюррей при обосновании своего метода, мало что проясняют в понимании того, какие именно аспекты личного опыта автора прямо и зеркально отражаются в портретах и судьбах его героев, а какие, напротив, трансформируются в прямо противоположные. А. Моруа, например, недвусмысленно намекает, что морализм Дюма-сына был не столько «генуинным», сколько формированием реакции в ответ на внутренние запреты и стыд за гуляку-отца. Это отразилось в его авторской позиции, в частности в драме «Дама с камелиями» (Моруа А., 1965). Появление Тематического апперцептивного теста поставило ряд острых проблем, обсуждаемых и по сей день. Одна из них касается прогностичности ТАТ. Исследования 30—50-х годов, проведенные в русле идей «нового взгляда», в целом подтвердили положение Мюррея об отражении в рассказах ТАТ фрустрируемых или отвергаемых «Я»-потребностей. Лишение сна, пищевая, сексуальная депривация, предшествующие успехи или неудачи существенно сказываются на ответах по ТАТ. Однако в этих же экспериментах обнаружилось, что «сила» потребности и ее отражение в ТАТ связаны не линейной, а U-образной зависимостью: наиболее непосредственно в рассказах проявляются потребности умеренной интенсивности; очень сильная депривация приводит к вытеснению или искажению соответствующих образов фантазии (Sanford R., 1936). Тот же компенсаторный принцип действует и применительно к так называемым латентным или социально неодобряемым потребностям, например агрессии или гомосексуальности. В итоге действия защитных механизмов в рассказах ТАТ может искажаться реальная картина личностных особенностей. Так, Эриксон и Лазарус показали, что лица, страдающие скрытым гомосексуализмом, на провоцирующие таблицы ТАТ дают нейтральные рассказы (Eriksen С. W., 1951, 1968). Еще более сложным является вопрос о соотношении рассказов и реального поведения. Согласно Мюррею, латентные потребности не осознаются и невыводимы из открыто наблюдаемого поведения, а проявляются только в фантазиях и фантазиоподобной активности типа ТАТ. Эксперименты уточнили эту гипотезу: если потребность - явная или латентная - не имеет «моторной разрядки», фрустрируется в открытом социальном поведении, то она находит компенсаторное удовлетворение в рассказах ТАТ (Lazarus R. S., 1961). Однако лица, уже совершившие особо тяжкие преступления, могут продуцировать нейтральные или подчеркнуто просоциальные темы (Станишевская М. М., Гульдан В. В., Владимирская М. Т., 1974). Существенной детерминантой ответа оказывается и сама ситуация обследования. Если она воспринимается как экспертная, то проявления агрессии строго контролируются. Из сказанного следует, что прогноз реального поведения на основе прямого отождествления «героя» и обследуемого осуществим только для ограниченного круга личностных черт и тенденций. Так, например, вариант ТАТ Д. Макклелланда и Дж. Аткинсона оказался высоко валидным в отношении мотивации достижения (Atkinson J., 1958). Возвращаясь к хронологии, следует остановиться на работах Ло-уренса Фрэнка 1939—1948 гг., в которых он впервые сформулировал основные принципы проективной психологии. Ему же принадлежит приоритет в использовании термина «проекция» для обозначения особой группы методов исследования личности. Наиболее существенной чертой проективных методик Фрэнк считал неопределенность стимульных условий, позволяющих испытуемому проецировать свой способ видения жизни, свои мысли и чувства. Чем более неструктурированным является «стимульное поле», тем в большей степени его структурирование индивидом будет изоморфично структуре его реального жизненного пространства (Frank L., 1939). Концепция Фрэнка, испытавшая сильное влияние «холистических» теорий личности, акцентирует ряд моментов, чрезвычайно важных, на наш взгляд, для понимания назначения и диагностических границ проективных методик. Проективные методики направлены на раскрытие внутреннего мира личности, мира субъективных переживаний, чувств, мыслей, ожиданий, а вовсе не на экспресс-диагностику реального поведения. Узкопрагматическая ориентация многих исследований часто игнорировала это ограничение, составляющее суть проективного метода как особого подхода, способа понимания человека. Важно не то, как человек действует, а то, что он чувствует и как управляет своими чувствами. Ясно, что совпадение поведенческого уровня и плана переживаний есть частный случай, поэтому возможность прогноза поведения по проективным методам ограниченна, зато открывается перспектива проникновения в уникальный мир человеческих чувств и внутреннюю логику его построения. Исследования Фрэнка, теоретико-методологические по своему жанру, породили множество экспериментальных исследований, среди которых особо следует выделить два направления: изучение роли стимула в проекции личностно-значимого материала и изучение феномена проекции как психологического механизма, лежащего в основе действенности этой группы методов. Неопределенность стимульных условий неоднократно указывалась в качестве признака, отличающего проективные методики от других, например психометрических, процедур. Тест Роршаха и ТАТ дают примеры двух типов стимульной неопределенности - структурного и содержательно-смыслового. Неопределенной является для испытуемого и сама ситуация обследования, не ограничивающая его действия какими-либо стандартами и нормативными оценками, но предоставляющая максимально широкий выбор способов поведения (Lindsey D., 1959; Бурлачук Л. Ф., 1979; Соколова Е. Т., 1980; Анастази А., 1982). Дж. Брунер также предполагал, что неопределенность, неоднозначность или «зашумленность» - необходимые стимульные условия для предоставления приоритета личностным субъективным факторам в детерминации восприятия и других видов познавательной активности (Брунер Дж., 1977). В духе экспериментов «нового взгляда» в 40—50-е годы складывались теоретические обоснования теста Роршаха (Draguns J., 1967) и ТАТ (Bellak L., 1950). Акцентирование неопределенности стимульных условий позволило, кроме всего прочего, согласовать проективные методы с психоаналитическим стилем клинического мышления. Чем более неопределенны условия (т. е. чем меньше давление реальности), тем в большей степени психическая активность приближается по своей природе к «первичным» психическим процессам (воображению, галлюцинациям), движимым принципом удовольствия. Проективные методы, на первый взгляд, давали основание для подобного осмысления (см., напр., экспериментальные исследования аутистического восприятия), однако в этом случае необходимо было признать тождество «первичных» процессов и психической активности в ситуации проективного исследования. Не все исследователи склонны были следовать традиции ортодоксального психоанализа. Набиравшая силу «психология Эго», и конкретные экспериментальные клинические исследования формировали новую теоретическую парадигму для обоснования проективного подхода. Значительный вклад был внесен американскими клиническими психологами во главе с Давидом Рапапортом (Rapaport D., 1944-1945; 1968). Проанализировав исследования «нового взгляда», особенно той его ветви, которая занималась изучением когнитивного стиля, Рапапорт по-новому определил специфику процессов, детерминирующих проективный ответ. Проективная продукция рассматривается как результат сложной познавательной деятельности, в которой слиты воедино и собственно когнитивные моменты (отвечающие «реальности» - ситуации эксперимента, задаче -инструкции, определенным характеристикам стимульного материала), и аффективно-личностные факторы -«периферические»мотивы, индивидуальные способы контроля и защиты. Вслед за работами Рапапорта и его коллег началось интенсивное изучение роли стимульных факторов в характеристике проективных ответов. Применительно к ТАТ, в частности, было продемонстрировано наличие таблиц, стойко провоцирующих стандартные темы, например депрессию и суицид (ТАТ, табл. 3, 14, 15), сексуальные перверзии (ТАТ, табл. 13, 18) (Bellak L., 1978; Rapaport D., 1968). Интересны в этой связи результаты, полученные при исследовании сопутствующего значения стимульных характеристик таблиц Роршаха методом семантического дифференциала (Kenny D., 1964). Оказалось, что каждая таблица обладает определенным эмоциональным значением: Таблица I - уродливый, грязный, жестокий, грубый, активный. Таблица II - счастливый, сильный, активный, быстрый. Таблица III— хороший, чистый, счастливый, легкий, активный, быстрый. Таблица IV - плохой, грязный, жестокий, сильный, мужественный. Таблица V - легкий, активный. Таблица VI - большой по размеру. Таблица VII- хороший, красивый, чистый, хрупкий, нежный, женственный. Таблица VIII — чистый, активный. ТаблицаIX-сильный, активный, горячий. Таблица X-хороший, красивый, чистый, счастливый, легкий, активный, быстрый[9]
. Д. Кении приходит к выводу, что высокоструктурированные изображения, «насыщенные» тем или иным побуждением, максимально выявляют индивидуальные различия по степени выраженности этого побуждения. Другие авторы полагают, что проекция того или иного побуждения на слабоструктурированные стимулы зависит от интенсивности данного побуждения, а также от готовности субъекта к самораскрытию. В настоящее время имеется достаточно обширный выбор вариантов и модификаций ТАТ с таблицами, «значения» которых подобраны заранее с учетом диагностических задач. Среди них наиболее известны серии Д. Макклелланда и Дж. Аткинсона для диагностики мотивации достижения (McClelland D., Atkinson J., 1953), ТАТ для детей и пожилых людей (Bellak L., 1978), ТАТ для подростков (Symonds D., 1949), ТАТ для исследования семейных установок (Jackson L., 1950), ТАТ для национальных меньшинств. Установлено, что оптимальным условием для проекции глубинных слоев личности является умеренный уровень неоднозначности стимульнаго материала. Индивидуальные вариации ответов на стандартные значения стимулов в этом случае оказываются диагностически более значимыми и выявляют не столько аффективные состояния и актуальную силу потребности, сколько устойчивые личностные характеристики, в том числе аномалии (Murstein В., 1963). Тест Роршаха и ТАТ представляют две группы наиболее распространенных проективных методик по критерию ответной реакции испытуемого, относимых соответственно к тестам на структурирование («конституирование» - по Фрэнку) и интерпретацию. Предполагается также, что эти методики наиболее удачно дополняют друг друга, выявляя соответственно формальный аспект личности: индивидуальный когнитивный стиль, способы аффективного реагирования и контроля - и содержательный аспект: структуру потребностей, содержание конфликтных переживаний, апперцепцию «Я» и своего социального окружения. Не ставя перед собой задачу обзорного анализа существующих проективных приемов, хотелось бы кратко обрисовать относительно новые и мало известные по отечественной литературе направления в проективной психологии. Это прежде всего тенденция рассматривать в качестве проективных или квазипроективных те методики, которые традиционно направлены на диагностику интеллекта и познавательных процессов в целом. Впервые эта точка зрения наиболее четко была сформулирована Д. Рапапортом в уже упоминавшихся исследованиях 1946 г. и затем в более поздних работах его сотрудников по Меннингерской клинике (например, Klein G., 1970), а также Г. Виткином (Witkin H., 1954; 1974). Можно сказать, что авторы имеют в виду качественный анализ выполнения испытуемым интеллектуальных проб, однако на самом деле речь идет о феноменах, в которых находит выражение влияние личностных и аффективно-мотивационных факторов на познавательные процессы. Для иллюстрации приведем пример анализа процесса мышления на основе известной нам методики Выготского-Сахарова (цит. по: Semeonoff B., 1976). Рапапорт, использовавший эту методику в целях дифференциальной диагностики при исследовании психически больных разных нозологии, выделяет пять категорий «личностных форм мышления», по существу, представляющих собой феномены, описанные Б. В. Зейгарник как нарушения мотивационного компонента мышления (Зейгарник Б. В., 1962). При выполнении методики депрессивные тенденции проявляются в общей инертности, нежелании манипулировать фигурками, неспособности отказаться от ранее сформулированной ошибочной гипотезы. Реакция на фрустрацию, неудачу, затруднения выражается в аутоагрессии, дискредитации задания, нарушении планирования или настаивании на необычных идеях. Один и тот же «симптом», как мы видим, может по-разному проявляться у разных людей, что и позволяет говорить об индивидуальном стиле познавательной активности. Аналогичным образом различные индивидуальные стратегии выполнения какого-либо перцептивного теста (например, теста вставленных фигур - EFT) позволяют сделать вывод о соответствующих индивидуально-типологических особенностях личности: полезависимости или поленезависимости (WitkinH., 1954; 1974). Давая оценку этому направлению, следует подчеркнуть, что расширительное толкование интеллектуальных тестов как проективных имеет своей целью привлечение внимания клинических психологов к процессу выполнения интеллектуальных задач, его качественному анализу, что, несомненно, более точно отвечает специфике клинической диагностики. Снимается также противопоставление интеллектуальных и личностных тестов как относящихся к разным «областям» личности; иными словами, реализуется, правда, несколько упрощенно, целостный подход к личности как к сплаву аффекта и интеллекта. Другое направление в развитии проективных методов связано с активной разработкой проблем межличностного восприятия и взаимодействия и исследования «Я-образа». В определенном смысле все проективные методы направлены на изучение того, как субъект воспринимает других людей и самого себя. Наиболее распространено мнение, что проективные методики выявляют неосознаваемый компонент социальной перцепции и «Я-образа» (Wylie R, 1974). «Неспецифическими» методиками указанной ориентации являются ТАТ и тест Роршаха. Предполагается, что в рассказах ТАТ находит отражение не столько реальный характер межличностных отношений обследуемого, сколько их апперцепция, т. е. эмоциональное отношение и пристрастное видение этих отношений. Изображенные на картинках фигуры кроме буквальных значений имеют и символический смысл. Так, фигура немолодого мужчины - олицетворение отца, начальника, вообще власти и мужского начала. В этом случае интерпретация темы рассказа в зависимости от общего контекста либо «сужается» до анализа внутрисемейных отношений, либо расширяется и рассматривается как отражение взаимоотношений обследуемого с широким социальным окружением, отношение к нормативам общества и его ценностям. Тест Роршаха дает также некоторую информацию об общей благоприятной или неблагоприятной аффективной установке обследуемого по отношению к другим людям - враждебно-защитной С 60-х годов начал разрабатываться и получил широкое распространение тест Роршаха для исследования общения - Совместный тест Роршаха (СТР), используемый чаще всего для диагностики внутрисемейных отношений. Развитие семейного консультирования и семейной психотерапии послужило толчком к созданию ряда методик, нацеленных на диагностику семейных отношений. К ним прежде всего следует отнести тест семейных установок (Jackson L., 1950), тест семейных отношений (Bene L., Antony S., 1957), «кинетический тест рисования семьи» (Bums R., Kaufman S., 1972) и его варианты. К относительно новому направлению, инициировавшему создание новых методик, относится исследование «Я-образа». Среди традиционных проективных методик следует отметить тест Роршаха, выявляющий формальные характеристики «Я-образа» - самоконтроль, самооценку, самореализацию, а также специальную модификацию теста для диагностики физического «Я-образа», «границ образа физического Я» (Fisher S., Cleveland S., 1958). Недостаточные валидность и надежность проективных методик заставляют исследователей искать новые диагностические парадигмы. К ним относится включение в проективные процедуры психометрических принципов - так построены вариант ТАТ Столина В. В. и Кальвиньо М. (1982) и методика косвенного исследования системы самооценок Соколовой Е. Т. и Федотовой Е. О. (1982). Продуктивным оказывается также создание процедур так называемой управляемой проекции (Столин В. В., 1981), позволяющей исследовать микроструктуру самоотношения в структуре самосознания. Общая оценка проективных методик как психодиагностических процедур исторически связана с обсуждением так называемой проблемы проекции. В отечественной литературе дискуссия по этому поводу также достаточно освещена, однако сама проблема, на наш взгляд, еще далека от своего разрешения. Как известно, Л. Фрэнк ввел термин «проекция», не определив его конкретного психологического содержания. Подразумевалось, что благодаря неопределенности стимульного материала личность «проецируется» на него, как на экран (Frank L., 1939). Образное выражение Фрэнка породило представление о проективных методиках как о своего рода «рентгеновских лучах», высвечивающих глубины личности. Ясно, что подобное толкование механизма проекции не удовлетворяло исследователей. Первые содержательные интерпретации проекции как феномена, возникающего в ситуации проективного исследования, связывались в теоретическом отношении с концепцией 3. Фрейда; для подтверждения психоаналитической концепции привлекались также эксперименты Г. Мюррея, Р. Сэнфорда и других исследователей, посвященные изучению мотивации через продукты воображения (Bellak L., 1944). Однако фрейдовское понятие «проекции» не отличалось однозначностью, что сразу же породило ряд трудностей при попытках интерпретировать проективные методики с позиций психоанализа. Это отмечалось и отечественными исследователями (Бурлачук Л. Ф., 1979; Реньге В. Э., 1979). Главные из этих трудностей могут быть-сформулированы в трех пунктах: 1) недостаточная разработанность, многозначность термина «проекция» в психоанализе, многообразие описываемых явлений; 2) лишь частичное сходство феноменов, обозначаемых в психоанализе этим термином, с процессами, имеющими место в проективном исследовании; 3) различие типов проекции в разных проективных тестах. Остановимся на анализе каждого из перечисленных пунктов. Впервые термин «проекция» в его психологическом значении был использован 3. Фрейдом для объяснения патологических симптомов паранойи в 1896 г., а затем при разборе «случая Шребера» в 1911 г. В этих работах проекция понималась как приписывание другим людям социально неприемлемых желаний, в которых человек как бы отказывает сам себе. В этом случае проекция рассматривалась Фрейдом как механизм защиты против неосознаваемых асоциальных влечений, в частности гомосексуальности, которая лежит в основе бредообразования при паранойе. Впоследствии была описана так называемая фобическая защитная проекция - вынесение вовне, экстериоризация страха, тревоги, в действительности имеющих эндогенную природу (Фрейд 3., 1924). В работах последующих лет наряду с концепцией защитной проекции, входящей в состав различных патологических состояний, Фрейд вводит понятие .проекции как нормального психологического процесса, участвующего в формировании нашего восприятия внешнего мира. Проекция интерпретируется им как первичный процесс «уподобления» окружающей реальности собственному внутреннему миру (Фрейд 3., 1925а; 19256; 1924). Таков механизм, например, детского или религиозно-мифологического мировосприятия. Таким образом, проекцией Фрейд называет два существенно отличающихся друг от друга явления, в основе которых лежат процесс самозащиты и процесс «самоуподобления». Их объединяет неосозна-ваемость трансформаций, которым подвергаются исходные влечения, - в сознании выступает лишь продукт этих преобразований. Со временем проекция стала столь расхожим термином, что дифференцировать ее от явлений идентификации, переноса и некоторых других психоаналитических феноменов стало чрезвычайно трудно (Laplanche J., Pontalis J., 1963). Например, говорят о проекции в психотерапевтической ситуации, когда на врача «переносятся» чувства, предназначенные другому лицу; называют проекцией своеобразное отождествление художника со своим творением (Г. Флобер говорил: «Эмма- это я»), а также «сопереживание» при восприятии художественных произведений; проекцией объясняют существование расовых и этнических предрассудков. Б. Мюрстейн и Р. Прайер, критикуя многозначность и, следовательно, недостаточную разработанность понятия проекции, предлагают различать несколько видов проекции (Murstein В., Pryer R., 1959). Классическая защитная проекция Фрейда находит подтверждение во многих клинических наблюдениях. Атрибутивная проекция - это приписывание собственных мотивов, чувств и поступков другим людям (по смыслу близка к фрейдовскому «уподоблению»). Аутистическая проекция – это детерминированность восприятия потребностями воспринимающего; для иллюстрации этого вида проекции авторы ссылаются на эксперименты New Look. Рациональная проекция отличается от классической защитной проекции «рациональной» мотивировкой: например, по данным одного из экспериментов, когда студентам .предложили высказать свои замечания по структуре учебного процесса, оказалось, что на отсутствие дисциплины жаловались отпетые прогульщики, а недостаточной квалификацией преподавателей были недовольны двоечники. Здесь, как и в случае обычной рационализации, вместо признания собственных недостатков испытуемые склонны были приписывать ответственность за собственные неудачи внешним обстоятельствам или другим людям. Д. Холмс, подводя итоги многолетних исследований, считает необходимым выделить два «измерения» проекции (Holmes D., 1968). Первое из них относится к тому, что проецируется; субъект воспринимает в другом свои собственные черты или черты, ему самому не присущие. Второе измерение - осознаёт ли субъект обладание той чертой, которая проецируется, или нет. Комбинация этих измерений позволяет классифицировать все известные виды проекции (табл. 2). Д. Холмс утверждал, что, несмотря на неоднократные попытки экспериментального изучения, проекция неосознаваемых черт не может считаться доказанной. Исходя из психоаналитической концепции, симилятивная проекция выполняет защитные функции, препятствуя осознанию того факта, что субъект в действительности обладает какой-то нежелательной чертой. Проекция, метафорически названная в честь «Панглосса» и «Кассандры», может рассматриваться как вариант защитного механизма «реактивное образование». Что касается черт, наличие которых субъект осознаёт, то их интенсивное изучение шло в русле проблемы межличностного восприятия. Экспериментальное подтверждение находит прежде всего атрибутивная проекция - приписывание другим людям имеющейся у субъекта и осознаваемой им черты. Р. Кеттелл считал этот вид проекции наивным умозаключением, основанным на недостатке опыта: люди склонны воспринимать других по аналогии с собой, приписывать другим те же мысли, чувства и желания, которые находят в самих себе. Комплиментарная проекция предполагает проекцию черт, дополнительных к тем, которыми субъект обладает в действительности. Например, если человек ощущает страх, то он склонен других воспринимать как угрожающих; в этом случае приписываемая черта служит причинным объяснением собственного состояния. Таблица 2
Классификация видов проекции по
Холмсу
Осознание субъектом проецируемой черты Наличие у субъекта проецируемой черты Отсутствие у субъекта проецируемой черты Субъект не осознает свою черту Симилятивная проекция Проекция «Панглосса» или «Кассандры» Субъект осознает свою черту Атрибутивная проекция Комплиментарная проекция Как соотносятся эти виды проекции с процессами, имеющими место в проективном исследовании? По этому вопросу не существует единства взглядов. Например, Г. Мюррей, употребляя термин «идентификация» применительно к ТАТ, фактически имел в виду защитную проекцию 3. Фрейда (симилятивный вид проекции по Холмсу); отождествляя себя с «героем», испытуемый получает возможность неосознанно приписать ему собственные «латентные» потребности. В этом случае уподобление себя другому позволяет успешно избегать осознания своей «плохости» или психической ненормальности. Вместе с тем клинические и экспериментальные исследования показали, что содержание проекции не сводимо к асоциальным тенденциям: объектом проекции могут стать любые положительные или отрицательные проявления личности. По-видимому, само проективное поведение является производным от многих факторов. В частности, оказалось, что даже манера экспериментатора, индуцируемые им чувства, влияют на аффективный знак тематических рассказов: агрессивная установка приводит к возрастанию агрессивных «тем», дружелюбная- к преобладанию релаксационных (Bellak L., 1944). Таким образом, в целом защитную концепцию проекции неправомерно рассматривать в качестве принципа «обоснования проективного метода, хотя сам феномен защиты может иметь место, в частности, если ситуация эксперимента воспринимается как угрожающая (Lazarus R. S., 1961). Что касается других видов проекции, то их экспериментальное изучение применительно к проективным тестам не дало однозначных результатов. Однако большинство авторов, опираясь на идею 3. Фрейда об «уподоблении», считают возможным привлекать феномены атрибутивной и аутистической проекций для доказательства значимости проективной продукции. К сожалению, в обоснованиях подобного рода описание тех или иных явлений, наблюдающихся в эксперименте, нередко заменяет раскрытие их собственно психологических механизмов. Как одну из попыток преодоления кризиса в обоснования проективного метода можно рассматривать отказ от понятия проекции в виде объяснительной категории; примером такого подхода является концепция апперцептивного искажения Л. Беллака. Исходя из анализа фрейдовской концепции проекции, Беллак приходит к выводу о неадекватности использования этого понятия в целях обоснования проективного метода, так как оно не способно описать и объяснить процессы, обусловливающие проективное поведение; последнее должно быть рассмотрено в контексте проблемы «личность и восприятие» (Abt L., Bellak L., 1950), Основу категориальной системы Беллака составляет понятие «апперцепция», понимаемая как процесс, посредством которого новый опыт ассимилируется и трансформируется под воздействием следов прошлых восприятий. Термин «апперцепция» имеет принципиально иное содержание, чем в теории Мюррея, так как учитывает природу стимульных воздействий и описывает не «первичные» процессы, а собственно когнитивные. В дискуссии по оценке диагностической значимости проективных методик Р. Кеттелл занимал пессимистическую позицию (Cattell R., 1957). Проективные методики, по его мнению, характеризует крайне слабая научная обоснованность. Основные аргументы Кеттелла состоят в следующем: 1) проективная психология оказалась не способной четко сформулировать гипотезу о том, какие слои личности преимущественно отражаются в показателях проективных тестов - открыто проявляющиеся, осознаваемые или, напротив, бессознательные, скрытые; 2) интерпретационные схемы не учитывают, что защитные механизмы - идентификация и проекция - могут искажать восприятие проективных стимулов одновременно и притом в разных направлениях, так что апелляция к механизму проекции до того, как природа искаженного восприятия; доказана, неправомерна. Например, испытуемый со скрытым гомосексуализмом может давать больше соответствующих ответов в ТАТ (при идентификации) или меньше, если действует механизм обратной проекции или формирования реакции; 3) остается неясным вопрос о том, какие именно личностные переменные проецируются - влечения, бессознательные комплексы, динамические аффективные состояния, устойчивые мотивы. К этим аргументам, подтверждающим концептуальную слабость проективных методик, Кеттелл считает нужным добавить упрек в низкой надежности и валидности проективных процедур. К сожалению, следует признать обоснованность критических замечаний Кеттелла, особенно если оценивать проективные техники как психометрические инструменты или тестовые процедуры. Большинство проективных методик, или проективных техник, как их иногда предпочитают называть, не являются, по-видимому, тестами в узком понимании этого термина. Согласно одному из принятых определений, «психологический тест - это стандартизованный инструмент, предназначенный для объективного измерения одного или более аспектов целостной личности через вербальные или невербальные образцы ответов либо другие виды поведения» (Freeman E, 1971). В соответствии с этим определением, наиболее существенными признаками тестов являются: 1) стандартизованность предъявления и обработки результатов; 2) независимость результатов от влияния экспериментальной ситуации и личности психолога; 3) сопоставимость индивидуальных данных с нормативными, т. е. полученными в тех же условиях в достаточно репрезентативной группе. В настоящее время далеко не все проективные методики и отнюдь не в равной степени удовлетворяют выделенным критериям. Так, общепринятым является мнение о недостаточной объективности проективной техники. При этом ссылаются на многочисленные наблюдения и эксперименты, доказывающие влияние на тестовые результаты таких факторов, как пол экспериментатора, ситуативные условия и переживания испытуемого, атмосфера исследования (Abt L., Bellak L., 1950; Draguns L, Haley E., Philips L., 1968; Freeman F., 1971). Для целого ряда проективных методик нормативные данные отсутствуют; более того, некоторыми исследователями оспаривается принципиальная возможность их существования для подобного рода «идеографических» методов. Чрезвычайно важным и до сих пор дискуссионным остается вопрос о стандартизованности проективных методик. Остановимся на нем подробнее. В отличие от тестов интеллекта или способностей, при проективном испытании практически невозможно полностью унифицировать и стандартизовать не только анализ и интерпретацию результатов, но даже и саму процедуру исследования. Ведь совершенно различно поведение экспериментатора с робким, чувствительным, уязвимым или спокойным, уверенным субъектом, с таким, который открыт, активно ищет помощи, или с тем, кто «защищается» при малейших попытках проникнуть в его внутренний мир. Хотя в любом капитальном руководстве и описываются наиболее распространенные стратегии поведения экспериментатора, они, конечно же, не охватывают всего многообразия конкретных случаев. К тому же жесткая формализация и стандартизация, как указывают ряд исследователей, противоречила бы самому духу проективной техники. Сошлемся в связи с этим на высказывание Лоуренса Фрэнка, одного из крупнейших теоретиков в этой области: «...нельзя надеяться, что стандартизованная процедура сможет широко осветить личность как уникальную индивидуальность. Она также не сможет способствовать проникновению в динамические процессы личности» (цит. по: Бом Э., 1978). И тем не менее исследования по стандартизации проективных методик необходимы, так как без них затруднительна оценка валидности и надежности последних. Анализируя обширную и весьма противоречивую литературу, можно сделать вывод, что согласно традиционным способам оценки проективные методики имеют средние показатели валидности и надежности (Гильбух Ю. 3., 1978; Freeman F., 1971; Sechrest L., 1968). Подобный вывод может объясняться, однако, и тем, что критерии валидности и надежности, разработанные для традиционных тестов, вообще неприменимы в данном случае. Учитывая потребности практики, а также тенденции развития исследовательского инструментария современной психологии, можно, по-видимому, ожидать постепенного сближения проективных методик с тестами. Работа в этом направлении, если она будет выполняться совместно квалифицированными клиническими психологами и специалистами в психометрике, позволит расширить сферу применения проективных методик и сделает их достоянием широкого круга исследователей. 2.3. ИЗ ИСТОРИИ КОНТЕНТ-АНАЛИЗА КАК ПСИХОДИАГНОСТИЧЕСКОЙ ПРОЦЕДУРЫ
В современной отечественной психодиагностике контент-анализ, вообще качественно-количественное изучение документов, применяется крайне редко по сравнению со всевозможными тестами, проективными методиками, опросниками. В то же время в истории развития метода изучения документов имеется довольно разнообразный опыт его использования для психодиагностических целей. Начиная с 20-х годов нашего века в социологии и психологии помимо интуитивно-качественного подхода в изучении документов все чаще стали применяться количественные методы. Следует заметить, что документы в социальных науках понимаются достаточно широко; к ним, как показывает исследовательская практика, относятся официальная и личная документация в собственном смысле слова, в том числе письма, автобиографии, дневники, фотографии и т. п., материалы массовой коммуникации, литературы и искусства. В нашей стране еще в 20-х годах количественные методы при изучении документов использовали психологи Н. А. Рыбников, И. Н. Шпильрейн, П. П. Блонский, социолог В. А. Кузьмичев и др. В США тогда же квалификацию в исследования материалов массовой коммуникации вводили М. Уилли, Г. Лассуэлл и другие. В 40-50-е годы в США формируется специальный междисциплинарный метод изучения документов - контент-анализ (content analysis). Позднее он проникает в европейские страны. В нашей стране с конца 60-х годов этот метод также получает распространение в социологических и социально-психологических исследованиях (подробнее см.: Семенов В. Е., 1983). Сущность контент-анализа заключается в систематической надежной фиксации заданных единиц изучаемого содержания и в их квантификации. Делаться это может в самых разнообразных целях в русле той или иной концептуальной схемы или теории, в том числе и для нужд психодиагностики, для исследования межличностных и межгрупповых различий и специфики, их динамики во времени. Остановимся на исследовательском опыте качественно-количественного изучения документов, либо имеющем прямое отношение к традиционной психодиагностике, а также к социально-психологической диагностике, либо близком к психодиагностическому опыту. Качественно-количественный анализ содержания в 20-е годы использовал в своих работах известный русский советский исследователь биографических материалов Н. А. Рыбников, который, в частности, рассматривал автобиографии как психологические документы, документирующие личность и ее историю. Он разделял автобиографии на спонтанные и спровоцированные, понимая под последними прием побуждения испытуемого говорить о себе, причем говорить по определенному плану. Такой прием, по мнению Н. А. Рыбникова, «гарантирует однообразие собираемого материала, что имеет огромные преимущества, давая возможность сравнивать, объединять, обобщать собираемые факты и т. д.» (Рыбников Н. А., 1930, с. 40). Подобным образом им были, например, проанализированы более 500 автобиографических сочинений детей рабочих, написанных в 1926-1928 гг. При этом исследователь предлагал школьникам описать свою жизнь, давая тему: «Как я живу теперь». В ходе анализа сочинений, в частности, прослеживалось, как распределяются положительные и отрицательные оценки школьниками своей жизни в зависимости от возраста и пола. Автор делает вывод, что в среднем девочки дают более высокий процент положительных оценок, но этот перевес над мальчиками у них приходится на младшие группы. В старших же группах они уступают мальчикам. Причиной этого является возрастание нагрузки по работе в семье у девочек старшего возраста. Далее Рыбников анализирует «мотивы того или иного события, мотивы общего жизненного процесса, встречающиеся в детских автобиографиях». Эти мотивы он разбивает натри группы: материальные, психологические и неопределенные. Чаще всего встречаются мотивы материального характера (53 %), мотивы психологического характера дает около одной трети ребят (31 %). Исследователь отмечает, что «хорошее житье чаще всего мотивируется причинами психологического характера (67 % против 25 %); наоборот, плохое житье-бытье вдвое чаще обосновывается мотивами материального характера (31 % против 16 %)». Автор также констатирует, что большинство детских высказываний носит описательный характер, таковых высказываний встречается 63,7 % («учусь в, школе, хожу гулять на улицу, играю с товарищами» и т. д.) (Рыбников Н. А., 1930, с. 42). Рыбников не ограничивается только анализом документов, «Поскольку детские жизнеописания носят по преимуществу фактический характер, представляется возможным сравнить их с фактическим времяпрепровождением ребенка. Одновременно с собиранием детских жизнеописаний мы вели собирания бюджета времени ребенка. Это сравнение объективных данных о бюджете времени с субъективным описанием времяпрепровождения показывает, что целый ряд моментов, как неинтересных и неважных, ребята совершенно обходят, другие, наоборот, оттеняют. Так, школа и все связанное с ней оказывается особенно действенной для ребенка, она занимает 39 % его высказываний, тогда как в бюджете времени ее удельный вес не так велик» (Рыбников Н. А., 1930). Применял количественный анализ документов и психолог П. П. Блонский, который проанализировал 190 собранных им «первых воспоминаний» учителей и студентов, а также 83 письменные работы школьников (в основном 11-13 лет) на тему «Мое самое раннее воспоминание детства», в целях выявления характера первых воспоминаний (Блонский П. П., 1930). Исследователь делает вывод, что содержанием 68 % воспоминаний взрослых и 74 % воспоминаний школьников является несчастье. «Несчастье и страх - таковы основные мнемонические факторы», что противоречит фрейдовской теории забывания как вытеснения неприятного. Как видим, простой количественный анализ содержания позволил Блонскому сделать весьма важное заключение. Однако процедура этого анализа, как и у Рыбникова, не была изложена. При этом вопросы процедуры и надежности полученных данных в значительной мере снимаются тем, что все исследование, включая сбор первичной информации, в те годы обычно проводил сам исследователь,: крупный ученый, подобный Блонскому или Рыбникову. Тем не менее качественно-количественное изучение содержания документов, проводимое в 20-х годах в нашей стране, в целом нельзя назвать безусловно строгим. Таковым оно тогда и не могло еще быть в силу объективного положения в эмпирических социальных исследованиях, методология которых только начинала складываться. Тогда же в социолого-журналистских целях В. А. Кузьмичев провел тематический анализ 12 еженедельных советских газет, использовав ту же группировку содержания, что и известный исследователь американской прессы тех лет М. Уилли: «I) политика, 2) экономика, 3) культура, 4) сенсации (уголовщина, разоблачения и т. д.), 5) спорт,. 6) персоналии (об отдельных людях), 7) мнения (редакционные статьи, карикатуры), 8) просто интересный материал, для развлечения, 9) журнальный материал (рассказы, моды, кулинарии фотография и т. д.), 10) смесь» (Кузьмичев В, А., 1930, с. 37-38). Как видим, в этом случае своеобразная психодиагностика осуществляется уже на уровне общественного сознания в различных социальных системах. . Данные, полученные автором, показывают, что в советских газетах на первых местах находились темы экономики и политики, а в американских - журнальный материал и персоналии. Это красноречиво, свидетельствует о различиях в направленности советских и американских еженедельников. Как пишет Кузьмичев, «важнейшие для воспитания широких масс материалы (политика и экономика) в американской газете отходят на задний план перед оглушающим, развлекающим читателя материалом (сенсации, моды, описание отдельных персон и т. д.)» (Кузьмичев В. А., 1930). В качестве примера более позднего медико-психодиагностического изучения документов можно привести тематический анализ содержания 4000 записанных сновидений здоровых и больных людей, который осуществлялся В. Н. Касаткиным на протяжении 30-50-х годов (Касаткин В. Н., 1967). При этом учитывались основные особенности качеств и условий жизни людей, сновидения которых изучались: возраст, пол, образование, специальность, состояние здоровья, семейное положение, родной язык и владение другими языками, местожительство, биографические сведения, дата, содержание дня, предшествующего сновидению, и состояние испытуемого при пробуждении. Автор, в частности, нашел, что в «сновидениях взрослых людей встречались элементы, связанные с работой, трудовой деятельностью (специальностью), в 62,5 % всех сновидений; элементы быта, как то: жилище, одежда, пища и т. п. - в 41,4 % всех сновидений; элементы, связанные со здоровьем, — в 44,3 %; эпизоды из семейной жизни — в 38,6 %, сексуальные - в 8,0 % всех сновидений» (там же). Эти и другие данные позволили Касаткину оспаривать фрейдистскую теорию сновидений. Американскими исследователями контент-анализ стал использоваться с 40-х годов и для определения психологических особенностей, психических состояний личности и групп. Например, психологическую структуру отдельной конкретной личности на основе анализа коллекции личностных документов исследовали Г. Оллпорт (Allport G., 1942) и А. Болдуин (Baldwin A., 1942). Психическую напряженность, предсуицидные состояния и мотивацию посредством анализа содержания писем, записок, дневников пытались измерить Дж. Доллард и О. Маурер (Dollard J., Mowrer О., 1947), Ч. бсгуд и Е.Уолкер (Osgood Ch,, Walker Е., 1959). В целях специфической психолого-политической диагностики изучали различия в социальных ценностях у представителей США и Германии К. Левин и X. Себалд (Lewin К., 1 947; Sebald H., 1962). Первый исследователь анализировал американскую и немецко-фашистскую литературу для юношества, а второй - песенники этих же стран, изданные в 1940 г. В обоих исследованиях были обнаружены явные различия в ценностных ориентациях, которые пропагандировались американскими и немецкими изданиями тех лет. К подобного же рода анализу относится исследование использования эмоциональных стереотипов в газете «Чикаго Трибюн», оппозиционно настроенной к президенту Рузвельту и его политике, проведенное в 30-х годах С. Сарджентом (Sargent S., 1939). Для выражения отношения к политике и практике рузвельтовского направления газета использовала негативные стереотипы типа «диктатура, инквизитор, регламентация, подачка», тогда как в газете «Нью-Йорк тайме» в аналогичных случаях употреблялись термины: «контроль, расследователь, регулирование, помощь». Множественное сопоставление соответствующих выражений и понятий в газетах выявило отношение стоящих за газетами групп к определенным политическим лидерам, партиям и явлениям. Л. Лоуэнталь на основе количественного анализа биографий, публикуемых в популярных журналах, показал, как изменялись ценности и кумиры американского общества на протяжении первых четырех десятилетий нашего века от «идолов производства» (бизнесмены, менеджеры, банкиры и т. д.) к «идолам потребления» (певцы, кинозвезды, спортсмены и т. п.) (Lowenthal L., 1950). Многочисленные, зачастую спекулятивные, исследования были проведены западными психологами и психоаналитиками для изучения личностных особенностей писателей на основе контент-анализа их литературных произведений (особенно часто анализировались сочинения В. Шекспира и Ф. М. Достоевского). Вместе с тем контент-анализ репрезентативных выборок произведений художественной литературы и искусства может позволить выявить обобщенные «характеристики и особенности авторов в зависимости, например, от социально-демографических признаков. Подобные статистические закономерности особенностей отражения людей и социальной среды писателями были обнаружены нами при изучении художественной прозы и портретной живописи» (Семенов В. Е., 1983). Сошлемся и на контент-анализ эпизодов жестокости и агрессии в западных и отечественных кинофильмах, выполненный под нашим руководством Н. Н. Лепехиным и Ч. А. Шакеевой. Анализ выявил количественное преобладание и более жестокий характер подобных эпизодов в западных фильмах (Социально-психологические проблемы нравственного воспитания личности. Л., 1984). С 50-х годов получает распространение качественно-количественный анализ вербальной коммуникации в малых группах, начатый Р. Бейлсом (следует отметить, что обычно такие исследования принято относить к наблюдению, хотя речь, зафиксированная, например, на магнитной ленте, становится уже документом). Посредством анализа диалогов, деловых бесед, дискуссий в малых группах и первичных коллективах можно диагностировать стиль руководства, социально-психологический климат, конфликтность и т. п. (см., напр.: Обозов Н. Н., 1979). Аналогичные возможности открываются для психодиагностики процессов и состояний при изучении массового вербального поведения на улице, в транспорте, магазинах и т. д. (Semenov V., 1984). Таким образом, опыт применения качественно-количественного анализа различных документов демонстрирует его значительные возможности для психодиагностики, причем как на уровне личности, так и на уровне малых и больших групп. В качестве эмпирических объектов изучения могут быть использованы личные документы (письма, фотографии, дневники, автобиографии и т. п.), материалы групповой, коллективной и массовой коммуникации (записи разговоров, дискуссий, совещаний, всевозможные уставы, приказы, объявления, газеты, радиопередачи, реклама и т. п.), а также продукты деятельности людей, включая литературу и искусство. Помимо самостоятельного применения или равноправного применения в комплексе с другими методами контент-анализ может выступать и в качестве вспомогательной техники для обработки данных, полученных посредством прожективных методик (например, ТАТ, тест Роршаха), нестандартизованных интервью, открытых вопросов анкет и т. п. (Логинова Н. А., Семенов В. Е., 1973; Столин В. В., 1982; Lindner R., 1950; Hafner A., Kaplan A., 1960). Следует подчеркнуть, что контент-анализ основан на принципе повторяемости, частотности различных смысловых и формальных элементов в документах (определенных понятий, суждений, тем, образов и т. п.). Поэтому данный метод применяется только тогда, когда имеется достаточное количество материала для анализа (представлено много отдельных однородных документов, автобиографий, писем, фотографий и т. д. или есть несколько и даже один документ, например дневник, но достаточного объема). При этом интересующие нас элементы содержания (единицы анализа) также должны встречаться в исследуемых документах с достаточной частотой. В противном случае выводы будут лишены статистической достоверности. Критерием здесь служит закон больших чисел. Не все виды документов пригодны для контент-анализа по причине затруднений с формализацией их содержания. Иногда невозможно задать четкие однозначные правила для фиксирования нужных характеристик содержания (например, трудно или совершенно невозможно формализовать описание лирического героя некоторых поэтических произведений). Следовательно, объекты анализа должны удовлетворять требованиям статистической значимости и формализации. Квантификация в контент-анализе от простого подсчета частот встречаемости тех или иных элементов-единиц содержания постепенно эволюционировала к более сложным статистическим средствам. В частности, еще в 1942 г. А. Болдуином был предложен подсчет совместной встречаемости слов в тексте (Baldwin А., 1942). В конце 50-х годов Ч. Осгуд с сотрудниками обогатил контент-анализ методикой «связанности символов», в которой развивается принцип Болдуина, что позволяет обнаруживать неслучайные, связанные между собой элементы содержания, представленные в специальных матрицах (Семенов В. Е., 1983; Osgood Ch., 1959). В сущности, эта методика была началом введения в контент-анализ корреляционной техники, а затем и факторного анализа. Новым этапом в развитии контент-анализа стала его компьютеризация в 60-х годах. Ё Массачусетском технологическом институте появился «универсальный анализатор» (The General Inquirer) - комплекс компьютерных программ анализа текстовых материалов, при помощи которого можно подсчитывать частоты категорий содержания текста, получать различные индексы на основе совместного появления этих категорий и т. д. (Stone Ph., Dunphy D., 1966). Подобным образом были исследованы речи двадцати американских президентов при их вступлении на этот пост, редакционные статьи в газетах разных стран, личные письма, сочинения, вербальное поведение психически больных людей и прочие материалы. С 70-х годов в США разрабатываются стандартные компьютерные программы анализа разнообразных документов, которые предлагаются организациям и частным лицам (Сохоп А., 1977), компьютерный контент-анализ развивается и в других странах (Deichelsel A., 1975). Естественно, что использование компьютерных программ в контент-анализе обеспечивает этому методу явные преимущества, заключающиеся в надежности получаемых данных и быстроте анализа, по сравнению с ручным, выполняемым людьми-кодировщиками, которые подвержены ошибкам из-за утомления и субъективных факторов. Таким образом, трудоемкость составления программ окупается тем огромным объемом содержания, которое достаточно быстро и надежно можно проанализировать на компьютере, а также освобождением кодировщиков от их чрезвычайно утомительного труда. В целом проблемы использования машинного контент-анализа близки общей стратегии применения компьютеров в эмпирических социальных исследованиях. Важно правильно определить, когда следует воспользоваться машинным, а когда ручным анализом, что зависит от задач исследования, от объема материалов, подлежащих анализу, от степени их формализуемости. ГЛАВА 3 ПСИХОМЕТРИЧЕСКИЕ ПСИХОДИАГНОСТИКИ
3.1. РЕПРЕЗЕНТАТИВНОСТЬ ТЕСТОВЫХ НОРМ
Основные статистические принципы построения тестов достаточно полно освещены в появившейся в начале 80-х годов на русском языке литературе по дифференциальной психометрике (Аванесов В. С., 1982; Анастази А., 1982; Гайда В. К., Захаров В. П., 1982). Тем не менее в указанных руководствах центральная проблема психометрики тестов - вопрос о тестовых нормах - еще не получила последовательного освещения. Прежде всего это относится к руководству известной представительницы американской тестологии А. Анастази. В руководстве Анастази не получают достаточного критического обсуждения две основополагающие предпосылки традиционной западной тестологии: вопрос о применении статистических норм (квантилей распределения баллов) в качестве диагностических норм и вопрос о сведении всех эмпирических распределений к нормальной модели. Ниже эти предпосылки будут проанализированы в контексте краткой реконструкции системы основных понятий дифференциальной психометрики. Статистическая природа тестовых шкал. Типичный измерительный тест в психодиагностике - это последовательность кратких заданий, или пунктов, дающая в результате ее выполнения испытуемым последовательность исходов, которая затем подвергается однозначной количественной интерпретации. Примеры интерпретации в интеллектуальных тестах, состоящих из отдельных задач: «правильное решение», «ошибочное решение», «отсутствие ответа» (пропуск задачи из-за нехватки времени). Примеры интерпретации в случае личностных опросников, состоящих из высказываний, предлагаемых для подтверждения испытуемым: «подтверждение» (ответ «верно»), «отвержение» (ответы «не согласен», «неверно»). Суммарный балл по тесту подсчитывается с помощью ключа: ключ устанавливает числовое значение исхода по каждому пункту. Например, за правильное решение задания дается «+1», за неправильное решение или пропуск - «О». Тогда балл буквально выражает количество правильных ответов. Исход по отдельному заданию подвержен воздействию не только со стороны измеряемого фактора - способности или черты личности испытуемого, но и побочных шумовых факторов, которые являются иррелевантными по отношению к задаче измерения. Примеры случайных факторов: колебания внимания, вызванные неожиданными отвлекающими событиями (шум на улице, стук в дверь и т. п.), трудности в понимании смысла задания (вопроса), вызванные особенностями опыта данного конкретного испытуемого, и т. п. Последовательность исходов оказывается последовательностью событий, содержащей постоянный и случайный компоненты. Как известно, основным приемом, позволяющим устранить искажающее влияние случайных факторов на результат (суммарный балл), Является балансировка этого влияния с помощью повторения. При этом фактически предполагается, что повторение обеспечивает рандомизацию (случайное варьирование) неконтролируемого фактора, в результате чего при суммировании исходов Положительные и негативные эффекты случайных факторов взаимопоглощаются (о механизме рандомизации см.: Готтсданкер Р., 1982). В оптимальном тесте набор и последовательность заданий организуются таким образом, чтобы повысить долю постоянного компонента и сократить долю случайного в величине суммарного балла. Тем не менее, несмотря на различные статистические ухищрения, суммарный балл в психологических измерениях содержит несравненно большую долю случайного компонента, чем в обычных физических измерениях. В силу этого суммарный балл оказывается определенным лишь в известных пределах, заданных ошибкой измерения. Для того чтобы оценить эффективность, дифференциальную ценность всей процедуры измерения, необходимо соотнести размеры ошибки измерения с размерами разброса суммарных баллов, вызванных индивидуальными различиями в измеряемой характеристике между испытуемыми. В терминах Статистики речь идет о сравнении так называемой истинной дисперсии распределения суммарных баллов с дисперсией ошибки. Именно этим обусловлен необходимый интерес психометристов к распределению суммарных баллов. Поэтому анализ распределения необходим не только при использовании статистических норм, но и в случае абсолютных и критериальных норм. Как известно, частотное распределение суммарных баллов имеет удобную графическую интерпретацию в виде кривых распределений: гистограммы и кумуляты (см., в частности, удачное популярное введение в описание распределений в книге: Кимбл Г., 1982, с. 55-70). В случае гистограммы по оси абсцисс откладываются «сырые очки» -первичные показатели суммарных баллов, возможных для данного теста, по оси ординат - относительные частоты (или проценты) встречаемости баллов в выборке стандартизации (Анастази А., 1982, с. 66). Как известно, для «колоколообразной» кривой нормального распределения дисперсия визуализируется как параметр, ответственный за «распластанность» графика плотности вероятности (теоретического аналога эмпирической кумуляты) вдоль оси X. Чтобы визуализировать дисперсию ошибки измерения, нужно было бы многократно провести тест с одним испытуемым и построить графическое распределение частот его индивидуальных баллов (рис. 1). Очевидно, что дифференцирующая способность теста сводится к нулю, если кривые, иллюстрирующие «истинную» и «ошибочную» дисперсии» совпадают. Как видим, анализ распределения тестовых баллов необходим уже для анализа надежности теста (см. раздел 3.2). Проблема меры в психометрике и свойства пунктов теста. В физических измерениях калибровка шкалы производится на основе контроля за равномерным варьированием измеряемого свойства в эталонных объектах. Носителем меры является эталон- физический объект, стабильно сохраняющий заданную величину измеряемого свойства. В дифференциальной психометрике такие физические эталоны отсутствуют: мы не располагаем индивидами, которые были бы постоянными носителями заданной величины измеряемого свойства. Рис. 1.Соотношение индивидуальной и общей вариации тестовых баллов
Роль косвенных эталонов в психометрике выполняют сами тесты: в том смысле, в каком трудность задач можно рассматривать как величину, прямо пропорционально сопряженную со способностью (чем труднее задача, тем выше должен быть уровень способности, требуемый для ее решения). Аналогом понятия «трудность» для «ли-вопросов»[10]
опросника является «сила»: более «сильные» высказывания (в логическом смысле) вызывают подтверждение (согласие) у меньшего числа испытуемых. Ни трудность, ни силу пунктов теста нельзя выявить иначе, чем с помощью проведения теста. Операциональным определением трудности оказывается «процентильная мера»: процент испытуемых, справившихся с заданием теста (или ответивших «верно» на «ли-вопрос»). Чем меньше процент, тем выше трудность. Кривая распределения тестовых баллов отражает свойства пунктов, из которых составлен тест. Если кривая имеет правостороннюю асимметрию, то в тесте преобладают трудные задания; если кривая имеет левостороннюю асимметрию, значит, большинство пунктов в тесте - легкие (слабые) (рис. 2).
Рис. 2.Асимметрии распределения тестовых баллов
Тесты первого типа плохо дифференцируют испытуемых с низким уровнем способностей: все эти испытуемые получают примерно одинаковый низкий балл. Тесты второго типа, наоборот, хуже дифференцируют испытуемых с высоким уровнем способностей. Если пункты обладают оптимальным уровнем трудности (силы), то кривая распределения зависит от того, насколько пункты однородны. Если пункты разнородны (исход по одному пункту не предопределяет исход по другому), то мы получаем тест в виде последовательности независимых испытаний Бернулли. Как известно из математической статистики, при достаточно большом количестве независимых испытаний с двумя разновероятными исходами кривая биномиального распределения (кривая суммарного балла) по закону больших чисел автоматически приближается к кривой нормального распределения (центральная предельная теорема Муавра - Лапласа). Если тест содержит разнородные задания примерно равного уровня трудности (именно такие задания и подбираются для измерения интегральных свойств личности), то нормальность распределения суммарных баллов возникает автоматически - как артефакт самой процедуры подсчета суммарных баллов. При этом, конечно, форма кривой распределения баллов не позволяет говорить о реальной форме распределения измеряемого свойства, каким оно является само по себе - в широкой популяции испытуемых. Нормальность распределения есть артефакт, прямое следствие направленного отбора пунктов с заданными свойствами. Если подбираются пункты, тесно положительно коррелирующие между собой (испытания не являются статистически независимыми), то в распределении баллов возникает отрицательный эксцесс (рис. 3,а), Максимальных значений отрицательный эксцесс достигает по мере возрастания вогнутости вершины распределения - до образования двух вершин -двух мод (с «провалом» между ними -рис. 3,6). Бимодальная конфигурация распределения баллов указывает на то, что выборка испытуемых разделилась на две категории (с плавными переходами между ними): одни справились с большинством заданий (согласились с большинством «ли-вопросов»), другие - не справились. Рис. 3. Отрицательные (а, б) положительный (в) эксцессы распределения тестовых баллов
Такая конфигурация распределения свидетельствует о том, что в основе пунктов лежит какой-то один общий им всем признак, соответствующий определенному свойству испытуемых: если у испытуемых есть это свойство (способность, умение, знание), то они справляются с большинством пунктов, если этого свойства нет - то не справляются. В некоторых редких ситуациях пункты могут отрицательно коррелировать друг с другом. В этом случае на кривой возникает положительный эксцесс (рис. 3, в): вся масса эмпирических точек собирается вблизи среднего значения. Такое возможно в двух случаях: 1) когда ключ составлен неверно -объединены при подсчете отрицательно связанные признаки, которые обусловливают взаимоуничтожение баллов; 2) когда испытуемые применяют, разгадав направленность опросника, специальную тактику «медианного балла» - искусственно балансируют ответы «за» и «против» одного из полюсов измеряемого качества. Итак, когда в качестве единственного эталона измерения психодиагностами рассматривается сам тест, то в качестве меры измеряемого свойства выступает положение балла на кривой распределения. Применяется процентильная шкала. В качестве универсальной меры, пригодной для разных (по своей качественной направленности и количеству пунктов) тестов, используется «процентильная мера». Процентилъ — процент испытуемых из выборки стандартизации, которые получили равный или более низкий балл, чем балл данного испытуемого. Таким образом, в качестве источника данной меры выступает нормативная выборка (выборка стандартизации), на которой построено нормативное распределение тестовых баллов. Процентильные шкалы лежат в основе всех традиционных шкал, применяемых в тестологии (Т-очки MMPI, баллы IQ, стены 16 PF и др.). Подчеркнем, что с точки зрения теории измерений, процентильные шкалы относятся к порядковым шкалам: они дают информацию о том, у кого из испытуемых сильнее выражено измеряемое свойство, но не позволяют говорить о том, во сколько раз сильнее. Для того чтобы строить на базе таких шкал количественный прогноз, нужно повысить уровень измерения (популярное изложение представлений о теории измерений см. в книге: Клигер С. А. и др., 1978). Переход к шкалам интервалов производят либо на базе эмпирического распределения, либо на базе произвольной модели теоретического распределения. В абсолютном большинстве случаев в роли такой теоретической модели оказывается модель нормального распределения (хотя в принципе может быть использована любая модель). В целом кроме статистических, процентильных шкал следует отличать нередко используемые в дифференциальной психометрике еще 2 вида шкал (и соответственно 2 вида тестовых норм). Это, во-первых, то, что можно условно назвать «абсолютными тестовыми нормами» — в роли шкалы для вынесения диагноза выступает сама шкала «сырых» очков, во-вторых, «критериальные» тестовые нормы. Применение таких норм можно считать оправданным в двух случаях: 1) когда сама тестовая «сырая» шкала имеет практический смысл (например, студент, изучающий иностранный язык, должен знать как можно больше слов этого языка, и сырой показатель лексического теста имеет практический смысл); 2) когда сырой балл по тесту в результате эмпирических исследований связывается с заданной вероятностью успешности какой-либо практической деятельности (вероятность успеха «критериальной» деятельности, каковой для упомянутого выше примера может быть синхронный перевод монолога в течение 30 минут). Процентильная нормализация шкалы. Выше Показано, что нормальность распределения достигается искусственным подбором пунктов теста с заданными статистическими свойствами: Опишем еще ряд процедур, которые также широко используются для искусственной нормализации. 1. Нормализация пунктов. Ключ для данного пункта корректируется на базе нормальной модели. Если среди нормативной выборки с данным заданием справились только 16 % испытуемых, то данному пункту на интервальной шкале «трудности» (при условии априорного принятия нормальной модели с параметрами М = 0 и а = 1) соответствует значение +1 (см. график в книге: Анастазй А., 1982, с. 181). Если справились 75 % испытуемых, то балл пункта на сигма-шкале равен-0,67. В результате суммирования по пунктам баллов, скорректированных нормализацией, суммарные баллы лучше приближаются к нормальному распределению. 2. Нормализация распределения суммарных баллов (или интервальная нормализация). В этом случае по таблице нормального распределения (нормального интеграла) производится переход от процентильной шкалы к сигма-шкале: используется функция, обратная интегральной, - от ординаты производится переход к абсциссе нормального распределения. Рис. 4. Преобразование процентильной шкалы (по оси
X
) в нормализованную сигма-шкалу (по оси
Y
)
На рис. 4 дана условная графическая иллюстрация этого перехода (кривая, обратная традиционной S-образной интегральной кривой нормального распределения). Приведем пример интервальной нормализации (табл. 3). Пусть строка X содержит сырые баллы (не нормализованные) по тесту, полученные простым подсчетом правильных ответов. В строке Р - частоты встречаемости сырых баллов в выборке из 62 испытуемых. В строке F - кумулятивные частоты: Таблица 3 X P F F*
PR σ 3 2 2 1 1,6 -2,1 4 18 20 11 17,7 -0,9 5 13 33 26,5 42,7 -0,2 6 8 41 37 59,7 0,2 7 10 51 46 74,2 0,6 8 6 57 54 87,1 1,1 9 4 61 59 95,2 1.7 10 1 62 61.5 99.2 2.4 n=62 Σ=
100 M=0 σ =1 Трудность, с которой сталкиваются начинающие при использовании интервальной нормализации, состоит в том, что обычные статистические таблицы не приспособлены для психометрики: нужно отыскивать значение процентильного ранга внутри таблицы, а соответствующую сигма-оценку – с краю. Для облегчения ориентации приведем фрагмент таблицы соответствий PR, а и стенов (табл. 4): Таблица 4 PR σ стен 99 2,33 10 95 1,64 10 90 1,28 9 85 1,04 8 80 0,84 8 75 0,68 7 70 0,52 6,5 65 0,39 6,5 50 0,25 6 55 0,13 6 PR σ стен 50 0,0 5,5 45 -0,13 5 40 -0,25 35 -0,39 4,5 30 -0,52 4 25 -0,68 4 20 -0,84 15 -1,04 3 10 -1,28 2 5 -1,64 1 1 -2,33 1 В обычных таблицах из соображений симметрии даны лишь значения для PR > 50. Для PR < 50 соответствующие значения находятся из тех же таблиц σ = ψ -1
(1- PR/100). Например, для PR =35 мы находим 1 - PR/100 = 1 - 0,35 = 0,65, затем - по табл. ψ -1
= 0,39 и берем это значение с отрицательным знаком -0,39. Для нормализации удобно пользоваться графическим методом (нормальной бумагой, стандартной 5-образной кривой и т. п.). В результате нормализации интервалы между исходными сырыми баллами переоцениваются в соответствии с нормальной моделью. В отличие от процентильной шкалы, нормальная шкала придает больший вес (в дифференциации испытуемых) краям распределения: различия между испытуемыми, набравшими 95 и 90 процентилей, оцениваются как более высокие, чем различия между испытуемыми, набравшими 65 и 60 процентилей. В применении к шкалам оценок (рейтинговым шкалам) метод нормализации интервалов называется «методом последовательных интервалов» (Клигер С. А. и др., 1978, с. 75-81). В результате применения процедуры нормализации исследователь-психометрист получает для нормативной выборки таблицу перевода сырых баллов в нормализованные баллы. На основе этих таблиц часто строят графики: деления сырых баллов наносят на числовую ось с неравными интервалами, так что эмпирическое распределение частот максимально близко приближается к нормальной форме. Пример такой графической нормализации - профильные листы MMPI (Анастази А., 1982, с. 129). Так как нормальное распределение описывается всего двумя параметрами: средним М (мерой положения) и средним квадратическим (или стандартным) отклонением а (мерой рассеяния), то диагностические нормы в случае нормализованных шкал описываются в единицах отклонений от среднего по выборке; например, заключают, что испытуемый А показал результат, превышающий средний балл на две сигмы, испытуемый В -результат, оказавшийся ниже среднего балла на одну сигму, и т. п. На процентильной шкале этому соответствуют процентильные ранги 95 и 16 соответственно. Переход к нормальному распределению создает очень удобные условия для количественных операций с диагностической шкалой: как со шкалой интервалов с ней можно производить операции линейного преобразования (умножение и сложение), можно описывать диагностические нормы в компактной форме (в единицах отклонений), можно применять линейный коэффициент корреляции Пирсона, критерии для проверки статистических гипотез, построенные в применении к нормальному распределению, т. е. весь аппарат традиционной статистики (основанной на нормальном распределении). ! Неправомерность онтологизации нормального закона. В традиционной психометрике нормальное распределение выступает в роли инструментального понятия, облегчающего оперирование с данными. Но это не означает, что можно забывать об искусственном происхождении нормального распределения. Традиции западной тестологии, основанные еще Ф. Гальтоном, предполагают однородность теоретических представлений психометрики и биометрики. Точно так же как происхождение нормального распределения при исследовании вариативности биологических характеристик человеческого организма связывается с наличием взаимодействия постоянного фактора генотипа и изменчивых случайных факторов фенотипа, - происхождение межиндивидуальных психологических различий связывается с генетическим кодом, якобы предопределяющим положение индивида на оси нормальной кривой. В действительности же нет никаких оснований приписывать появление нормальной кривой, часто получаемой с помощью специальных статистических непростых процедур, действию механизма наследственности. В тех случаях, когда на большой выборке удается получить нормальное распределение без каких-либо искусственных способствующих этому мер, это опять-таки не означает вмешательства генетики. Закон нормального распределения воспроизводится всякий раз, когда на измеряемое свойство (на формирование определенного уровня способностей индивида) действует множество разных по силе и направленности факторов, независимых друг от друга. История прижизненных средовых воздействий, которые испытывает на себе субъект, также подобна последовательности независимых событий: одни факторы действуют в благоприятном направлении, другие - в неблагоприятном, а в результате взаимопогащение их влияний происходит чаще, чем тенденциозное однонаправленное сочетание (большинство благоприятных или большинство неблагоприятных), т. е. возникает нормальное распределение. Массовые исследования показывают, что введение контроля над одним из средовых популяционных факторов (уровень образования родителей, например) приводит к расслоению кривой нормального распределения: выборочные кривые оказываются смещенными относительно друг друга (Анастази А., 1982, с. 201). Эти результаты служат ярким подтверждением социокультурного происхождения статистических диагностических норм, что одновременно служит основанием для серьезных предосторожностей при переносе норм, полученных на одной популяции, на другие популяции. Однородными можно считать только те популяции, по отношению к которым действует одинаковый механизм выборки: ив ситуации создания (стандартизации) теста, и в ситуации его диагностического применения. Здесь приходится учитывать и такие нюансы выборочного механизма, как феномен нормальных добровольцев. Если выборку стандартизации формировать на студентах, добровольно согласившихся участвовать в тестировании, а применение теста планируется на сплошных выборках (в административном порядке), то это грозит определенными ошибками в диагностических суждениях, так как психологический портрет «добровольца» в существенных чертах отличается от портрета испытуемого, соглашающегося на тестирование только под административным давлением (Шихирев П.Н, 1979, с. 181). Подсчет параметров и оценка типа распределения. Для описания выборочного распределения, как правило, используются следующие известные параметры: 1. Среднее арифметическое значение: где xj
– балл i
-го испытуемого; yi
-значение i
-го балла по порядку возрастания; pi
- частота встречающегося i
-го балла; n - количество испытуемых в выборке (объем); m - количество градаций шкалы (количество баллов). 2. Среднее квадратическое (стандартное) отклонение: 3. где 3. Асимметрия: где S - стандартное отклонение; θ
- среднее кубическое значение: С - среднее квадратическое: 4. Эксцесс: где Q
- среднее значение четвертой степени: Стандартная ошибка среднего арифметического значения (математического ожидания) оценивается по формуле: На основе ошибки математического ожидания строятся доверительные интервалы: Если тестовый балл какого-либо испытуемого попадает в границы доверительного интервала, то нельзя считать, что испытуемый обладает повышенным (или пониженным) значением измеряемого свойства с заданным уровнем статистической значимости. Асимметрия и эксцесс нормального распределения должны быть равны нулю. Если хотя бы один из двух параметров существенно отличается от нуля, то это означает анормальность полученного эмпирического распределения. Проверку значимости асимметрии можно произвести на основе общего неравенства Чебышева: где Sa
- дисперсия эмпирической оценки асимметрии: где р - уровень значимости или вероятность ошибки первого рода: ошибки в том, что будет принят вывод о незначимости асимметрии при наличии значимой асимметрии (в формулу подставляют стандартные р = 0,05 или р = 0,01 и проверяют выполнение неравенства). Сходным образом оценивается значимость эксцесса: где Sе
- эмпирическая дисперсия оценки эксцесса: ] Гипотезы об отсутствии асимметрии и эксцесса принимаются с вероятностью ошибки р (пренебрежимо малой), если выполняются неравенства (3.1.6) и (3.1.8). Более легкий метод проверки нормальности эмпирического распределения основывается на универсальном критерии Колмогорова. Для каждого тестового балла у. (для каждого интервала равнозначности при дискретизации непрерывной хронометрической шкалы) вычисляется величина D. - модуль отклонения эмпирической и теоретической интегральных функций распределения: где F- эмпирическая интегральная функция (значение кумуляты в данной точке у
j
); U — теоретическая интегральная функция, взятая из таблиц[11]
. Среди Dj
отыскивается максимальное значение Dmax В таблице 5 приведены асимптотические критические значения для распределения Колмогорова (при Таблица 5
Квантиль λt
0,44 0,52 0,57 0,61 0,65 0,71 Вероятность p 0,99 0,95 0,90 0,85 0,80 0,70 Квантиль λt
0,89 0,97 1,07 1,22 1,36 1,52 1,63 Вероятность p 0,40 0,30 0,20 0,15 0,05 0,02 0,01 Если проверка согласованности эмпирического распределения с нормальным дает положительные результаты, то это означает, что полученное распределение можно рассматривать как устойчивое -репрезентативное по отношению к генеральной совокупности - и, следовательно, на его основе можно определить репрезентативные тестовые нормы. Если проверка не выявляет нормальности на требуемом уровне, то это означает, что либо выборка мала и нерепрезентативна к популяции, либо измеряемые свойство и устройство теста (способ подсчета) вообще не дают нормального распределения. В принципе отнюдь не обязательно все нормативные распределения сводить к нормальным. Можно с равным успехом пользоваться хорошо разработанными моделями гамма-распределения, пуассоновского распределения и т. п. Критерий Колмогорова позволяет оценить близость вашего эмпирического распределения к любому теоретическому распределению. При этом устойчивым и репрезентативным может оказаться распределение любого типа. Если из нормальности, как правило, следует устойчивость, то обратное неверно -устойчивость вовсе не обязательно предполагает нормальность распределения. Наличие значимой положительной асимметрии (см. рис. 2,а) свидетельствует о том, что в системе факторов, детерминирующих значение измеряемого показателя, преобладают факторы, действующие в одном направлении - в сторону повышения показателя. Такого рода отклонения появляются при использовании хронометрических показателей: испытуемый не может решить задачу быстрее определенного минимально необходимого периода, но может существенно долго задерживаться с ее решением. На практике распределения такого рода преобразуют в приближенно нормальное распределение с помощью логарифмической трансформации: При этом говорят, что распределение хронометрических показателей подчиняется «логнормальному» закону. Подобную алгебраическую нормализацию тестовой шкалы применяют и к показателям с еще более резко выраженной положительной асимметрией. Например, в процедурах контент-анализа сам тестовый показатель является частотным: он измеряет частоту появления определенных категорий событий в текстах. Для редких категорий вероятность появления значительно меньше 0,5. Формула преобразования позволяет придать необходимую 5-образную форму кумуляте. Стандартизация шкалы. В психометрике следует различать две формы стандартизации. Под стандартизацией теста понимают прежде всего стандартизацию самой процедуры проведения инструкций, бланков, способа регистрации, условий и т. п. Без стандартизации теста невозможно получить нормативное распределение тестовых баллов и, следовательно, тестовых норм. Под стандартизацией шкалы понимают линейное преобразование масштаба нормальной (или искусственно нормализованной) шкалы. В общем случае формула стандартизации выглядит так: где xi
- исходный балл по «сырой» шкале, для которой доказана нормальность распределения; М- математическое ожидание по выбранной стандартной шкале; σ - стандартное отклонение по стандартной шкале. Если шкала подвергалась предварительной искусственной нормализации интервалов, то формула упрощается: zj
=σ zj
=M (3.1.14) Приведем параметры для наиболее популярных стандартных шкал: 1) T -шкала Маккола (тест-опросник MMPI и другие тесты): М = 50 и σ = 10, 2) шкала IQ : М = 100 и σ = 15, 3) шкала «стэнайнов» (целые численные значения от 1 до 9 -стандартная девятка): М = 5,0 и σ = 2, 4) шкала «стенов» (стандартная десятка, 16PF Кеттелла): М = 5,5 .и σ = 2. Чтобы различать стандартные баллы, полученные с помощью линейной стандартизации и нелинейной нормализации интервалов, Р. Кеттелл ввел понятие «S-стенов» и «n-стенов». Таблицы «и-стенов», естественно, точнее отражают квантили эмпирического нормального распределения. Приведем образец такой таблицы для фактора А из тест-опросника 16PF; Сырые баллы 0-4 5-6 7 8-9 10-12 13 14-15 16 17-18 19-20 Стены 1 2 3 4 5 6 7 8 9 10 Применение стандартных шкал позволяет использовать более грубые, приближенные способы проверки типа распределения тестовых баллов. Если, например, процентильная нормализация с переводом в стены и линейная нормализация с переводом в стены по формуле (3.1.13) дают совпадающие целые значения стенов для каждого Y, то это означает, что распределение обладает нормальностью с точностью до «стандартной десятки». Применение стандартных шкал необходимо для соотнесения результатов по разным тестам, для построения «диагностических профилей» по батарее тестов и тому подобных целей. Проверка устойчивости распределения. Общая логика проверки устойчивости распределения основывается на индуктивном рассуждении: если половинное (полученное по половине выборки) распределение хорошо моделирует конфигурацию целого распределения, то можно предположить, что это целое распределение будет также хорошо моделировать распределение генеральной совокупности. Таким образом, доказательство устойчивости распределения означает доказательство репрезентативности тестовых норм. Традиционный способ доказательства устойчивости сводится к наличию хорошего приближения эмпирического распределения к какому-либо теоретическому. Но если эмпирическое распределение не приближается к теоретическому, несмотря на значительное увеличение объема выборки, то приходится прибегать к более общему индуктивному методу доказательства. Простейший его вариант может быть сведен к получению таблиц перевода сырых баллов в нормализованную шкалу по данным всей выборки и применению этих таблиц для каждого испытуемого из половины выборки; если распределение нормализованных баллов из половины выборки хорошо приближается к нормальному, то это значит, что заданные таблицами нормализации тестовые нормы определены устойчиво. Близость к нормальному распределению проверяется с помощью критерия Колмогорова (при n <200 целесообразно использовать более мощные критерии: «хи-вадрат» или «омега-квадрат»). При этом под «половиной выборки» подразумевается случайная половина, в которую испытуемые зачисляются случайным образом -с помощью двоичной случайной последовательности (типа подбрасывания монетки и т. п.). В более общем случае такой простейший метод установления однородности двух эмпирических распределений может быть применен и при разбиении выборки по какому-либо систематическому признаку. Если, в частности, по какому-либо из популяционно значимых признаков (пол, возраст, образование, профессия) психолог получает значимую неоднородность эмпирических распределений; то это значит, что относительно данных популяционных категорий тестовые нормы должны быть специализированы (одна таблица норм - для мужчин, другая - для женщин и т. д.). Более статистически корректный метод проверки однородности двух распределений, полученных при расщеплении выборки на равные части, опять же связан с применением критерия Колмогорова. Для этого с табличным значением сравнивается: где Ке
- эмпирическое значение статистики Колмогорова; Fj
1
- кумулятивная относительная частота для у-того интервала шкалы по первой половине выборки; Fj
2
- та же частота для второй половины; n - полный объем выборки. Точные значения квантилей распределения Колмогорова для определения размеров выборки можно найти в кн.: Мюллер П. и др., 1982. Применение критерия Колмогорова не зависит от нормальности целого распределения и от необходимости производить нормализацию интервалов. * * * Итак, априорная предпосылка нормальности распределения тестовых баллов основывается скорее на принципах операционального удобства, чем на теоретической необходимости. Психометрически корректные процедуры получения устойчивых тестовых норм возможны с помощью специальных методов непараметрической статистики (критерий «хи-квадрат» и т. п.) для распределений произвольной формы. Выбор статистической модели распределения - законный произвол психометриста, пока сам тест выступает в качестве единственного эталона измеряемого свойства. В этом случае остается лишь тщательно следить за соответствием сферы применения диагностических норм той выборке испытуемых, на которой они были получены. Произвольность в выборе статистической модели шкалы исчезает, когда речь заходит о внешних по отношению к тесту критериях. Репрезентативность критериальных тестов. В таких тестах в качестве реального эталона применяется критерий, ради которого создается тест, - целевой критерий. Особое значение такой подход имеет в тех областях практики, где высокие результаты могут дать узкоспециализированные диагностические методики, нацеленные на очень конкретные и узкие критерии. Такая ситуация имеет место в обучении: тестирование, направленное на получение информации об уровне усвоения определенных знаний, умений и навыков (При профессиональном обучений), должно точно отражать уровень освоения этих навыков и тем самым давать надежный прогноз эффективности конкретной профессиональной деятельности, требующей применения этих навыков. Так возникают «тесты достижений», по отношению к которым критериальный подход обнаружил свою высокую эффективность (Гуревич К. М, Лубовский В. И,, 1982). Рассмотрим операциональную схему шкалирования, применяемую при создании критериального теста. Пусть имеется некоторый критерий С, ради прогнозирования которого психодиагност создает тест X. Для простоты представим С как дихотомическую переменную с двумя значениями: 1 и 0. С, = 1 означает, что j
-й субъект достиг критерия (попал в «высокую» группу по критерию), Сj
=0 означает, что i
-й субъект не достиг критерия (попал в «низкую» группу). Психодиагност применяет на нормативной выборке тест X, и в результате каждый индивид получает тестовый балл Xi
. После того как для каждого индивида из выборки становится известным значение С (иногда на это требуются месяцы и годы после момента тестирования), психодиагност группирует индивидов по порядку возрастания балла Xi
и для каждого деления исходной шкалы сырых тестовых баллов подсчитывает эмпирическую вероятность Р попадания в «высокую» группу по критерию С. На рис. 5 показаны распределения вероятности Р (Ci
= 1) в зависимости от Xi
Рис. 5 Эмпирическая зависимость между вероятностью критериального события и тестовым баллом
Очевидно, что кривая на рис. 5 по своей конфигурации может совершенно не совпадать с кумулятивной кривой распределения частот появления различных Xi
. Кривая, представленная на рис. 5, является эмпирической линией регрессии С по Xi
Теперь можно сформулировать основное требование к критериальному тесту: линия регрессии должна быть монотонной функцией С от Xi
Иными словами, ни для одного более высокого значения X. вероятность Р не должна быть меньшей, чем для какого-либо менее высокого значения Xi
Если это условие выполняется, то открывается возможность для критериального шкалирования сырых баллов X. Так же как в случае с интервальной нормализацией», когда применяется поточечный перевод интервалов Х в интервалы Z, для которых выполняется нормальная модель распределения, так и при критериальном шкалировании к делениям сырой шкалы X применяется поточечный перевод прямо в шкалу Р на основании эмпирической линии регрессии. Например, если испытуемый А получил по тесту X 18 сырых баллов и этому результату соответствует Р=0,6, то испытуемому А ставится в соответствие показатель 60 %. Конечно, любая эмпирическая кривая является лишь приближенной моделью той зависимости, которая могла бы быть воспроизведена на генеральной совокупности. Обычно предполагается, что на генеральной совокупности линия регрессии С по Х должна иметь более сглаженную форму. Поэтому обычно предпринимаются попытки аппроксимировать эмпирическую линию регрессии какой-либо функциональной зависимостью, что позволяет затем производить прогноз с применением формулы (а не таблицы или графика). Например, если линия регрессии имеет вид приблизительно такой, какой изображен на рис. 6, то применение процентильной нормализации позволяет получить простую линейную регрессию С по нормализованной шкале Z. Это как раз тот случай, когда имеет место эквивалентность стратегии, использующей выборочно-статистические тестовые нормы, и стратегии, использующей критериальные нормы. Рис. 6. Зависимость вероятности критериального события Р от
нормально распределенного диагностического параметра
X
Операции по анализу распределения тестовых баллов, построению тестовых норм и проверке их репрезентативности. Завершая этот раздел, кратко перечислим действия, которые последовательно должен произвести психолог при построении тестовых норм. 1. Сформировать выборку стандартизации (случайную или стратифицированную по какому-либо параметру) из той популяции, на которой предполагается применять тест. Провести на каждом испытуемом из выборки тест в сжатые сроки (чтобы устранить иррелевантный разброс, вызванный внешними событиями, происшедшими за время обследования). 2. Произвести группировку сырых баллов с учетом выбранного интервала квантования (интервала равнозначности). Интервал определяется величиной W/m , где W=x max
— х max
; m - количество интервалов равнозначности (градаций шкалы). 3. Построить распределение частот тестовых баллов (для заданных интервалов равнозначности) в виде таблицы и в виде соответствующих графиков гистограммы и кумуляты. 4. Произвести расчет среднего арифметического значения и стандартного отклонения, а также асимметрии и эксцесса с помощью компьютера. Проверить гипотезы о значимости асимметрии и эксцесса. Сравнить результаты проверки с визуальным анализом кривых распределения. 5. Произвести проверку нормальности одного из распределений с помощью критерия Колмогорова (при n < 200 с помощью более мощных критериев) или произвести процентильную нормализацию с переводом в стандартную шкалу, а также линейную стандартизацию и сравнить их результаты (с точностью до целых значений стандартных баллов). 6. Если совпадения не будет - нормальность отвергается; в этом случае произвести проверку устойчивости распределения расщеплением выборки на две случайные половины. При совпадении нормализованных баллов для половины и для целой выборки можно считать нормализованную шкалу устойчивой. 7. Проверить однородность распределения по отношению к варьированию заданного популяционного признака (пол, профессия и т. п.) с помощью критерия Колмогорова. Построить в совмещенных координатах графики гистограммы и кумуляты для полной и частной выборок. При значимых различиях разбить выборку на разнородные подвыборки. 8. Построить таблицы процентильных и нормализованных тестовых норм (для каждого интервала равнозначности сырого балла). При наличии разнородных подвыборок для каждой из них должна быть своя таблица. 9. Определить критические точки (верхнюю и нижнюю) для доверительных интервалов (на уровне Р < 0,01) с учетом стандартной ошибки в определении среднего значения. 10. Обсудить конфигурацию полученных распределений с учетом предполагаемого механизма выполнения того или иного теста. 11. В случае негативного результата: отсутствия устойчивых норм для шкалы с заданным числом градаций (с заданной точностью прогноза критериальной деятельности) - осуществить обследование более широкой выборки или отказаться от использования, данного теста. В дифференциальной психометрике проблемы валидности и надежности тесно взаимосвязаны, тем не менее мы последуем традиции раздельного изложения методов проверки этих важнейших психометрических свойств теста. Надежность и точность. Как уже отмечалось в разделе 3.1, общий разброс (дисперсию) результатов произведенных измерений можно представить как результат действия двух источников разнообразия: самого измеряемого свойства и нестабильности измерительной процедуры, обусловливающей наличие ошибки измерения. Это представление выражено в формуле, описывающей надежность теста и виде отношения истинной дисперсии к дисперсии эмпирически зарегистрированных баллов: Так как истинная дисперсия и дисперсия ошибки связаны очевидным соотношением, формула (3.2.1) легко преобразуется в формулу Рюлона: где а - надежность теста; Величина ошибки измерения - обратный индикатор точности измерения. Чем больше ошибка, тем шире диапазон неопределенности на шкале (доверительный интервал индивидуального балла), внутри которого оказывается статистически возможной локализация истинного балла данного испытуемого. Таким образом, для проверки гипотезы о значимости отличия балла испытуемого от среднего значения оказывается недостаточным только оценить ошибку среднего, нужно еще оценить ошибку измерения, обусловливающую разброс в положении индивидуального балла (рис. 7). Рис. 7. Соотношение распределений
Sm
–
стандартное отклонение эмпирического среднего,
St
–
стандартное отклонение ошибки
Как же определить ошибку измерения? На помощь приходят корреляционные методы, позволяющие определить точность (надежность) через устойчивость и согласованность результатов, получаемых как на уровне целого теста, так и на уровне отдельных его пунктов. Надежность целого теста имеет две разновидности. 1. Надежность-устойчивость (ретестовая надежность). Измеряется с помощью повторного проведения теста на той же выборке испытуемых, обычно через две недели после первого тестирования. Для интервальных шкал подсчитывается хорошо известный коэффициент корреляции произведения моментов Пирсона: где х1
i
. - тестовый балл i
-го испытуемого при первом измерении; х2
i
. - тестовый балл того же испытуемого при повторном измерении; n - количество испытуемых. Оценка значимости этого коэффициента основывается на несколько иной логике, чем это обычно делается при проверке нулевой гипотезы - о равенстве корреляций нулю. Высокая надежность достигается тогда, когда дисперсия ошибки оказывается пренебрежительно малой. 'Относительную долю дисперсии ошибки легко определить по формуле Таким образом, для нас существеннее близость к единице, а не отдаленность от нуля. Обычно в тестологической практике редко удается достичь коэффициентов, превышающих 0,8. При г = 0,75 относительная доля стандартной ошибки равна где хi
— эмпирический балл i
-го испытуемого; r - эмпирически измеренная надежность теста; Предположим, испытуемый получил балл IQ по шкале Стэнфорда.-Бине, равный 120 нормализованным очкам, М = 100, г = 0,9. Тогда истинный балл Конечно, требование ретестовой надежности является корректным лишь по отношению к таким психическим характеристикам индивидов, которые сами являются устойчивыми во времени. Если мы создаем тест для измерения эмоциональных состояний (бодрости, тревоги и т. д.), то, очевидно, требовать от него ретестовой надежности бессмысленно: у испытуемых быстрее изменится состояние, чем они забудут свои ответы по первому тестированию. Для шкал порядка в качестве меры устойчивости к перетестированию используется коэффициент ранговой корреляции Спирмена: где di
— разность рангов /-го испытуемого в первом и втором ранговом ряду. С помощью компьютера определяется более надежный коэффициент ранговой корреляции Кендалла (1975). 2. Надежность- согласованность (одномоментная надежность). Эта разновидность надежности не зависит от устойчивости, имеет особую содержательную и операциональную природу. Простейшим способ ее измерения состоите коррелировании параллельных форм теста (Анастази Д., 1982, кн. 1,с. 106). Чаще всего параллельные формы теста получают расщеплением составного теста на «четную» и «нечетную» половины: к первой относятся четные пункты, ко второй - нечетные. По каждой половине рассчитываются суммарные баллы и между двумя рядами баллов по испытуемым определяются допустимые (с учетом уровня измерения) коэффициенты корреляции. Если параллельные тесты не нормализованы, то предпочтительнее использовать ранговую корреляцию. При таком расщеплении получается коэффициент, относящийся к половинам теста. Для того чтобы найти надежность целого теста пользуются формулой Спирмена - Брауна: где rx
- эмпирически рассчитанная корреляция для половин. Делить тест на две половины можно разными способами, и каждый раз получаются несколько разные коэффициенты (Аванесов В. С., 1982, с. 122), поэтому в психометрике существует способ оценки синхронной надежности, который соответствует разбиению теста на такое количество частей, сколько в нем отдельных пунктов. Такова формула Кронбаха: где а - коэффициент Кронбаха; k- количество пунктов теста; Обратите внимание на структурное подобие формулы Кронбаха (3.2.2) и формулы Рюлона (3.2.8). Несколько раньше была получена формула Кьюдера - Ричардсона, аналогичная формуле Кронбаха для частного случая - когда ответы на каждый пункт теста интерпретируются как дихотомические переменные с двумя значениями (1 и 0): где KR20
- традиционное обозначение получаемого коэффициента; i
-й пункт теста; р = В 1957 г. Дж. Ките предложил следующий критерий для оценки статистической значимости коэффициента a
: где k - количество пунктов теста; n - количество испытуемых;. a
- надежность. Формулы (3.2.8) и (3.2.9) позволяют оценить взаимную согласованность пунктов теста, используя при этом только подсчет дисперсий. Однако коэффициенты а и KR2
I
>
позволяют оценить и среднюю корреляцию между i
-м и j
-м произвольными пунктами теста, так как связаны с этой средней корреляцией следующей формулой: где Широкое распространение компьютерных программ факторного анализа для исследования взаимоотношений между пунктами теста (по одномоментным данным) привело к обоснованию еще одной достаточно эффективной формулы надежности теста, которой легко воспользоваться, получив стандартную распечатку компьютерных результатов факторного анализа по методу главных компонент: где θ
- коэффициент, получивший название тета-надежности теста; k - количество пунктов теста; λ1
- наибольшее значение характеристического корня матрицы интеркорреляций пунктов (наибольшее собственное значение, или абсолютный вес первой главной компоненты). Как и предыдущие формулы, формула (3.2.12) также относится к оценке надежности теста, направленного на измерение одной характеристики. Но, кроме того, она применима и для многофакторного теста, хотя и нуждается в пересчете после первоначального отбора пунктов, релевантных фактору (после того, как на основании многофакторного анализа отобраны пункты по одному фактору, снова проводится факторный анализ - только для этих отобранных пунктов). Надежность отдельных пунктов теста. Надежность теста обеспечивается надежностью пунктов, из которых он состоит. Чтобы повысить ретестовую надежность теста в целом, надо отобрать из исходного набора пунктов, апробируемых в пилотажных психометрических экспериментах, такие пункты, на которые испытуемые дают устойчивые ответы. Для дихотомических пунктов (типа «решил - не решил», «да - нет») устойчивость удобно измерять с использованием четырехклеточной матрицы сопряженности: Тест 1 Да Нет a
B
c
D
Да Тест 2 Нет Здесь в клеточке а суммируются ответы «Да», данные испытуемым при первом и втором тестировании, в клеточке b - число случаев, когда испытуемый при первом тестировании отвечал «Да», а при втором - «Нет» и т. д. В качестве меры корреляции вычисляется фи-коэффициент: Как известно, значимость фи-коэффициента определяется с по мощью критерия хи-квадрат: Если вычисленное значение хи-квадрат выше табличного с одной степенью свободы, то нулевая гипотеза (о нулевой устойчивости) отвергается. Удобство использования фи-коэффициента состоит в том, что он одновременно оценивает степень оптимальности данного пункта теста по силе (трудности): фи-коэффициент оказывается тем меньшим, чем сильнее частота ответов «да» отличается от частоты ответа «нет». Кроме того, сама четырехклеточная матрица позволяет проследить возможную несимметричность в устойчивости ответов «да» и «нет» (это важнее для задач, чем для вопросов: например, может оказаться, что все испытуемые, уже решившие однажды данную задачу, решают ее при повторном тестировании; это наводит на мысль о том, что при втором тестировании происходит сбережение опыта, приобретенного при первом тестировании). Выявленные в результате такого анализа неустойчивые и неинформативные (слишком сильные или слишком слабые) пункты должны быть исключены из теста. Пункты следует считать недостаточно устойчивыми, если на репрезентативной выборке величина Для т<?го чтобы повысить одномоментную (синхронную) надежность теста, следует из исходной пилотажной батареи пунктов отбросить те, которые плохо согласованы с остальными[12]
. В отсутствие компьютера согласованность для пунктов также очень просто определяется с помощью четырехклеточной матрицы. В этом случае в первом столбце суммируются ответы испытуемых из «высокой».группы (пр величине суммарного балла), во втором столбце - из «низкой». Высокая Низкая A
B
C
D
Да Нет При нормальном распределении частот суммарных баллов «высокая» и «низкая» группы отсекаются справа и слева 27%-ными маргинальными квантилями (рис. 8). Для оценки согласованности с суммарным баллом применяется полная[13]
или упрощенная формула фи-коэффициента: где N* - сумма всех элементов матрицы; N* = n • 0,54 где n - объём выборки; Pi
= а + b - При включении в эстремальную группу 1/3 выборки N* = 0,66 • n. Рис. 8. Квантили «высокой» и «низкой» группы на графике распределения тестовых баллов
В некоторых случаях подобный анализ позволяет уточнить ключ для пункта: если пункт получает значимый положительный фи-коэффициент, то ключ определяется значением «+1», если пункт получает значимый отрицательный фи-коэффициент значением «-1». Если пункт получает незначимый фи-коэфф.ициент, то его целесообразно исключить из теста. При ручных вычислениях фи-коэффициента удобно вначале с помощью формул (3.2.14) и (3.2.15) определить граничное значение значимого (по модулю) фи-коэффициента. Например, при объеме выборки в 100 человек и уровне значимости р < 0,01 пороговое значение вычисляется так: При постоянном использовании компьютера при подсчете суммарных баллов ключ для каждого пункта Q целесообразно определить в виде самого фи-коэффициента (или другого коэффициента корреляции), определенного при коррелировании ответов на пункт с суммарным баллом. Тогда тестовый балл подсчитывается по формуле где хi
— суммарный балл i
-го испытуемого; Сi
- ключ для i
-го пункта: С = +1 для прямого, С= -1 для обратного. Более чувствительный коэффициент, который также применяется для дихотомических пунктов, - это точечный бисериальный коэффициент корреляции, учитывающий амплитуду отклонения индивидуальных суммарных баллов от среднего балла: где Sx
- стандартное отклонение для суммарных баллов всех индивидов из выборки; А. Анастази относит критерий внутренней согласованности теста к валидности (Анастази А., 1982, кн. 1, с. 143), однако если и можно в данном случае говорить о валидности, то только в смысле особой внутренней валидности теста. Как правило, слишком высокая согласованность снижает внешнюю валидность теста по критерию (см. раздел 3.3). Если проверяется согласованность пунктов, составленных одним автором (одним коллективом по стандартной инструкции), то выявление достаточного набора согласованных пунктов свидетельствует о внутренней валидности (согласованности) разработанного диагностического понятия (конструкта). В компьютерных данных факторного анализа аналогом корреляции пункта с суммарным баллом является нагрузка пункта на ведущий фактор («факторная валидность» в терминах А. Анастази). Если прибегать к геометрическому изображению нагрузки как проекции вектора-пункта на ось-фактор, то структура пунктов хорошо согласованного теста предстанет в виде пучка векторов, плотно прилегающих к фактору и вытянувшихся вдоль его оси (рис. 9).
Рис. 9. Векторная модель соотношения «прямых» и «обратных» эмпирических пунктов с релевантным (измеряемым) фактором и иррелевантными («шумовыми») факторами
Последовательность действий при проверке надежности: 1. Узнать, существуют ли данные о надежности теста, предполагаемого к использованию, на какой популяции и в какой диагностической ситуации проводилась проверка. Если проверки не было или признаки новых популяции и ситуации явно специфичны, провести заново проверку надежности с учетом указанных ниже возможностей. 2. Произвести повторное тестирование на всей выборке стандартизации и подсчитать все коэффициенты, как для целого теста, так и для его отдельных пунктов. Анализ полученных коэффициентов позволит понять, насколько пренебрежима ошибка измерения, дает ли данный тест интервальную шкалу (высокий r) или только диагностичен для крайних групп (высокий φ), насколько устойчиво измеряемое свойство во времени (возможен ли статистический прогноз - проекция тестового балла на будущее), в каких своих пунктах тест менее надежен (анализ этих пунктов позволяет психологически осмыслить содержательный механизм взаимодействия пунктов с испытуемыми). 3. Если возможности обследования испытуемых ограниченны, произвести повторное тестирование только на части выборки (не менее 30 испытуемых), подсчитать (вручную) ранговую или четырех-клеточную корреляцию для оценки внутренней согласованности и стабильности теста в целом. Проблемы валидизации психологических тестов являются центральными для дифференциальной психометрики, но, к сожалению, до сих пор решенными не до конца. Решение этой проблемы зависит не от статистического аппарата, а от уровня развития теоретического аппарата дифференциальной психологии. Валидность и надежность. Валидность (или обоснованность) всякой процедуры измерения состоит в однозначности (устойчивости) получаемых результатов относительно измеряемых свойств объектов, т, е. относительно предмета измерения. Отличие понятия валидности от надежности измерения удобно раскрывать с помощью различения «объекта» и «предмета» измерения. Надежность - это устойчивость процедуры относительно объектов. Надежность не обязательно предполагает валидность. В психологии довольно часто возникает такая ситуация, когда исследователь вначале предлагает определенную процедуру измерения, показывает ее надежность -способность устойчиво различать объекты, но вопрос о валидности остается открытым. Если в сенсорной психофизике вопрос о валидности измерений оказывается в значительной степени затушеванным тем обстоятельством, что простейшие физические стимулы достаточно однозначно детерминируют измеряемые свойства ощущений, то в дифференциальной психометрике значимость проблемы валидности резко возрастает. Здесь ситуация подобна той, когда в психофизическом опыте испытуемому не указывают, по какому именно параметру следует сравнивать стимулы. Пусть испытуемый А понял инструкцию так, что стимульные объекты надо сравнивать по весу, а испытуемый Б - по размеру. Если процедура измерения будет повторена по отношению к тем же объектам, то она даст вполне устойчивые данные относительно объектов, но не даст валидной информации ни о шкале ощущений «веса», ни о шкале ощущений «размера». При измерении способностей предъявляемый тест отнюдь не обязательно актуализирует именно тот психический процесс, который предполагается измерить. Например, столкнувшись с уже встречавшейся однажды задачей (например, с анаграммой «дзиканпр»), испытуемый может начать запоминать просто то решение, к которому он уже однажды пришел (слово «праздник»), чем заново решать эту задачу. Здесь будет измеряться скорее уровень словесной памяти, чем уровень вербального интеллекта. Точно так же реальная валидность некоторых тестов раскрывается только в результате значительного опыта работы с ними. Например, доказано, что ряд тестов, внешне вы глядящих интеллектуальными, на деле измеряют скорее личностно-стилевые особенности индивида, чем операциональные возможности интеллекта, например, методика «креативного поля» Д. Б. Богоявленской. Устойчивость теста относительно объектов (испытуемых) является необходимым, но не достаточным условием его устойчивости относительно измеряемых атрибутов (свойств) объектов. Надежность является необходимым, но не достаточным условием валидности. Отсюда вытекает основное соотношение психометрики: валидность ≤ надежность. Это означает, что валидность теста не может превышать его надежность. Данное соотношение, однако, неверно трактовать как указание на прямую пропорциональную связь валидности и надежности. Повышение надежности отнюдь не обязательно приводит к повышению валидности[15]
. В терминах А. Анастази валидность определяется репрезентативностью теста относительно измеряемой области поведения. Если эта область поведения складывается из разнообразных феноменов, то содержательная валидность теста автоматически требует представленности в нем моделей всех этих разнообразных феноменов. Возьмем глобальное понятие «речевая способность» (этому психолингвистическому термину в традиционной тестологии соответствует термин «вербальный интеллект»). Сюда относятся такие относительно независимые друг от друга навыки, как навыки письма и чтения. Если заботиться о содержательной валидности соответствующего теста, то нужно ввести в него группы заданий на проверку этих довольно разных по своему операциональному составу компонентов вербального интеллекта. Вводя разнородные пункты и субшкалы (субтесты), мы обязательно сокращаем внутреннюю согласованность, одномоментную надежность теста, но зато добиваемся существенного повышения валидности. Таким образом, для расширения области применения теста психодиагност должен избегать излишнего повышения внутренней согласованности. Одновременно с этим снижением внутренних корреляций между различными пунктами теста (об этом уже говорилось в разделе 3.1) обязательно исчезает отрицательный эксцесс на кривой распределения тестовых баллов, и она все более приближается по форме к нормальной кривой. Эмпирическая валидность. Если в случае с содержательной ва-лидностью оценка теста производится за счет экспертов (устанавливающих соответствие заданий теста содержанию предмета измерения), то эмпирическая валидность измеряется всегда с помощью статистического коррелирования: подсчитывается корреляция двух рядов значений - баллов по тесту и показателей по внешнему параметру, избранному в качестве критерия валидности. Прагматические традиции западной тестологии привязывали эмпирическую валидность теста к внешним для психологии социально-прагматическим критериям. Эти критерии являются показателями, обладающими непосредственной ценностью для определенных областей практики. Практика всегда имеет целью либо повысить, либо понизить эти показатели. Например, в области педагогической психологии это «успеваемость» (которую надо повысить), в психологии труда это «производительность труда» и «текучесть кадров», в медицине - «состояние здоровья пациента», в психологии управления -«совместимость», «срабатываемость» коллектива, в юридической психологии - «преступность» (которую надо понизить) и т. п. Ориентируясь непосредственно на эти категории, психолог, пытающийся скоррелировать результаты теста с этими показателями, фактически решает сразу две задачи: задачу измерения валидности и задачу измерения практической эффективности своей психодиагностической программы. Если получен значимый коэффициент корреляции, то можно считать, что решены с позитивным результатом сразу обе эти задачи. Но если корреляции не обнаружено, то остается неопределенность: либо невалидна сама процедура (тестовый балл не отражает, например, стрессоустойчивость оператора), либо неверна гипотеза о наличии причинно-следственной связи между психическим свойством и социально значимым показателем (стрессоустойчивость не влияет на процент аварийных ситуаций). Таким образом, социально-прагматические критерии являются комплексными: они позволяют измерить валидность-эффективность, но не каждое из этих двух свойств теста отдельно. На практике психолога часто ожидает и еще более сложная ситуация, когда заказчик требует от психолога на основании полученного диагноза сразу же определенных мер по вмешательству в ситуацию (отбор, консультирование, обучение и т. п.). В этом случае повышение показателей (достоверное по сравнению с контрольной группой) доказывает одновременно и валидность-эффективность диагностики, и эффективность самого вмешательства. А отрицательный результат дает еще большую неопределенность, так как оказывается невозможным отделить неэффективность вмешательства от низкой валидности диагностики. Ориентация на социально-прагматические критерии, приводящие к склейке понятий «валидности измерения» и «причинного прогноза по результатам измерения», бесспорно, сдерживала и продолжает сдерживать развитие концептуального аппарата дифференциальной психологии. При этом суть самого предмета измерения: измеряемого психического свойства - оказывается вне фокуса внимания не только заказчика, но и самого психолога, превращающегося в этом случае в тестолога, которого не интересует, что именно он измеряет, главное лишь, чтобы от этого «нечто» перекидывался мостик к полезному эффекту, обеспечивающему психологу социальное признание. Процедура эмпирической валидизации. Организация выборки при эмпирической валидизации зависит от временного статуса критерия. Если этот критерий - событие в прошлом (ретроспективная валидизация), то к участию в психодиагностическом обследовании достаточно привлечь только тех испытуемых, которые оказались на экстремальных полюсах по этому критерию[16]
. В результате применяется метод экстремальных (контрастных) групп. Коррелирование с суммарным баллом по тесту оценивается с помощью бисериального коэффициента по формуле (3.2.17). При этом в статусе дихотомической переменной (на месте отдельного пункта) оказывается сам критерий валидности: Если критерий - будущее событие (проспективная валидизация), то выборка должна быть составлена с запасом - с учетом вероятного объема экстремальных групп в будущем. Например, нужно выяснить, позволяет ли диагностика темперамента прогнозировать повышенный риск психосоматических заболеваний (гипертония, язва, астма и т. п.). Пусть на основании эпидемиологических исследований известно, что в течение трех лет из. 1000 здоровых людей этими болезнями заболевают 57 человек. Это означает, что превентивной (предупреждающей) диагностикой должно быть охвачено около 2000 человек, чтобы получить численность «высокой» группы (заболевших) порядка 100 человек. Проспективная валидизация выявляет прогностическую эффективность диагностической процедуры. Высокая прогностическая валидность доказывает как валидность самого измерения, так и наличие предполагаемой причинной связи. Ретроспективная валидизация позволяет в лучшем случае решить только первую из двух задач. Например, если для исследования личностной предрасположенности к совершению краж проведено обследование лиц, находящихся под следствием (т. е. уже совершивших преступление), то выявление акцентированных черт «тревожности», «агрессивности» и т. п. еще не может интерпретироваться как свидетельство причинных факторов преступности - эти черты могут быть лишь следствием сложившихся обстоятельств: лишение свободы, угрызения совести и т. п. (Ратинов А. Р., 1979). Во многих медико-психологических исследованиях был выделен особый диагностический синдром «госпитализации», который обнаруживается у любой категории госпитализированных больных (обычно он выражается в повышении шкал «депрессии» и «ипохондрии» по MMPI – Шхвацабая, 1980). Очевидно, что подобные личностные сдвиги никак нельзя интерпретировать в смысле симптомов предрасположенности к определенным психогенным заболеваниям, ибо они относятся к следствиям, а не к причинам этих заболеваний. Конструктная валидность. В отличие от прагматической валидизации собственно психологическую валидизацию порой оказывается провести гораздо труднее в силу отсутствия какого-либо более объективного внутрипсихологического критерия, чем сам тест. Наиболее благополучная ситуация имеется тогда, когда для измерения данного свойства в психологии уже имеется процедура с известной валидностью. В этом случае корреляция между баллами двух тестов - линейная (см. формулу 3.2.3) или ранговая (см. формулу 3.2.5)- указывает на то, обладает ли новый тест конвергентной валидностью по отношению к старому. Если новый тест обнаруживает высокую конвергентность результатов со старым и одновременно оказывается более компактным и экономичным 'в проведении и подсчете, то психодиагносты получают возможность использовать новый тест вместо старого. Однако во многих случаях для измеряемого свойства психодиагност не может найти в литературе ни одного уже апробированного теста с известной валидностью. В этом случае он может сформулировать ряд предсказательных гипотез о том, как будет коррелировать его новый тест с другими тестами, измеряющими родственные характеристики испытуемых. Эти гипотезы выдвигаются на основе теоретических представлений об измеряемом свойстве. Их подтверждение указывает на валидность выдвигаемого конструкта, т. е. на конструктную валидность теста. В западной литературе это операциональное определение конструктяой валыидности называется предполагаемой валидностью (assumed validity). Представления о конструктной валидности тестов постоянно развиваются с пополнением репертуара методик. Эмпирические исследования взаимосвязей результатов, получаемых с помощью разных методик, обогащают теоретические представления об измеряемых свойствах. С другой стороны, понятие конструктной валидности указывает на высокую зависимость эмпирических связей теста от теоретических представлений его автора об измеряемом свойстве. Для иллюстрации приведен пример взаимоотношений между двумя популярными тест-опросниками: MAS Ж. Тейлор и EPI Г. Айзенка. Многочисленные корреляционные исследования, проведенные на репрезентативных выборках, показали, что шкала MAS (тревожность) Ж. Тейлор положительно коррелирует со шкалой «нейротизм» и отрицательно со шкалой «экстраверсия» Айзенка. Эти соотношения можно проиллюстрировать графически (рис. 10): вектор MAS оказывается расположенным в квадранте «Нейротизм - Интроверсия», образованном системой из ортогональных (статистически независимых) факторов EPL С точки зрения концепции Г. Айзенка, эти данные можно рассматривать как свидетельства низкой валидности шкалы Ж. Тейлор: MAS коррелирует не только с релевантным фактором «нейротизм», но и с иррелевантным фактором «интроверсия». С этой точки зрения, опросник EPI оказывается просто нечувствительным к особой разновидности «нейротизма» - к нейротизму (тревожности) экстравертов; в перечне пунктов MAS отсутствуют высказывания, в которых могла бы проявиться тревожность экстраверта. Однако с точки зрения тоготеоретического смысла, который приписывают показателям MAS К. Спенс и Ж. Тейлор, эта ситуация вполне закономерна, желательна и никак не является артефактом - следствием дефекта их диагностического средства. Согласно К. Спенсу, пытавшемуся перенести на человеческое поведение теорию научения Халла, MAS измеряет общий уровень драйва - неспециализированного побуждения, которое достигает максимума как раз при сочетании нейротизма (специфическая активация по Г. Айзенку) и интро-версии (неспецифическая активация) Рис. 10. Векторная модель соотношения показателя «Тревожность» по тест-опроснику
MAS
с факторами тест-опросника
EPI
Таким образом, вовсе не всегда краткие названия тестов однозначно выражают теоретический статус диагностического конструкта - понятия об измеряемом свойстве. Конвергентная и дискриминантная валидность. От того, как психолог определяет диагностический конструкт, зависит стратегия включения в тест определенных пунктов. Если Айзенк определяет свойство «нейротизм» как независимое от экстраверсии-интроверсии, то это означает, что в его опроснике примерно поровну должны быть представлены пункты, с которыми будут соглашаться невротичные интроверты и невротичные экстраверты (векторы этих пунктов должны быть примерно поровну распределены в правом и левом нижних квадрантах; см. рис. 10).-Если же на практике окажется, что в тесте будут преобладать пункты из квадранта «Нейротизм-Интроверсия», то, с точки зрения теории Айзенка, это означает, что фактор «нейротизм» оказывается нагруженным иррелевантным фактором - «интроверсией». (Точно такой же эффект возникает, если появится перекос в выборке - если в ней будет больше невротичных интровертов, чем невротичных экстравертов.) Для того чтобы не сталкиваться с такими сложностями, психологи хотели бы иметь дело с такими эмпирическими показателями (пунктами), которые однозначно информируют только об одном факторе. Но это требование реально никогда не выполняется: всякий эмпирический показатель оказывается детерминированным не ; только тем фактором, который нам нужен, но и другими - иррелевантными задаче измерения (рис. 11). На рис. 11 постоянным для всех показателей является релевантный фактор А, но каждый раз он оказывается сопряжен с иррелевант-ными факторами - X, К и Z. Задача состоит в таком подборе пунктов, чтобы все потенциальные иррелевантнв!е факторы были уравновешены, т. е. чтобы ни один из них не встречался бы чаще других на множестве показателей (пунктов), включенных в тест.
Рис, 11. Связь эмпирических показателей П1
, П2
, П, с релевантным (измеряемым) фактором А и с иррелевантными («шумовыми») факторами
X
,
Y
,
Z
,
обусловливающими невалидность показателей
Таким образом, по отношению к факторам, которые концептуально определяются как ортогональные к измеряемому (встречающиеся с ним во всех комбинациях), составитель теста должен при отборе пунктов приме--нить стратегию искусственного балансирования (Готтсданкер Р., 1982); Соответствие пунктов измеряемому фактору обеспечивает конвергентную валидность теста. Сбалансированность пунктов относительно иррелевантных факторов обеспечивает дискриминантную валидностъ. Эмпирически она выражается в отсутствии значимой корреляции с тестом, измеряющим концептуально независимое свойство. С точки зрения теории Айзенка, тест Ж. Тейлор не обладает дискриминантной валидностью по отношению к факторам «экстраверсия-интроверсия», хотя и обладает определенной конвергентной валидностью по отношению к релевантному фактору - «нейротизм». Экспертная эмпирическая валидизация. В отсутствие какого-либо уже валидизированного теста, параллельно измеряющего изучаемое свойство, а также в отсутствие разработанного теоретического контекста, позволяющего проверять конструктную валидность; психодиагност оказывается перед необходимостью привлечения экспертов к валидизации теста. В отличие от экспертного анализа содержания теста., эмпирическая экспертная валидизация предполагает работу экспертов не с тестом (лучше, чтобы о нем эксперты вообще ничего не знали), а с испытуемыми из выборки стандартизации. Необходимо экспертам обеспечить стандартные условия для наблюдения за испытуемыми. Но не всегда такое стандартизованное наблюдение удается организовать. Даже если предприняты серьезные усилия по организации наблюдения за поведением испытуемых в какой-либо искусственной лабораторной ситуации, такое наблюдение все равно будет значительно уступать по информативности полевому наблюдению - в естественных условиях. Если измеряемое свойство теоретически определено как устойчивая универсальная черта личности - как диспозиция к инвариантному поведению в широком спектре ситуаций (см. главу 4), то и отдельного полевого наблюдения окажется недостаточно для получения полноценного экспертного критерия валидности. Поэтому на практике часто прибегают к оценкам особого типа -к субъективным оценкам, которые выносят испытуемому люди из его круга, имеющие опыт реального общения с ним. С учетом этого, процедура оценивания приспосабливается к обычным людям, не являющимся психологами. На психолога падает большая нагрузка по составлению детальной инструкции оценщикам, однозначно задающей смысл оцениваемой характеристики. Лучшие условия для такой процедуры возникают при наличии группы испытуемых, тесно общающихся между собой; тех, которые могут одновременно побывать и испытуемыми по отношению к тесту, и оценщиками по отношению друг к другу. В отечественной литературе эта процедура получила сокращенное обозначение ГОЛ - «групповая оценка личности» (Кузьмин Н. В., Семенов В. С., 1977). Для того чтобы групповая оценка личности была источником действительно валидной информации, оценщики должны согласованно оценивать испытуемых. Если в оценках разных оценщиков нет согласованности, то это означает, что либо оцениваемое свойство не проявилось у объекта оценивания, либо оценщики по-разному проинтерпретировали инструкцию. Для измерения согласованности должна быть составлена таблица с оценками (табл. 6). Таблица 6
Оценщики Испытуемые О1
О2
… Оk
И1
x11
x12
… x1k
C1
И2
x21
x22
x2k
C2
… Иn
xn1
xn2
xnk
Cn
Методы анализа данных, содержащихся в такой таблице, формально совершенно эквивалентны тем методам, которые применяются для обработки таблиц «испытуемые - пункты» (см. раздел 3.1), В частности, суммы по строкам дают суммарные баллы, полученные каждым испытуемым у всех оценщиков. Таким образом, оценщики в данном случае оказываются формально в роли пунктов теста. Рассчитывая попарные корреляции между различными столбцами этой таблицы, можно получить коэффициенты согласованности для отдельных пар оценщиков. Глобальной мерой согласованности оценщиков может служить коэффициент надежности а Кронбаха - см. формулу (3.2.8). Если же групповая оценка не обнаруживает надежности, то она не может использоваться в качестве критерия валидизации при проверке валидности теста. Эмпирическое значение коэффициента валидности рассчитывается как линейная или ранговая корреляция между двумя рядами значений: тестовыми баллами и суммарными баллами экспертной оценки. Это эмпирическое значение при наличии невысокого коэффициента надежности критерия корректируют по формуле где ас
— надежность критерия; rtx
- корреляция с «истинным» критерием («истинная» валидность теста). Анализ пунктов по критерию валидности. Валидность всего теста целиком зависит от валидности входящих в него пунктов. Максимальная валидность достигается за счет отбора таких пунктов из пилотажной батареи, которые, обладая значимой корреляцией с критерием, минимально коррелируют между собой. Отбор пунктов именно по критерию валидности обеспечивает максимальную прагматическую эффективность теста. Вручную (на калькуляторе) такой отбор можно произвести, рассчитав бисериальную корреляцию (или фи-корреляцию) критерия с каждым пунктом из пилотажной батареи, - см. формулы (3.2.15) и (3.2.17). Компьютер позволяет использовать более эффективный алгоритм, основанный на анализе частных корреляций между критерием и пунктами и предполагающий построение уравнения множественной регрессии (Аванесов В. С., 1982, с. 153-157). В результате в таком уравнении каждый пункт получает весовой коэффициент[17]
, количественно выражающий его вклад в критерий, не сводимый к вкладу других пунктов, т. е. поиск оптимального набора пунктов автоматизируется. X. Гаррет приводит следующую яркую иллюстрацию эффективности алгоритма, позволяющего подобрать оптимальный набор пунктов. Пусть имеется 20 пунктов, каждый из которых имеет корреляцию с критерием порядка 0,30. Оказывается, если эти пункты в среднем коррелируют друг с другом на уровне эффективность (валидность) теста достигает весьма высокого уровня: 0,79. Те же самые проблемы возникают при подборе оптимальной батареи тестов, направленных на прогнозирование какого-то одного социально ценного показателя (успеваемость, производительность труда и т. п.). Как уже указывалось в разделе 3.1, тест, обладающий высокой критериальной валидностью должен давать монотонную зависимость величины критерия от тестового балла (см. рис. 6). Для того чтобы получить монотонную линию регрессии, психодиагност должен включить в тест X только такие пункты, которые являются валидными по критерию С. В противном случае на кривой неминуемо появятся провалы[18]
. Крутизну линии регрессии можно существенно повысить за счет нацеленного отбора из первоначальной батареи только таких заданий, которые обладают значимо высокой корреляцией (или регрессионным коэффициентом в уравнении множественной регрессии) с критерием. После отбора валидных пунктов должна быть произведена перекрестная валидизация (см. Анастази А., 1982, с. 197). В чем ее смысл? Если при анализе корреляций между батареей из 200 заданий и каким-то критерием получают 10 заданий, значимо коррелирующих е критерием на уровне ошибки р < 0,05, то это может быть следствием чисто случайного совпадения (сравните 10/200=0,05). Чтобы убедиться в том, что отобранные пункты теста действительно могут различать (или прогнозировать) критерий, нужно рассмотреть, как коррелируют с критерием эти пункты на другой выборке, которая не использовалась при их отборе. Простой метод реализации принципа перекрестной валидизации состоит в том, что вся выборка делится на две случайные половины и производится раздельный расчет корреляций пунктов с критерием для-. каждой половины выборки. Если выделенные (значимые) пункты совпадают, то перекрестную валидизацию можно считать удачной. Метод критериального тестирования очень трудоемок. .Практически невозможно построить критериальный тест за счет одной статистики, сколь бы мощными выборками и батареями заданий мы ни располагали. Необходима работа над содержательной валидностью заданий. Критериальное тестирование имеет ограниченное применение в задачах построения методик с широкой областью применения. Следует еще раз подчеркнуть, что анализ валидности отдельных пунктов служит не только прагматическим целям, но может и должен служить целям углубления представлений о содержательно-теоретическом смысле измеряемого свойства: на основании содержательного анализа пунктов, отобранных по критерию, психолог уточняет и корректирует свою первоначальную теоретическую схему, свое понимание измеряемого свойства. Достоверность самоотчета. Рассматривая общую проблемы валидности целесообразно выделить вопрос об обеспечении валидности процедур стандартизованного самоотчета. Сюда относятся различные техники шкалирования, классифицирования, сравнения и тест-опросники. Вербальная форма тестового материала порождает у испытуемого определенные встречные гипотезы о цели тестирования. Если ситуация диктует испытуемому необходимость фальсификации ответов, то он редко отказывается от этой возможности. Валидность — характеристика любых измерений, в том числе и физических. Специфические проблемы валидности, связанные с активностью человека как объекта психодиагностики, целесообразно обозначить особым образом - проблемы обеспечения достоверности. Психологические факторы, от которых зависит достоверность самоотчета, условно можно сгруппировать в следующие классы: 1. Факторы знания. У испытуемого может быть более или менее четкое представление о следующем: а) свойственно ли ему в действительности или нет тестируемое поведенческое проявление (с некоторыми ситуациями, имплицитно подразумеваемыми в вопросе тест-опросника, испытуемый мог на практике никогда не встречаться: например, утверждение «После выигрыша в спортлото Вы покупаете больше лотерейных билетов» подразумевает, что испытуемый, во-первых, играет в спортлото и, во-вторых, выигрывает); б) какое личностное свойство скрывается у психолога за тем или иным конкретным поведением, описанным в суждении; в) как это свойство соотносится с общепринятыми моральными нормами и признаками социального успеха. 2. Фактор социальной желательности. Обозначает тенденцию испытуемого давать о себе социально одобряемую информацию. Сила этой тенденции зависит как от общей внеситуативной установки испытуемого на морализацию «Я-образа» и социальную успешность, так и от того, насколько эту установку актуализирует сама ситуация тестирования. Однако эта тенденция не будет давать систематического искажения, если испытуемые не смогут разгадать направленность теста-опросника и связать диагностируемое свойство с тем или иным полюсом социальной желательности. Таким образом, действие этого фактора до некоторой степени опосредовано действием факторов знания. Однако при диагностике личностных свойств, тесно связанных с психической «нормальностью» или «социальной успешностью», фактор социальной желательности ответа обусловливает очень серьезные искажения. 3. Факторы индивидуальной тактики. Здесь подразумевается действие «Я-концепции» («Я» для себя) и «Я-образа» («Я» для других) на ситуативную тактику испытуемого в момент тестирования. Выполняя тест, испытуемый всегда находится в невольном диалоге с самим собой и в своих ответах на вопросы раскрывает себя не только для других, но и для себя самого. Испытуемый стремится подтвердить «Я-концепцию» или фальсифицировать определенный «Я-образ» с заданными свойствами. Как правило, в ситуациях высокого социального риска «Я-образ» полностью доминирует: например, преступник при экспертизе стремится прежде всего предстать больным или неприспособленным к жизни, хотя в действительности ему было бы приятно думать о себе как о вполне адаптированном здоровом человеке. Точно так же склонны подчеркивать свои трудности и проблемы клиенты, обратившиеся за помощью к психологу или психотерапевту (чтобы вызвать к себе его повышенное внимание). В менее регламентированных ситуациях, наоборот, может доминировать мотивация самопознания: в этом случае испытуемый невольно стремится подтвердить с помощью теста свои гипотезы о самом себе. Заслуживают внимания и особые формы отказа испытуемого от тестирования: позиционный стиль ответа (соглашательство или, наоборот, отрицание), случайные ответы. Для выявления подобных отказов обычно достаточно довольно простых мер: 1) для исключения влияния соглашательства (отрицания) применяются перечни с «прямыми» (ответ «верно» в пользу измеряемого свойства) и «обратными» (ответ «неверно» в пользу измеряемого свойства) пунктами. Кроме того, производится подсчет баланса подтверждающих и отвергающих ответов: если баланс резко нарушается, то протокол признается бракованным; 2) для выявления случайных ответов в большие перечни вводят вопросы-дубли (синонимические перефразы) или прямые повторы: если испытуемый слишком часто по-разному отвечает на одинаковые вопросы, значит, он применяет случайную тактику. Вводят также и крайне редкие утверждения, с которыми испытуемые, как правило, соглашаются только по ошибке. Более изощренные методы требуются для борьбы с социальной желательностью. Ниже рассмотрены три наиболее часто используемых варианта. 1. Введение особых «шкал лжи» в диагностический вариант методики. Они составляются из вопросов-ловушек: тот или иной ответ на эти вопросы явно предопределен социальной желательностью. Если испытуемый набирает слишком высокий балл по этой шкале, его протокол бракуется. Более тонкий вариант — введение «шкал коррекции» (например, в MMPI): получение определенного балла по этим шкалам вызывает внесение поправок к баллу по другим шкалам, скоррелированным со шкалой коррекции. Величина поправок определяется коэффициентом линейной регрессии (измеренным в нормативном эксперименте) между баллами, полученными по шкале коррекции и основной диагностической шкале (шкале свойства). 2. Устранение или сбалансирование социальной желательности с помощью использования инструкции на преднамеренную фальсификацию результатов. Участникам пилотажных замеров кроме обычной инструкции дается дополнительная (во вторую очередь): «Заполните опросник от лица человека, желающего произвести самое благоприятное впечатление». Затем производится отбор пунктов на основании того, насколько процент ответов на них отличается от 50 процентов (значение, ожидаемое для пунктов, являющихся нейтральными с точки зрения социальной желательности). В качестве меры желательности в данном случае можно воспользоваться следующим коэффициентом: где N (+) — сумма ответов «верно» на данный пункт при инструкции на фальсификацию; N (-) - сумма ответов «неверно» в тех же условиях; n - объем выборки. Значимость коэффициента приближенно оценивается по критерию «хи-квадрат», определенному формулой (3.2.14), которой в правой части вместо φ подставляется Поскольку инструкция на преднамеренную фальсификацию создает условия, в которых социальная желательность суждений акцентируется, то значимыми следует считать такие высокие по модулю значения р < 0,001. Из таблицы для распределения «хи-квадрат» находим на i
-й
пункт более чем 36 испытуемых из 50 ответили «верно», то его нужно отнести к положительному полюсу шкалы социальной желательности, если менее чем 14 ответили «верно» — к отрицательному. Такие пункты должны быть либо полностью исключены из опросника (что редко удается), либо количество положительных и отрицательных пунктов должно быть уравновешено. Таким образом могут быть отобраны и пункты для шкалы лжи. Суммарный балл по этой шкале распределяется так, как показано на рис. 12. В качестве критерия разделения испытуемых выбирается критическая точка, которая позволяет минимизировать ошибки типа «пропуск» (зачисление лживых испытуемых в число правдивых) и ошибки типа «ложная тревога» (зачисление правдивых в число лживых). Положение критической точки на шкале можно менять в зависимости от баланса цены двух типов ошибок: в некоторых случаях «пропуск» гораздо опаснее, чем «ложная тревога». Рис. 12. Смещение распределения тестовых баллов по «шкале лжи» к полюсу высоких значений
X
при инструкции на выполнение теста-опросника с позиции «идеального» человека
Фальсифицирующая инструкция используется также и для исследования степени «скрытности-открытости» формулировок вопросов. Например, испытуемым дается инструкция на симуляцию высокой тревожности по опроснику MAS Ж. Тейлор. В этом случае, как это уже было показано, ответы на многие пункты значимо изменяются. Такие пункты являются слишком открытыми — они информируют испытуемого об измеряемом свойстве и позволяют ему вносить тенденциозные искажения в результаты в своих интересах. 3. С распространением факторного анализа чаще стала применяться стратегия «балансирования социальной желательности». При этом исследователь-психометрист задается целью обеспечить дискриминативную валидность своего теста относительно шкалы «социальной желательности». Это достигается с помощью факторного анализа корреляций между пунктами. Факторный анализ в применении к одномерному тесту-опроснику, как правило, выделяет два фактора: относящийся к самому измеряемому свойству и относящийся к социальной желательности. На рис. 13 схематически представлено факторное пространство для опросника «Склонность к риску». Рис. 13. Иллюстрация рассеяния векторов (., изображающих пункты теста-опросника в пространстве двух факторов: релевантного и иррелевантного. Выше и ниже штриховых линий - области низкой достоверности
Каждый вопрос представлен вектором, задаваемым проекцией на релевантный фактор - Склонность к риску и иррелевантные «Социальное одобрение» и «Социальное порицание». Требование конвергентной валидности по отношению к измеряемому свойству формулируется как требование к пунктам - иметь высокую проекцию (нагрузку) на горизонтальную ось. Дискриминативная валидность по отношению к социальной желательности - это требование иметь пренебрежимо малую нагрузку на вертикальную ось. Очевидно, имеются два способа устранить эффект социальной желательности: либо выкинуть все пункты, нагруженные фактором социальной желательности (выше или ниже штриховых линий, либо уравновесить их количество на полюсах социальной желательности. Понятно, что при таком способе освобождения от социальной желательности диагностическая шкала всегда оказывается так называемой «ß-шкалой», в отличие от «а-шкал», у которых максимум желательности достигается на одном из полюсов, у «ß-шкал» максимум желательности достигается в «золотой середине», т. е. линия регрессии желательности по «бетта-шкале» оказывается криволинейной (рис. 14). Если применить такой метод к построению опросника «Склонность к риску - Осторожность», то в результате диагностический конструкт автоматически становится «бета-шкалой»: и слишком высокая склонность к риску, и излишняя осторожность - одинаково нежелательны, тогда как оптимум лежит посередине между крайностями. Рис. 14. Схематическая
иллюстрация «-шкалы,
связанной с фактором
социальной желательности
монотонной зависимостью, и
ß
-шкалы, связанной с этим
фактором криволинейно – с
максимумом в области «золотой
середины»
Из трех перечисленных выше методов первый относится к отсеву испытуемых и требует введения в перечень вопросов для шкалы «лжи». Второй и третий методы позволяют отобрать только такие пункты, которые обеспечивают устранение социальной желательности. Но они, как правило, трансформируют сам конструкт, который обязательно становятся ортогональным к социальной желательности. При необходимости диагностирования свойств, обязательно коррелированных с желательностью, единственный метод состоит в применении шкал коррекции и корректирующих поправок, но и этот метод нельзя считать вполне надежным. Так что диагностика свойств, сопряженных с социальной желательностью, в ситуациях экспертизы всегда рискованна. С другой стороны, в ситуации, когда сам испытуемый заинтересован в точных результатах («ситуация клиента»), психодиагност может пользоваться тестами-опросниками, не опасаясь артефакта социальной желательности. Обычно в ходе практической проверки достоверности опросника психологу при обработке результатов пилотажного исследования приходится иметь дело с матрицей данных, подобной таблице, представленной на рис.15. Ключ по шкале лжи L изображен на рис. 15 в виде второго столбца — справа от столбца, содержащего ключ по основной диагностической шкале С. Если в строке k+1 зафиксированы баллы, подсчитанные по основному ключу, то в строке k+2 - баллы, подсчитанные по ключу для шкалы лжи. Баллы Хk
+2
отражают величину тенденции диссимуляции (социальной желательности) у данного испытуемого (низкие значения Хk
+2
отражают тенденцию симуляции асоциальности или агравации - отягощения психической дезадаптации). Рис. 15 Схематическое представление таблицы «пункты (
t
) -
испытуемые (
S
)»,
вектора суммарных баллов Х
k
+1
,
вектора с баллами по шкале лжи Х
k
+2
,
вектора С со значениями ключа по основной шкале, вектора
L
с ключом по шкале лжи
Для успешного использования шкалы лжи пункты, относящиеся к этой шкале (имеющие ненулевые значения L), должны быть перемешаны в тестовом буклете с пунктами-вопросами, тестирующими основное психическое свойство (в противном случае -если все они собраны вместе - достоверность искусственно возрастает). Оценка достоверности пунктов достигается с помощью статистической процедуры, аналогичной процедуре измерения внутренней валидности пунктов (надежности-согласованности - см. раздел 3.2): если при измерении внутренней валидности следует прокоррелировать каждую строку 1, 2,..., k со строкой k+l, то при измерении достоверности следует прокоррелировать каждую строку 1, 2,..., k со строкой k+2 (подходят точечно-бисериальный или четырехклеточный коэффициенты корреляции). Наиболее высокие по модулю значения корреляции должны быть получены в этом случае для пунктов, из которых составлена сама шкала лжи (это подтверждает ее консистентность, дифференцирующую силу для данной выборки). Положительная значимая корреляция для г (ti
., Хk
+2
) пункта из основной шкалы Сi
При подготовке особенно значимого психодиагностического обследования, в котором надо принципиально исключить всякую возможность преднамеренной фальсификации результатов, следует дополнить критерий оценки достоверности с помощью особой шкалы лжи еще одним критерием, основанным на использовании «фальсифицирующей инструкции», Для этого после обычной инструкции той же самой пилотажной выборке психолог дает инструкцию: «А теперь снова выполните задание, но старайтесь описать себя так, чтобы выглядеть максимально благоприятно в глазах большинства других людей». В результате применения такой инструкции психолог получает дополнительную таблицу, аналогичную таблице на рис. 15, только содержащую фальсифицированные данные. В таком случае кроме подсчета очень грубого индекса «желательности» по формуле (3.3.2) у психолога возникает возможность поэлементного сравнения ответов испытуемых на один и тот же вопрос в обычной и фальсифицированной диагностических ситуациях. Очевидно, что недостоверным следует считать вопрос, ответы на который будут изменены в фальсифицированной ситуации в определенном систематическом направлении. Здесь пригодится простейший критерий значимости изменений, основанный на распределении «хи-квадрат» (Рунион Р., 1982, с. 57-61). Для каждого пункта строится четырехклеточная матрица сопряженности: «После» + - А=40 В=36 С=22 D=48 «До» + Здесь в клеточке А указана частота сохранения ответа «верно» на некоторый /-и вопрос (из 76 ответивших «верно» таких оказалось только 40 испытуемых), в клеточке В - частота изменения ответа «верно» на ответ «неверно» и т. д. Как видим, смена инструкции привела к значительным изменениям. Но для оценки значимого направления этих изменений автор критерия Макнимар предложил сравнивать между собой по критерию «хи-квадрат» только элементы В и С этой матрицы: где с одной степенью свободы. Для нашего примера По результатам такого исследования удобно составить табличку К Без указанных предосторожностей тест-опросник неизбежно будет давать систематическое искажение результатов (в сторону повышения или понижения баллов по основной шкале) всякий раз, когда испытуемый будет квалифицировать диагностическую ситуацию как ситуацию экспертизы. Указанные проблемы и приемы обеспечения достоверности относятся не только к тест-опросникам, но и к другим техникам стандартизованного самоотчета, подверженным мотивационным искажениям. Существует теоретическая возможность преодолеть все эти проблемы. Но на практике это оборачивается огромной эмпирико-методической работой. Другой путь - управление процессами категоризации в ходе самой диагностики. В так называемой «репертуарной модификации» тест-опросника испытуемому специально предлагают выполнять тест не только от своего имени, но и от имени определенного репертуара ролей: «большинство людей», «моральный человек», «преуспевающий человек» и т. п. (Шмелев А. Г. и др., 1984). Извлечение практических выгод из подобной модификации обусловлено возможностью компьютерной обработки результатов либо сразу же после тестирования, либо даже в ходе самого тестирования (см. раздел 3.6). Порядок действий психолога при проверке валидности. Очень трудно выделить универсальный алгоритм работы психолога по проверке валидности, ибо существуют различные подходы к обеспечению валидности, обусловленные теоретико-методологическими различиями определенных психологических школ. Для прагматически ориентированных тестологов (каковыми традиционно являлись до недавнего времени почти все англо-американские специалисты) главный момент - поиск операционально строго заданного социально-прагматического критерия валидности, по отношению к которому диагностические тесты и их составные части (пункты) подбираются как бы автоматически -в ходе эмпирико-статистических процедур сбора и корреляционного анализа результатов. Но, конечно, неверно было бы приписывать этому подходу «бездумность в опоре на статистику»: ведь статистика только тогда позволяет выявить валидное подмножество пунктов, когда исходное множество подобрано не случайно - с использованием априорных корректных содержательно-психологических представлений. Современные методологи психологического тестирования фактически единодушно приходят к признанию (как наиболее оптимальной) рационально-эмпирической стратегии конструирования теста и проверки валидности. Перечислим этапы этой стратегии. 1. Теоретический анализ диагностического конструкта, разработка теоретической концепции тестируемого психического свойства. Выявление (с использованием литературы) системы взаимосвязанных диагностических конструктов, внутри которой новый диагностический конструкт характеризуется определенными структурно-функциональными связями и отношениями. Прогнозирование результатов корреляционных экспериментов по проверке конструктной валидности. 2. Выделение составных частей теоретического конструкта, формулирование системы «эмпирических индикаторов» - операционально однозначных показателей, фиксирующих проявление конструкта в различных поведенческих ситуациях. Конструирование пунктов теста. 3. Формулирование релевантного социально-прагматического критерия для проверки валидности. 4. Планирование и проведение корреляционного исследования (или квазиэксперимента) на специально подобранной выборке испытуемых, для которых известно значение критериального показателя, а также результаты по родственным психологическим тестам. При необходимости на этих испытуемых проводятся дополнительные тесты с целью получить возможность корреляционной проверки конструктной валидности теста (экспертные оценки в данном случае рассматриваются в статусе одной из возможных параллельных процедур получения критериальной или психологической информации). Оценка валидности эмпирических индикаторов. 5. Исследование достоверности результатов (если используется самоотчет и диагностическая ситуация может быть воспринята испытуемыми с настороженностью). Оценка достоверности эмпирических индикаторов. 6. Отсев пунктов, не удовлетворяющих критериям валидности и достоверности. Измерение надежности для сокращенной шкалы, состоящей только из валидных пунктов. Если надежность оказывается невысокой, то психолог снова возвращается к этапу 1 - уточняет теоретические представления. 3.4. ТЕХНОЛОГИЯ СОЗДАНИЯ И АДАПТАЦИИ МЕТОДИК
Рассматривая в предыдущем разделе вопрос о порядке проверки валидности, мы вплотную подошли к вопросу о целостной стратегии создания, эмпирической апробации и внедрения методики в практику. Создание оригинальной методики или адаптация зарубежной методики не могут сводиться только к проверке (или перепроверке) отдельных психометрических свойств - репрезентативности, надежности, валидности, достоверности - в произвольной последовательности. В одних случаях целесообразно начинать с одного этапа работы, в других - с другого. В действительности любая реальная ситуация использования теста не является ситуацией только «конструирования» или только «применения». Можно без преувеличения сказать, что существует континуум между крайними полюсами: «конструирование» __________________ «применение» и каждая ситуация до определенной ступени удалена от обоих полюсов. Трудно назвать такой случай, когда бы конструирование совершенно нового теста начиналось с нуля, «на пустом месте». Также трудно найти и такие случаи, когда все аспекты тестирования были бы полностью неизменными и воспроизводили бы уже совершенно исследованную нормативную ситуацию применения готового теста. Но все это многообразие ситуаций, всю комбинаторику независимых параметров психологи-практики, как правило, пытаются свести к двум-трем типовым ситуациям. 1. Ситуация применения. Тест кем-то разработан (возможно, В: других социокультурных условиях), известны тестовые нормы, полученные на представителях данной языковой культуры (несоответствие выборки стандартизации и выборки применения по половозрастной структуре и профессионально-культурным признакам признается несущественным). 2. Ситуация адаптации. Тест кем-то разработан – проверены надежность и валидность, но отсутствуют тестовые нормы (как правило, отсутствуют вообще для любых представителей данной языковой культуры). Задача адаптации сводится, таким образом, к построению тестовых норм. 3. Ситуация конструирования. Есть концепция психического свойства, но нет процедуры его измерения, удовлетворяющей требованиям места, времени, возможностям количественного анализа и ограничениям прочих ресурсов. Надо придумать измерительную процедуру, проверить ее надежности валидность, построить тестовые нормы. Остановимся прежде всего на вопросах адаптации так называемых переводных тестов. Путь быстрого пополнения репертуара методик за счет множества готовых зарубежных методик кажется многим психологам наиболее экономичным, кратчайшим путем к надежной и валидной психодиагностике. Но ведь если при этом адаптация сводится только к построению нормативного распределения тестовых баллов, то это означает, что валидность и надежность адаптированной методики в новых условиях принимаются на веру, а теоретическая концепция автора теста и содержание использованных им критериев валидности просто переносятся в наши условия без изменений (ведь для любой, в том числе и для невалидной и ненадежной методики, можно получить распределение). Подобный перенос дает пренебрежимые погрешности только для тестирования относительно элементарных психических свойств (таких, как свойства нервной системы, функциональные состояния, сенсомоторные параметры, элементарные когнитивные функции, причем с использованием объективных процедур (психофизиологическая регистрация, тесты с «физическими» критериями успеха и т. п.). При тестировании интегральных психических свойств личности и индивидуального сознания (черты, мотивы, установки, самооценка, общие способности, стиль общения, ценностные ориентации, интересы и т. п.), а также при употреблении любых лингвистических средств в самой процедуре тестирования (включая не только формулировки задач, вопросов; но и исходную формулировку инструкции к тесту) и использовании культурно-специфических критериев оценки правильности .результата (определения шкального ключа) ограничиваться только сбором тестовых норм при адаптации - недопустимо! Требуется серьезная эмпирическая работа по проверке надежности и валидности в новых социокультурных условиях, работа, фактически соответствующая по своему объему созданию оригинальной методики. С этой точки зрения, заимствование зарубежных общедиагностических тестов способностей, черт характера, интересов и т. п. вовсе не оказывается кратчайшим путем к психодиагностике. Этот путь кажется короче только тем, кто сознательно или по неведению пренебрегает принципами психометрики. Перечислим необходимые этапы эмпирико-статиетической работы при адаптации многомерного переводного тест-опросника. 1. Анализ внутренней валидности, внутренней согласованности пунктов, из которых состоит тест-опросник. Этот анализ совершенно необходим, если в зарубежной методике он применялся в качестве средства самого конструирования методики. Этот-анализ призван показать, что существует некое (еще неясно, какое именно) общее диагностическое свойство, лежащее на пересечении всех эмпирических индикаторов (в центре «пучка» скоррелированных пунктов-векторов). Такой анализ обязателен по отношению ко всем тестовым шкалам, полученным с помощью факторного анализа, например к тест-опросникам EPI Айзенка и 16PF Кеттелла. А вот к опроснику «локус контроля» или ко многим основным клиническим шкалам MMPI требование внутренней согласованности применять не обязательно, так как пункты в эти шкалы подбирались по внешнему критерию и не связаны в один «пучок». Анализ внутренней согласованности может быть применен и к одномерным, и к многомерным тестам. В первом случае достаточно иметь настольный калькулятор. Для многомерных тестов необходимо использование специальной компьютерной программы «Анализ пунктов». По отношению к негомогенным шкалам анализ внутренней согласованности позволяет осуществить в снятом виде необходимую проверку информативности пунктов (процент правильных или подтверждающих ответов должен соответствовать оригинальной авторской версии). 2. Проверка устойчивости к перетестированию. Эта проверка совершенно необходима при диагностике свойств, по отношению к которым теоретически ожидается инвариантность во времени. Анализ ретестовой надежности может быть (так же как анализ надежности -согласованности) совмещен с исследованием информативности отдельных пунктов теста, а также, возможно, и устойчивости отдельных пунктов. Без сведений о ретестовой надежности психолог не имеет права использовать тест для построения любого элементарного статического экстраполирующего прогноза (см. раздел 3.5). 3. Анализ корреляций с релевантным внешним критерием. Этот этап адаптации совершенно необходим, если тест разрабатывался изначально как критериально-ориентированный, т. е. отбор пунктов производился на основании их корреляций с каким-то критерием валидности. Например, подобная работа проделана коллективом Ф. Б. Березина для сокращенной модифицированной версии MMPI (Березин Ф. Б. и др., 1976). 4. Проверка или ре стандартизация тестовых норм. Об этом этапе уже говорилось выше. К сожалению, только этот этап работы по адаптации тестов до недавнего ывремени признавался всеми психологами как необходимый. Но и в этом случае далеко не всегда воспроизводилась необходимая статистическая работа по проверке устойчивости полученного распределения тестовых баллов к расщеплению выборки (см. раздел 3.1). 5. Специфичный этап для многомерных тестов - проверка воспроизводимости структуры отношений между шкалами. Например, для теста Айзенка принципиальна ортогональность, статистическая независимость факторов «экстраверсия - интроверсия» и «нейротизм - стабильность». На воспроизводимости структуры связей шкал между факторами 16PF основывается корректность подсчета вторичных факторов (Ямпольский Л. Г., 1981; Мельников В. М., Ямпольский Л. Г., 1985). Даже беглый взгляд на пять перечисленных этапов позволяет убедиться в том, что адаптация зарубежных тестов мало чем уступает по объему эмпирико-статистической работы созданию оригинальных методик. Здесь было бы даже более адекватным использование не термина «адаптация», а выражения «исследование зарубежной методики на отечественной выборке». Тем не менее не следует понимать сказанное как призыв к полному отказу от работы с зарубежными методиками. Нет, конечно же, такая работа должна проводится интенсивно и планомерно. Особенно по отношению к тем методикам, которые уже получили международное распространение, доказали свою кросскультурную универсальность, адаптированы и успешно применяются во многих странах. Создание отечественных эквивалентов международных тестов позволяет использовать международный опыт валидизации, теоретического осмысления и практического использования этих тестов. Сравнение результатов, структурно-функциональных характеристик адаптированных зарубежных и отечественных тестов позволит российским психологам глубже понять, установить на конкретно-эмпирическом уровне специфику влияния образа жизни на психологический склад личности россиян, раскрыть разнообразие исторических и актуальных детерминант, обусловливающих социально полезные и социально вредные тенденции в психологической дифференциации индивидов в современных условиях, что совершенно необходимо для научного управления процессами воспитания и формирования человека. Особые задачи ставит перед психологом ситуация «внутрикуль-турного переноса» теста на новую популяцию, отличающуюся от выборки стандартизации половозрастными или профессионально-культурными особенностями. В этом случае необходимо: 1. Проверить валидность методики в тмо случае, если методика чувствительна по своему содержанию к профессиональной или региональной специфике (могут ли отвечать пенсионеры, или школьники, или жители отдаленных регионов на вопросы, подразумевающие типичные ситуации из жизни студента, обучающегося в крупном городе европейской части России?). Для этого надо выбрать по возможности максимально экономичную процедуру проверки валидности. Размеры выборки в эксперименте по проверке валидности должны быть такими, чтобы можно было надеяться на получение статистических значимых связей между тестовым показателем и критерием валидности (это, как правило, не менее 30 испытуемых). Если результаты проверки валидности оказываются неудовлетворительными (коэффициент корреляции явно ниже 0,5, и дальнейшее наращивание выборки все равно не оправдает применение .теста со столь низким показателем валидности), то по собранным результатам следует произвести простейший анализ пунктов: посмотреть, не оказались ли некоторые пункты явно неинформативными (все испытуемые отвечают одинаково), не оказались ли некоторые вопросы явно бессмысленными или слишком «прямыми», социально значимыми в данной ситуации. Не исключено, что при исключении неудачных пунктов из подсчета тестового балла (после приравнивания С=0).,искомая валидность будет обнаружена. В отсутствие доступного внешнего критерия необходимо прибегнуть к проверке внутренней валидности, консистентности методики. 2. Проверить соответствия тестовых норм. Только после получения позитивного результата при проверке валидности целесообразно расширять выборку и реконструировать эмпирическое распределение тестовых баллов (см. раздел 3.1). Квантили этого распределения необходимо сравнить с квантилями нормативного распределения; если расхождения оказываются пренебрежимыми (не превышают ошибку измерения), то, можно принять вывод о приложимости к данной популяции универсальных тестовых норм. Но на к практике чаще возникают значимые отличия (оценка близости двух распределений производится по формуле (3.1.15) на с. 9.6). В этом случае психолог должен построить так называемые частные тестовые нормы, причем не только для использования в собственной диагностической практике, но и для пополнения информационно-методического банка данных отечественной психодиагностики (копию таблицы распределения тестовых баллов психолог должен послать в тот диагностический методический центр, с которым он поддерживает методические связи - получает методические материалы, проходит переподготовку и т. п.). Подчеркнем, что абсолютное большинство ситуаций, которые обычно расцениваются как ситуации «применения», на самом деле являются ситуациями более или менее серьезного «внутрикультурного переноса». Именно эти обстоятельства предопределяют высокий уровень требований к психометрической подготовке психологов-психодиагностов (см. раздел 3.6). При создании методики, как это уже было сказано в предыдущем разделе, решающее значение имеют методологическая ориентация и статус психолога. Под статусом в данном случае понимаются существенные различия в нормативных (закрепленных в должностных инструкциях) требованиях к продукту деятельности психолога, работающего в исследовательском учреждении, и психолога, работающего в практическом учреждении. Если в первом случае психолог имеет право считать своим «конечным продуктом» внутрипсихологическую валидизацию сконструированной методики, то во втором случае он, как правило, обязан обеспечить практическую эффективность своей психодиагностической программы - указать на статистически значимую связь результатов диагностики с величиной какого-то социально ценного показателя - критерия, а затем построить на основе этой связи психологическую концепцию «вмешательства» (административного или психологического воздействия на ситуацию с целью ее изменения в желаемом направлении – в сторону максимизации данного показателя). Указанные изначальные различия в статусах психолога-исследователя и психолога-практика предопределяют оправданные различия в стратегии конструирования тестов и тестовых батарей. Для психолога-исследователя главная ценность - это теоретическая обоснованность и эмпирическая однозначность диагностического конструкта, которой он достигает с помощью оправданной ориентации на конструктную валидизацию. У исследователя хватает ресурсов для того, чтобы обеспечить множественность разнообразных по своему статусу критериев валидности - от субъективных оценок валидности включенных наблюдателей (L-данные по Кеттеллу) до экспериментального моделирования реальных ситуаций проявления измеряемого свойства (Г-данные по Кеттеллу, см. также: Мельников В. М., Ямпольский Л. Г., 1985). Для психолога-практика главная ценность - это эффективность, пусть даже она будет достигнута с помощью теоретически эклектичного инструмента - эмпирического средства, не имеющего соответствующего научно строгого конструкта. Появление и размножение прагматических тестов, очевидно, обусловлено действием объективного социально-исторического механизма, который можно было бы кратко назвать «опережающим запросом практики». Этого феномена не было бы, если бы все запросы практики можно было заранее предвидеть и рационально спланировать, подготавливая релевантные научно обоснованные диагностические процедуры. Но такое предвидение всегда удается осуществить лишь в определенной мере - реальная практика тем и отличается от дедуктивного движения в плоскости абстракций, что всегда приводит к столкновению с новыми и неожиданными явлениями, что обусловливает и появление неожиданных запросов. Большинство ценных прагматических тестов с исторической неизбежностью становятся предметом для изучения со стороны психологов-исследователей, апостериорно реконструирующих научную концепцию валидности этих тестов, что значительно улучшает их характеристики и адекватизирует сферу применения. Психодиагностика как специфический институт, реализованный в форме управляющего кольца «наука - практика - наука - практика...», достигнет оптимальных режимов в своем функционировании, если любые попытки конструирования и применения любых тестов будут тщательно документироваться, будут доступны для повторения в любом звене (исследовательском или практическом) психологической службы. При обеспечении эффективной информационной базы, оперативных форм информационной связи между звеньями этой системы (как методологическими, так и практическими) всякое практическое применение тестов станет одновременно и работой по созданию новых методик. 3.5. ПРОГНОЗИРОВАНИЕ И РАСПОЗНАВАНИЕ ОБРАЗОВ
Кардинальное значение для психодиагностики имеет проблема прогнозирования. Существует точка зрения, разделяющая психодиагностику и так называемую психопрогностику (Забродин Ю. М., 1984). Это указывает на самостоятельное значение проблемы прогнозирования. В действительности, любая психодиагностика служит прогнозированию - на больших или меньших отрезках времени. То, что называется диагностикой текущего состояния объекта, имеет следующий смысл. В технике сконструированный агрегат подвергают стендовым испытаниям. Полученные результаты приписывают текущему состоянию объекта, имея в виду, что выключенный агрегат до его эксплуатации в реальных условиях уже не будет изменяться сколь-нибудь существенным образом. При этом подразумевается, что именно при работе включенного агрегата может измениться его состояние, в частности, выход из допустимого режима. В психологии дело, конечно же, обстоит по-другому. И перенос подразумеваемых, имплицитных представлений из технической диагностики в психодиагностику неправомерен, как, впрочем, неправомерен такой перенос уже и по отношению к медико-биологической диагностике человеческого организма. Организм человека, его психика - это не агрегат, который произвольно можно выключить на период от тестирования до реального испытания. Все это время человек продолжает жить, активно взаимодействовать со средой. Даже в изоляции, даже во сне мозг человека проделывает большую работу, переводя полученную информацию из одних отделов памяти в другие (Касаткин В. Н., 1967). Все это означает, что принцип статистической экстраполяции результатов психодиагностического измерения нельзя считать оправданным без проведения специальных проверок. Когда психолог по результатам тестирования регистрирует у некоторого индивида А показатель Ха
, а у некоторого индивида В показатель Хb
, так что Хa
> Хb
, то из этого вовсе не следует автоматически, что соотношение Хa
> Хb
сохранится в течение следующей недели, месяца, года. Для принятия стратегии экстраполяционного статистического прогноза требуется предварительно произвести эмпирическое измерение надежности - устойчивости (ретестовой надежности) на заданном промежутке времени. При этом важна не только длина отрезка времени между двумя измерениями, но и его заполненность теми или иными значимыми для индивида событиями. Приведем простой пример. Организовано психологическое обследование абитуриентов вуза. Психологи пытаются измерить уровень интереса поступающих к избранной специальности Однако они применяют «лобовые» методики опроса, не защищенные от преднамеренной фальсификации (абитуриенты сознательно, или даже бессознательно, будут искажать результаты в сторону повышенного интереса - чтобы произвести благоприятное впечатление). Фальсификация здесь - только один из возможных источников некорректности статистического прогноза. Для эмпирического измерения силы этого артефакта не обязательно проводить повторное измерение через несколько лет. Имеет смысл провести повторное обследование по той же методике всех студентов, сразу же после их зачисления на первый курс. Если возникнет слишком много перестановок типа Ха
< Хb
, то ранговая корреляция «тест -ретест» окажется слишком слабой, и это доказывает неправомерность использования «лобовой» методики для статического прогноза. Другой возможный источник нестабильности ранговой шкалы (порядковой шкалы теста) обусловлен в данном примере зависимостью уровня интереса к предметной области от уровня знаний о предмете. В ходе обучения в вузе студенты приобретают более детальные знания о предмете, о своей успешности в освоении специальности, и от этого уровень интереса может существенно изменяться. Конечно, этот фактор - в отличие от фактора фальсификации - действует на более длительных промежутках времени. И здесь опять же требуются специальные измерения ретестовой устойчивости для применения статического прогноза. Приведенный выше пример показывает, что в некоторых случаях целесообразно начинать решать проблемы психопрогностики без всякого привлечения внешней по отношению к тесту критериальной информации, т. е. средствами проверки надежности, но не средствами проверки валидности. Если уже таким способом будет получен отрицательный результат, то заведомо будет получен и для измерения валидности статического прогноза (вспомним основной принцип: валидность методики не превышает ее надежность). Однако надежность лишь необходимое, но, естественно, недостаточное условие прогностической валидности. Можно убедиться в высокой устойчивости тестового показателя на длительных промежутках времени, но из этого вовсе не следует, что будут получены значимые линейные корреляции этого показателя с требуемым критерием валидности -эффективности.- корреляции, оправдывающие статический прогноз. Как правило, на основе диагностики принимаются решения, которые соотносятся между собой как события на шкале наименований или на шкале порядка. Каким образом учитываются сегодня при приеме в вуз показатели школьной успеваемости абитуриентов? Существуют три варианта, три градации, соотносимые друг с другом по шкале порядка: выпускникам школы - медалистам предоставляются льготные условия (при успехе на первом экзамене от остальных вступительных экзаменов медалист освобождается), лица с удовлетворительным средним баллом допускаются к конкурсным вступительным экзаменам и сдают все экзамены; наконец, лица с неудовлетворительным средним баллом могут вообще не допускаться к вступительным экзаменам. На этом примере видно, что средний балл аттестата используется как некоторый показатель «теста», в соответствии с которым абитуриентов разделяют на три категории, по отношению к которым неявно применяется «порядковый» прогноз: предполагается, что медалисты будут успешнее обычных выпускников школ, а обычные выпускники - успешнее тех, кто учился в школе очень слабо. «Порядковый» прогноз сохраняет свою эффективность не только в статических условиях, но и в условиях таких динамических изменений объектов прогнозирования, при которых порядковая структура оказывается неизменной. Предположим, что в:
ходе обучения в вузе все студенты по мере более глубокого ознакомления с предметом испытывают нарастающий интерес к своей специальности, но если порядковая структура сохраняется (Ха
продолжает превышать Xb
, несмотря на то что Xb
приближается к Ха
), то «порядковый» прогноз все равно остается корректным. Линейные и порядковые прогностические стратегии на практике применяются не к одномерным, а к многомерным данным. Среди математических моделей прогнозирования до сих пор наибольшей популярностью пользуются относительно простые (а иногда и неоправданно упрощенные) регрессионные модели. При этом для многомерного случая задача психометриста сводится к построению уравнения множественной регрессии: где Y- прогнозируемая переменная (критерий прогностической ва-лидности); Xi
- значение i
-го тестового показателя из рассматриваемой батареи тестовых показателей; ßi
, - значение весового коэффициента, указывающего, на сколько (в единицах стандартных отклонений) изменяется прогнозируемая переменная при изменении тестового показателя Xi
. Для составления указанного уравнения требуется произвести «упреждающее» измерение тестовых показателей по отношению к критериальному показателю Y, измерение которого производится по истечении некоторого отрезка времени Общая эффективность прогноза на основе регрессионного уравнения оценивается с помощью подсчета коэффициента множественной корреляции R2
(Суходольский Г. В., 1972) и последующей оценки его значимости по критерию Фишера: где N— количество индивидов; k - количество тестовых показателей. Не следует забывать, что основой применения этой модели прогноза является экстраполяция - предположение о том, что на новом отрезке времени Прогностические возможности указанного метода ограничены однократностью измерения тестовых показателей .X1
, Х2
..., Xk
. В силу однократности измерения этот метод оказывается эффективным опять-таки только по отношению к самым универсальным и статическим показателям (таким, например, как интегральные свойства темперамента или нервной системы), обеспечивающим очень грубый, вероятностный, приближенный прогноз. В некоторых случаях эффективность этого метода может существенно повыситься, если использовать хотя бы двукратное (с небольшим интервалом в две-три недели) измерение системы показателей Х1
Х2
,..., Xk
. Уже таким способом можно, например, учесть вклад фактора «усвоение знаний» в прогнозирование мотивационной вовлеченности (уровня интереса) студента в свою специальность. Повторное измерение (например, через месяц после начала обучения в вузе) позволяет выявить, в каком направлении действует фактор «усвоение знаний» в своем влиянии на уровень интереса данного студента: может оказаться, что в результате разнонаправленного действия этого фактора немало пар студентов уже через месяц поменяются местами в ранговом ряду по уровню интереса (Ха
< Хb
). В этом случае в уравнение (3.5.1) целесообразно ввести не статический показатель Xi
a простейший динамический показатель Приведем еще один содержательный пример. Многочисленные эмпирические исследования по прогнозированию супружеской совместимости (Обозов Н. Н., 1979) показали неудовлетворительно низкий уровень надежности прогноза на основе таких показателей, как однократно измеренный уровень сходства (темперамента, мотивов, интересов, ценностных ориентации) или взаимодополнительности психических свойств будущих супругов. Но эту надежность можно существенно повысить, если ввести в уравнение (3.5.1) показатели типа Более сложные математические методы прогнозирования (например, учитывающие циклическую динамику объектов) пока еще редко используются в психодиагностике, так как требуют частых многократных измерений системы тестовых показателей, что оказывается невозможным по чисто практическим причинам. Тем не менее уже сегодня можно твердо констатировать недостаточность линейных моделей прогнозирования. Для ознакомления с рядом других подходов к прогнозированию мы рекомендуем психологам обратиться к руководству «Рабочая книга по прогнозированию» (М., 1982). Остановимся теперь более подробно на подходе, который ныне представляет собой реальную альтернативу ограниченным линейным статистическим моделям и позволяет строить эффективный прогноз для более сложных зависимостей между прогнозируемыми (зависимыми) и прогнозирующими (независимыми) переменными. Этот подход, по традиции, принято называть распознаванием образов, так как разработка его математического аппарата была во многом стимулирована инженерными задачами конструирования искусственных систем зрения, слуха, других органов чувств (Распознавание образов. М., 1970). В психодиагностике роль «элементарных сенсорных данных» выполняют первичные тестовые показатели X1
Х2
,..., Xk
, а роль «образа» (выходного сигнала системы) - соответствующая диагностическая категория. Таким образом, по существу, распознавание образов[19]
и есть диагностика в широком смысле. Поясним специфику подхода на простейшем схематическом примере. Пусть Ру
-вероятность такого типового критерия оценки студентов, как успеваемость, Х1
- уровень интереса к специальности, выявленный у абитуриента, Х2
- уровень его знаний о специальности. На рис. 16 точки X1
= 0 и Х2
= 0 - медианные значения соответствующих тестовых показателей. В данном упрощенном примере в статусе «образа» выступает каждый из четырех квадрантов диагностического пространства. Для предсказания Ру
мы не можем построить линейной комбинации Х1
и Х2
, какие бы коэффициенты ß1
, и ß2
мы ни взяли. Для предсказания Рy
мы должны зафиксировать попадание индивида в заданную область пространства параметров. «Образ», или диагностическая категория, и есть на геометрическом языке определенная область в пространстве параметров. Рис. 16. Зависимость вероятности критериального события р и диагностических параметров
X
1
и Х2
С точки зрения распознавания образов, предварительная задача диагностики (предваряющая практические задачи) – определить границы диагностических категорий - областей в пространстве параметров, которым эмпирически корректно могут быть приписаны некоторые пороговые (качественно специфичные) значения прогнозируемого критериального показателя. Это задача построения «разделяющего правила» (или «решающего правила»). Точность такого разделения и предопределяет прогностическую валидность методики на данной совокупности испытуемых в данной диагностической ситуации. Репрезентативность выборки при этом определяется степенью изменения точности разделения при увеличении совокупности обследованных. Влияние того или иного параметра на точность разделения определяет «вес», с которым входит данный параметр в задачу диагностики. Построение формальной процедуры разделения может производиться по-разному. В простейшем случае - это сравнение тестового показателя с некоторым порогом. В более сложных случаях применяются методы дискриминантного анализа, позволяющие описывать «разделяющие правила» (границы диагностических областей в пространстве параметров) в виде сложных функций сразу от нескольких параметров. Применение определенного метода для решения задачи построения системы диагностических категорий определяется несколькими факторами: во-первых, это соответствие допущений, положенных в основу алгоритма, содержательным представлениям о психологической типологии индивидов в рамках рассматриваемой системы психодиагностических параметров; во-вторых, это степень полноты имеющейся информации для эффективной «остановки» алгоритма, обеспечивающей оптимальное решение задачи за приемлемое время. Под полнотой информации здесь, имеется в виду наличие достаточно многочисленных групп индивидов, четко и однозначно классифицированных по заданной системе критериев. В этом случае построение решающего правила сводится к применению какого-либо алгоритма автоматической классификации, приспособленного к работе с заданными классами. Если же критериальные классы представлены неполно - всего несколькими представителями, для которых при этом не всегда известны все значения необходимых параметров, - то возникает ситуация, требующая применения так называемых эвристических алгоритмов (более подробно о применяемых алгоритмах классификации см. кн.: Типология и классификация в социологических исследованиях. М., 1982). Остановимся на одном из методов распознавания, получившем применение в психодиагностике, — на семействе алгоритмов вычисления оценок (АВО), предложенном Ю. И. Журавлевым и его учениками (1978). Основную задачу распознавания образов можно сформулировать как задачу отнесения объекта 5 к одному или нескольким классам К1
К2
,..., Кi
на основе информации о классах I
(K1
), (К2
),..., I
(Кi
), информации об объекте I
(S) и предположения о близости объекта к классу. Другими словами, задачу распознавания можно сформулировать как задачу определения того, обладает ли объект определенными свойствами. В основе АВО лежит принцип частичной прецедентности: близость объекта к классу тем больше, чем больше частей в его описании «похожи» на соответствующие части в описаниях' объектов, чья принадлежность классу известна. Например, в одном из вариантов АВО (Зеличенко А. И., 1982) функция близости объекта S к классу К определяется так: где ai
(S) - i
-й элемент (параметр) в описании объекта; P1
- его вес; εj
- i
-й порог. После того как вычислены Г(S1
K1
,), ... , Г(S1
K1
,) на основании некоторого решающего правила (зависящего от вектора параметров Таким образом, каждый вариант АВО определяется набором значений параметров. В нашем случае- это векторы В качестве примера решающего правила можно привести следующее (линейное пороговое решающее правило): объект S принадлежит к классу Kt
если объект S не принадлежит к классу Kt
если в остальных случаях -отказ от распознавания принадлежности объекта S к классу Kt
. В работе алгоритмов распознавания вообще и АВО в частности можно выделить два этапа: обучение и собственно распознавание. На этапе обучения, как уже говорилось, происходит настройка алгоритма, т. е. выбор таких его параметров, которые обеспечивают оптимальное в нег котором смысле распознавание объектов обучающей выборки (объектов, принадлежность которых к классам К1
, ... ,Ki
, известна). На этапе собственно распознавания происходит отнесение к классам K1
,..., Кi
, тех объектов, принадлежность которых к классам априорно неизвестна. Точность распознавания на этапе обучения измеряется полнотой и адекватностью распознавания эталонных объектов. Наряду с понятием «точность» (абсолютная отделимость) иногда удобно использовать понятие относительной отделимости объектов обучающей выборки, принадлежащих к различным классам. В случае, когда распознавание ведется для двух классов (например, в профориентации - для дифференциального прогноза успешности оптанта в одной из двух профессиональных областей), относительную отделимость можно определить как где X
- точность при обучении (выраженная в процентах), a Использование АВО кроме решения задачи распознавания позволяет получить следующую информацию: 1. Информационные веса отдельных элементов (параметров) описания объектов. Эти веса измеряются через изменение точности распознавания при исключении соответствующих параметров из описания эталонных объектов: где X
- точность распознавания при Рj
= 1; X
( 2. Оптимальные значения порогов * * *
Для эффективного использования алгоритмов распознавания по отношению к многомерным тестовым системам (при K
>3), как правило, требуется использование компьютера. При решении задач небольших размерностей (по количеству параметров) иногда психолог может быстрее найти решающее правило, применяя собственные способности зрительной системы (очень мощные) к визуально-геометрической группировке объектов. В пространстве параметров диагностические, классы выглядят как «сгущения», некие «облака» из точек, изображающих испытуемых. В этом случае при наличии априорной информации о принадлежности индивидов к классам удобно изображать точки из различных классов разными цветами (хуже - квадратиками, кружками, треугольниками). В этом случае «решающее правило» легко «увидеть» как некую воображаемую линию (прямую или кривую), разделяющую точки разного цвета (рис. 17). Точность диагностики в данном случае можно оценить по количеству точек, попавших при данном решающем правиле в «чужую» половину пространства параметров. Рис.17. Разделение двух классов объектов (изображены кружками и треугольниками) в пространстве двух параметров
X
1
, и Х2
Точность правила, изображенного на рис. 17, равна: 10 2 3
|