Экспериментальный метод

Единственным способом для исследователя установить причинно-следственные отношения (то есть определить, вызывает ли изменение одной переменной изменение другой переменной) является проведение эксперимента. Именно по этой причине экспериментальный метод можно считать идеальной стратегией для изучения центральных вопросов, касающихся личности.

Ключ к пониманию экспериментального метода и основного различия между ним, методом изучения клинических случаев и корреляционным методом заключается в следующем: первый позволяет исследователю манипулировать одной переменной и в условиях тщательного контроля наблюдать ее влияние на другую интересующую его переменную. Переменная, которой манипулируют, называется независимой переменной. Независимая переменная - это некое условие, которое экспериментатор систематически изменяет, чтобы оценить его влияние на другую переменную. Переменная, предположительно меняющаяся в ответ на изменение независимой переменной, называется зависимой переменной. Зависимая переменная - это любой аспект поведения субъекта, наблюдаемый или измеряемый как ответ на действие независимой переменной. Таким образом, зависимая переменная является функцией от независимой переменной; она «зависима» от изменений вызванных влиянием экспериментатора на независимую переменную.

Хотя логика экспериментального метода проста, в действительности процесс постановки эксперимента довольно сложен. Хорошо организованный эксперимент должен принимать в расчет множество факторов, которые могут повлиять на точность и научную значимость результатов. На практике это означает что все переменные и условия (кроме интересующей независимой переменной), могущие оказать хоть какое-нибудь влияние на то, что мы измеряем, следует устранить или они должны поддерживаться на постоянном уровне в течение всего эксперимента Существует много способов исключения посторонних переменных, способных оказывать влияние на зависимую переменную. Но наиболее распространенный -поместить объекты случайным образом в разные экспериментальные условия или группы. Случайное распределение (часто достигаемое такими средствами, как выбрасывание орла/решки или использование таблицы случайных чисел) гарантирует, что у всех объектов имеются равные шансы быть отнесенными к любому условию или группе в эксперименте. В этом случае исследователь может быть уверен в том, что любые характеристики испытуемого, которые могли бы оказать влияние на эксперимент (возраст, интеллект, этническая принадлежность или порядок рождения), имеют равные шансы при распределении в различных экспериментальных условиях или группах. Рандомизация как определяющая характеристика экспериментального метода основывается на предположении о том, что все субъекты в начале эксперимента одинаковы, за исключением одного параметра-присутствие или отсутствие независимой переменной. Поэтому, если поведение субъекта меняется в ответ на изменение независимой переменной, исследователь может быть уверен, что только она одна, и никакая другая, отвечает за изменения в поведении. После того, как исследователь изменил независимую переменную любой аспект наблюдаемого или измеряемого поведения субъекта не может быть следствием действия какой-либо другой переменной, поскольку никакая другая не допускается в течение всего эксперимента.

Эксперимент в своей самой простой форме требует, чтобы проводилось сравнение по крайней мере между двумя группами испытуемых. Те испытуемые, которые подвергаются некоторым специальным воздействиям (манипуляции, предпринимаемые экспериментатором), называются экспериментальной группой Другие испытуемые, которые не получают специального воздействия, образуют контрольную группу. Затем производится сравнение субъектов из обеих групп с целью проверки оказало ли экспериментальное воздействие какое-либо влияние на выбранную зависимую переменную. В табл. 2-1 дано описание схемы эксперимента с одной независимой переменной и одной зависимой переменной. Контрольная группа служит отправной точкой для оценки результатов специального воздействия на экспериментальную группу. Решающее значение здесь имеет то, что единственное различие между двумя группами заключается в действии одного фактора, и этот фактор выступает в качестве независимой переменной. В этом требовании содержится основная логика экспериментального метода. Если две группы идентичны во всех отношениях, за исключением присутствия или отсутствия независимой переменной, то любое различие между группами по зависимой переменной должно быть обусловлено изменением независимой переменной. Иначе говоря, если между двумя группами нет никаких других различий, кроме тех, которые вызваны манипуляцией над независимой переменной, резонно заключить, что введение независимой переменной является причиной изменения зависимой переменной.

Определив некоторые из основных особенностей и элементов экспериментального подхода, рассмотрим метод в действии, используя процедуру и данные одного из наиболее остроумных экспериментов в истории социальной психологии личности. Психолог Стенли Шахтер заинтересовался поговоркой «На миру и смерть красна» (Does misery love company?) [Schachter, 1959]. Обзор соответствующей эмпирической литературы привел Шахтера к заключению, что люди, опасающиеся чего-нибудь неожиданного, что может произойти с ними в неизвестной ситуации, предпочитают, чтобы рядом с ними находился другой, пусть даже совершенно чужой человек, чем быть в одиночестве. Если быть более точными, то Шахтер предположил следующее: возрастание тревоги может вызвать нарастающее предпочтение быть рядом с другими — то, что психологи называют «потребностью в аффилиации» (то есть в присоединении к группе). Для проверки этой гипотезы Шахтер пригласил студенток-старшекурсниц. Когда испытуемые пришли на обследование, их приветствовал экспериментатор в белом лабораторном халате, в окружении разнообразного электрического оборудования. Он назвался доктором Зильштейном из отделения неврологии и психиатрии и объяснил, что цель исследования — изучение влияния удара электрического тока на частоту сердечных сокращений и артериальное давление. Затем каждой участнице эксперимента сообщили (индивидуально), что они подвергнутся серии ударов электрическим током и в это время будут производиться замеры пульса и давления. Для манипулирования уровнем тревоги у испытуемых (независимая переменная) Шахтер использовал два разных описания действия электрического разряда.

Для создания «высокотревожной» ситуации половина испытуемых получила предупреждение, сказанное зловещим тоном: «Буду с вами совершенно откровенен и расскажу правду о том, что вас ждет. Разряды тока будут очень сильными, очень болезненными. Как вы сами понимаете, в исследованиях такого рода мы должны изучать все, что действительно может помочь человеку, и поэтому просто необходимо, чтобы удары тока были интенсивными». Другой половине испытуемых Шахтер говорил, что удары тока будут весьма умеренными и безболезненными. Например, давалось такое объяснение: «Пусть слово «удар» вас не беспокоит. Не сомневаюсь, что эксперимент доставит вам удовольствие. Уверяю вас, все, что вы почувствуете, ни в коей мере не будет болезненным. Это будет похоже скорее на щекотку или пощипывание, чем на что-то неприятное». На самом деле в исследовании Шахтера никакие удары тока не были запланированы. Инструкция служила цели моделирования у испытуемых различных уровней тревожности.

После того как у испытуемых при помощи инструкции было вызвано состояние тревоги, высокой и низкой соответственно, экспериментатор говорил им, что придется подождать десять минут, пока он не отрегулирует аппаратуру. Далее он объяснил, что можно подождать в компании вместе со всеми в соседней комнате, а можно и в одиночестве — кто как захочет. После этого каждую студентку спрашивали, может ли она сказать, как предпочитает провести эти десять минут или у нее нет никаких особых предпочтений. То или иное заявление (побыть в одиночестве, остаться вместе с другими) являлось зависимой переменной, которая и интересовала Шахтера.

Результаты эксперимента Шахтера приведены в табл. 2-2. Как и предполагалось, испытуемые с высоким уровнем тревоги продемонстрировали гораздо более сильное предпочтение побыть с другими, чем испытуемые с низким уровнем тревоги. Процент тех, кто предпочел ждать вместе с другими, был в случае высокотревожной ситуации почти в два раза выше, чем в случае низкотревожной. Это означало, что изменение уровня тревожности оказало решающее влияние на поведение присоединения.

В дальнейшем Шахтер провел другой эксперимент для проверки гипотезы о том, что люди, испытывая тревогу, объединяются только с теми, кто испытывает те же чувства [Shachter, 1959]. Двум группам женщин давалась та же инструкция, что и «высокотревожной» группе в предыдущем эксперименте. Испытуемым из одной группы было дано право выбора: ожидать поодиночке или вместе с другими женщинами, участвующими в эксперименте. Испытуемые из другой группы имели возможность в ожидании начала эксперимента или побыть в одиночестве, или в компании студенток, ожидавших начала консультации. Как видно из табл. 2-3, результаты ясно указывают на то, что женщины, находившиеся в состоянии тревоги, предпочитали ожидать только с участницами данного эксперимента.

Шахтер обобщил полученные результаты, сделав вывод о том, что «в несчастье нужен не просто товарищ, а именно страдающий товарищ». Дальнейшие исследования подтвердили это открытие: люди, находящиеся в тревожной ситуации, предпочитают присоединяться к таким же, как они сами [Rofe, 1984; Suls, Miller, 1977].

Оценка экспериментального метода

Не подлежит сомнению, что экспериментальный метод является мощной эмпирической стратегией. В отличие от других рассмотренных подходов, экспериментальный метод позволяет исследователям не только контролировать и предсказывать определенные феномены, но и давать им объяснение. Вот, в сущности, и все, что можно сказать об экспериментальном методе. Где бы он ни применялся, этот метод дает возможность получать информацию, которую не добыть с помощью других методов. И, тем не менее, экспериментальный метод имеет свои ограничения, по крайней мере в области психологии личности. Во-первых, некоторые проблемы изучать экспериментальным путем просто неэтично, хотя это было бы очень просто осуществить. Например, психологи не могут преднамеренно моделировать условия, представляющие потенциальный риск для испытуемых, угрожающие или чреватые возможностью получения каких-либо повреждений. Представьте себе исследователя, заинтересованного в изучении влияния хронического одиночества на самооценку и развитие депрессии у детей. Несомненно, это эмпирически важный вопрос, но очевидные этические соображения мешают собрать сотню десятилетних детей, в случайном порядке отобрать из них пятьдесят и поместить их в такие экспериментальные условия, в которых они не имели бы возможности близко общаться с окружающими.

Другой этический вопрос связан с обманом и хитростью — часто бывает так, что испытуемого или вводят в заблуждение относительно истинной цели эксперимента, или информируют не полностью. Вспомните исследование тревоги у Шахтера и представьте себе, как бы вы себя чувствовали, если бы принимали в нем участие и оказались в «высокотревожной» группе. Импозантный мужчина в белом халате сообщает вам, что после короткой отсрочки вы получите серию болезненных ударов электрическим током. Потом вы заполняете анкету, где сообщаете о своем предпочтении присоединиться или не присоединиться к другим, а затем возвращаете ее исследователю, который, в свою очередь, тут же говорит вам,что оказывается вас не будут бить током — это была всего лишь шутка. Нет сомнения в том, что вы почувствуете себя в глупом положении, даже если все это делается ради науки. Вы можете даже задаться вопросом: действительно ли соображения науки оправдывают обман? Те, кто оправдывают практику введения испытуемого в заблуждение в научном исследовании, напоминают о том, что многие аспекты поведения человека просто невозможно было бы изучать экспериментально, если бы исследователям запрещалось утаивать истинные цели исследования от испытуемых [Aronson et al., 1985; Christensen, 1988]. С другой стороны, некоторые психологи [Baumrind, 1985] считают, что подобная практика утаивания подрывает доверие людей к психологическому исследованию, и это может иметь отдаленное негативное влияние на испытуемых, даже если подлинный смысл исследования открывается им сразу после его проведения.

Мало кто верит сейчас в существование простых правил, способных обеспечить баланс между законными потребностями науки и полным комфортом испытуемых. Однако Американская психологическая ассоциация [American Psychological Association, 1981] выдвинула ряд этических принципов, которым должны следовать экспериментаторы при работе с людьми. Требования включают следующие четыре пункта:

1. Испытуемые должны быть заранее проинформированы о тех аспектах исследования, от которых предположительно может зависеть их желание участвовать в эксперименте. Также им разрешается отказываться от участия в любой момент, как только они этого захотят. Индивидуум участвует в эксперименте добровольно и в соответствии с принципом осведомленного согласия.

2. Испытуемые не должны участвовать в пагубных или опасных для их здоровья исследовательских процедурах. Если риск все-таки существует, исследователь должен проинформировать их об этом. Однако процедуры, содержащие невысокий риск умеренного психологического дискомфорта, допустимы при условии, что испытуемый полностью о них осведомлен и дает свое добровольное согласие.

3. Методологические требования к исследованию могут неизбежно включать использование ложного объяснения в задании, не связанном с риском для здоровья испытуемого. В этом случае на исследователе лежит особая ответственность за разъяснение любого недопонимания со стороны испытуемого, как только это станет возможным. Обман (скрытая инструкция) должен быть раскрыт в первой же встрече после завершения исследования.

4. Информация об испытуемом в течение всего исследования должна рассматриваться как абсолютно конфиденциальная; она не сообщается никому без согласия самого испытуемого. Право испытуемого на конфиденциальность не должно быть объектом посягательства или компромисса.

Второе существенное ограничение экспериментальной стратегии исследования персонологи усматривают в том, что эксперимент слишком часто является искусственным, и его результаты не могут быть экстраполированы на другие условия и ситуации [Carlson, 1984]. Они подвергают критике то обстоятельство, что, поскольку эксперименты проводятся в лабораторных условиях, описание поведения испытуемых не дает представления о том, как они ведут себя спонтанно, в реальных жизненных обстоятельствах. К тому же лабораторное исследование обычно ограничено изучением довольно кратковременных феноменов, и поэтому велика вероятность того, что какие-то важные процессы останутся вне поля зрения ученых. Например, результаты исследования, в котором студенты колледжа в течение 30 минут работали в маленьких, тесных помещениях, могут и не иметь большого сходства с долговременным влиянием на поведение условий жизни в перенаселенных городах. Поэтому для многих персонологов единственный путь к действительному пониманию личности состоит в изучении поведения людей в таком виде, как оно проявляется в естественном для них социальном контексте.

Наконец, при всех своих возможностях контроля экспериментальное исследование может допускать определенные непреднамеренные артефакты, присущие лабораторным условиям вообще [Rosenthal, Rosnow, 1969]. Например, как только люди узнают, что они находятся в условиях эксперимента, их поведение может измениться не вследствие изменения независимой переменной в соответствии с условиями эксперимента, а по той причине, что они знают о наблюдающем за ними экспериментаторе. Кроме того, едва заметные намеки, которые испытуемый может усмотреть в условиях эксперимента, могут заставить его предположить наличие у экспериментатора определенной гипотезы, и он начнет вести себя так, чтобы своими действиями подтвердить эту гипотезу. Такие намеки получили название требуемых характеристик [Огпе, 1969]. Существование последних приводит к мысли о том, что психологический эксперимент сам по себе является формой социального взаимодействия, при котором субъекты пытаются угадывать цель и смысл проводимого над ними исследования; при этом они начинают соответственно себя вести, пытаясь удовлетворить или, наоборот, разочаровать психолога. Это обстоятельство с очевидностью снижает достоверность экспериментального метода, так как на наблюдаемое поведение индивидуума могут влиять факторы, не входящие в замысел эксперимента. Наконец, пристрастия или предубеждения самого экспериментатора могут стать возможным источником ошибки в исследовании, поскольку он будет ненамеренно влиять на поведение испытуемых [Rosenthal, Rubin, 1978]. Розенталь [Rosenthal, 1966] провел несколько исследований, показавших, что экспериментаторы, не осознавая того, посылают испытуемым положительные невербальные сигналы в тех случаях, когда те действуют в соответствии с ожиданием исследователей. Для того, чтобы избежать подобного влияния, многие работы в настоящее время проводятся с использованием двойного слепого метода. При этой стратегии ни испытуемые, ни экспериментаторы не знают, какая группа в данный момент оценивается — экспериментальная или контрольная.

Критика экспериментального метода не ускользает от внимания его защитников. Те психологи, которые считают эксперимент ведущим исследовательским направлением, объясняют свою позицию тем, что это единственный подход, обеспечивающий проверку гипотез. Более того, отмечают они, определенные феномены, доступные изучению в лабораторных условиях, чрезвычайно трудно исследовать в условиях естественных (например, в эксперименте испытуемому разрешается немедленно разряжать агрессию, в то время как в реальной жизни является общепринятым жесткий контроль над открытыми проявлениями агрессии). Сторонники лабораторного эксперимента высказывают, кроме того, следующее утверждение: опасение, будто испытуемые пытаются произвольно подкреплять своим поведением рабочую гипотезу, находит мало эмпирических подтверждений; скорее испытуемые в подобных случаях проявляют негативизм, чем желание «сотрудничать» с экспериментатором [Berkowitz, Donnerstein, 1982].

Какая стратегия исследования самая лучшая?

Обсуждение трех основных стратегий исследования, используемых персонологами, показывает, что каждая имеет свои преимущества и недостатки. Плюсы и минусы каждой из них подытожены в табл. 2-4. В то же время представляется очевидным, что в поисках надежных и обоснованных знаний о личности человека ни одна стратегия не будет самой лучшей. Попросту говоря, не существует единственного метода исследования, который идеально подходил бы для любых целей и случаев; скорее, разные вопросы требуют разных стратегий [Duke, 1986]. Кроме того, метод, пригодный для решения одного вопроса, может оказаться совершенно неподходящим для другого.

Отбор и адаптация метода для решения той или иной теоретической задачи требует большого искусства, изобретательности и творчества. Однако следует признать, что у персонологов имеются определенные предпочтения относительно того, как исследовать интересующие их феномены. Эти предпочтения обусловлены в значительной степени тем, что различные теоретические направления обычно фокусируются на феноменах, доступных изучению только при использовании определенной стратегии. Так, нет ничего удивительного в том, что явления, находящиеся в центре внимания психодинамического направления (такие как неосознаваемые процессы и переживания раннего детства), по большей части изучались с помощью метода клинических случаев, а не в ходе научного эксперимента. В свою очередь, связь между центральными вопросами теории и предпочтительными методами их изучения предполагает, что выбор исследования в персонологии обусловлен индивидуальным творческим устремлением ученого. Это следует иметь в виду, когда мы в следующих главах будем обсуждать эмпирические доказательства различных теоретических положений. Хотя целью любого исследования личности является установление таких фактов и закономерностей, которые можно осмысливать в более широком теоретическом контексте, возможно, самое большее, чего мы можем достичь — это лишь частичное понимание. И, несмотря на это, даже частичное понимание всей сложности человеческого поведения, приходящее на смену полному незнанию, представляется весьма похвальной целью.

Оценка личности

Общераспространенной темой в изучении личности являются индивидуальные различия в поведении и опыте людей. При исследовании индивидуальных различий — персонологи имеют дело с двумя взаимосвязанными проблемами.

Во-первых, они заинтересованы в описании множества параметров, по которым люди отличаются друг от друга. Это подтверждается огромным количеством теоретических концепций, используемых персонологами для описания индивидуальных различий. Такие термины, как черта, тип, мотив, ценность, темперамент, характер, убеждение и фактор, представляют собой набор концептуальных единиц измерения, которые использовались в целях описания постоянных аспектов поведения человека. Во-вторых, персонологи заинтересованы в дальнейшем развитии способов измерения индивидуальных различий, то есть в их оценке. Значение этого второго вопроса, являющегося также центральным для данного раздела, подтверждается внушительным количеством психологических тестов, которые персонологи применяют для количественной оценки характеристик индивидуума, включая особенности мышления, чувств и мотивации. Количественная интерпретация при этом производится таким образом, чтобы психологи имели возможность представлять результаты своих измерений скорее в числах (обычно на основе тестовых оценок), чем в словах. Например, вместо вопроса «Является ли Фред робким человеком?» психологи спрашивают: «Насколько Фред робок по сравнению с остальными?» Описание личности, даваемое непрофессионалами в результате неформального наблюдения, своей нечеткостью и расплывчатостью резко контрастирует с оценками, даваемыми психологами. Возьмем, к примеру, характеристику кого-то, как «буйного и безрассудного типа». Что означает это описание? Проблема здесь в том, что разные люди вкладывают в данную характеристику разный смысл. Для кого-то она может означать, что этот человек просто опасен и непредсказуем. В то же время другие посчитают, что он вполне может оказаться душой общества на вечеринке. Поэтому, какими бы конкретными ни выглядели неформальные описания личности, они с трудом согласуются между собой. Для того, чтобы избежать неопределенности нечетких характеристик, личностные психологи пытаются давать точные количественные описания индивидуумов. Формальная оценка личности не только обеспечивает возможность получения значимой и точной информации об индивидуальных различиях, но также дает возможность донести эту информацию до других людей ясно и недвусмысленно.

Концепции тестирования и измерения

Существует множество важных концепций тестирования, и мы будем их приводить в ходе обсуждения оценки персонологами тех или иных характеристик людей. До того, как тот или иной способ тестирования получит право считаться научно приемлемым методом измерения индивидуальных различий, он должен пройти проверку по четырем специальным критериям. Эти критерии — стандартизация, нормы, надежность и валидность.

Стандартизация. Ключевым аспектом измерения личностных характеристик является стандартизация. Стандартизация подразумевает единообразие процедур проведения теста и подсчета результатов. Например, в случае применения шкал самооценки экспериментатор должен приложить максимальные усилия и убедиться, что все испытуемые читают и понимают отпечатанные инструкции, все отвечают на одни и те же вопросы, а также укладываются в заданные временные интервалы. Стандартизация также предполагает наличие следующей информации (обычно содержащейся в прилагаемом руководстве): при каких условиях тест можно или нельзя проводить, кто должен или не должен подвергаться тестированию (контрольная группа), процедуры обсчета теста, а также интерпретация полученных результатов.

Нормы. Стандартизация личностного теста включает также информацию о том, является ли данная конкретная «сырая (первичная) оценка» низкой, высокой или средней относительно других «сырых оценок» теста. Такая информация, называемая тестовыми нормами, служит стандартом, с которым сравниваются оценки испытуемых. Обычно сырые тестовые оценки переводятся в процентильные показатели, которые обозначают процентную долю испытуемых из выборки стандартизации, первичная оценка которых ниже или равна первичной оценке данного испытуемого. Например, вы можете использовать шкалу депрессии из тридцати вопросов и получить первичный тестовый результат 18 (то есть ваши ответы в 18 случаях совпали с признаками депрессии, перечисленными на листке с правильными ответами). Сам по себе показатель 18 ничего не значит до тех пор, пока вы не обратитесь к тестовым нормам и не убедитесь, что ваш результат соответствует 75 процентилям. Эта информация говорит о том, что вы в большей степени подавлены, чем 75 % из выборки ранее обследованных людей, образующих нормативную группу. Таким образом, тестовые нормы позволяют сравнивать оценки отдельных индивидуумов с оценками группы стандартизации, что в результате дает количественную оценку положения испытуемого относительно нормативной группы.

Надежность. Другое требование ко всем методам оценки личности заключается в том, что они должны быть надежными. Это означает, что повторное проведение того же самого теста или другой формы этого теста должно давать приемлемо сходные результаты или оценки. Таким образом, надежность имеет отношение к постоянству или стабильности метода оценки, которая обнаруживается при повторном обследовании данной группы людей. Количественно постоянство метода оценки определяется коэффициентом ретестовой надежности [Anastasi, 1988]. Коэффициент ретестовой надежности равен обычной корреляции между результатами, полученными на одних и тех же испытуемых в каждом из двух случаев проведения теста. Ретестовая надежность дает нам оценку постоянства теста во времени. Хотя не существует каких-либо фиксированных величин приемлемого уровня надежности, коэффициенты надежности для большинства стандартизованных психологических тестов выше +0,70. Чем ближе величина коэффициента надежности к +1, тем более надежным является тест (то есть оценки испытуемых при повторном тестировании вплотную приближаются к оценкам при первом тестировании). Второй вид надежности определяют путем коррелирования параллельных форм теста. Для этого чаще всего тест делят на две сопоставимые части (например, на четные и нечетные пункты), потом по каждой половине рассчитывают суммарные баллы и между двумя рядами баллов по испытуемым рассчитывают допустимые коэффициенты корреляции. Полученный таким образом коэффициент называют коэффициентом внутренней согласованности. Внутренняя согласованность отражает внутреннее постоянство теста. Если обе части теста измеряют одно и то же свойство личности, то испытуемые, получившие высокие оценки по нечетным пунктам, должны также получить высокие оценки и по четным; а те, кто получил низкие оценки по нечетным пунктам, должны получить низкие оценки и по четным пунктам (что снова выразится в высокой положительной корреляции).

Третий тип надежности основывается на корреляции между двумя сопоставимыми вариантами одного и того же теста (состоящими из аналогичных вопросов), проведенного на одной и той же группе испытуемых. Если по этим разным формам теста получены примерно одинаковые оценки, тест обладает надежностью параллельных форм. В таком случае положительная корреляция между двумя взаимозаменяемыми формами будет означать, что пункты обоих вариантов теста измеряют одно и то же.

Наконец, надежность также касается того, насколько будут согласны между собой двое или более экспертов при подсчете результатов одного и того же теста. Этот тип надежности называется надежностью субъективных оценок. Надежность субъективных оценок должна обязательно учитываться, если тест предполагает субъективные интерпретации, подобные тем, что дают персонологи при оценке результатов проективных тестов. Этот тип надежности имеет особенно низкие значения в отношении любых качественных методов, таких как интервью, анализ сновидений и других форм свободных ответов, не поддающихся количественной оценке. Однако согласованность возрастает, когда эксперты пользуются руководт ствами, содержащими четкие правила оценки и инструкции для анализа подобных данных [Yin, 1984].

Валидность. Хотя надежность имеет очень большое значение, она, тем не менее, не является единственным решающим критерием оценки пригодности теста. Возможно, даже более важным является вопрос о том, измеряет ли тест именно то, что он предназначен измерять, а также предсказывает ли он именно то, что предполагалось предсказывать с его помощью. Эта проблема имеет отношение к кардинальному критерию достоинства оценочной техники — валидности. Психологи часто различают три типа валидности: 1) содержательная валидность, 2) критериальная валидность и 3) конструктная валидность.

Содержательная валидность. Чтобы считаться валидным, метод оценки должен включать такие пункты, содержание которых соответствует репрезентативной выборке измеряемой области поведения. Предположим, перед нами тест, измеряющий застенчивость. Для того чтобы быть валидным по содержанию, он должен состоять из вопросов, которые действительно раскрывают личностные аспекты застенчивости (например, «Является ли застенчивость основным источником вашего личностного дискомфорта?»), социальные аспекты застенчивости (например, «Смущаетесь ли вы, когда выступаете перед большой аудиторией?») и когнитивные аспекты (например, «Убеждены ли вы в том, что окружающие всегда осуждают вас?»). Валидный по содержанию тест застенчивости должен оценивать каждый из компонентов, входящих в понятие «застенчивость». Содержательная валидность почти всегда определяется путем соглашения экспертов о том, что каждый пункт теста фактически отражает аспекты переменной, или личностного качества, подлежащие измерению.

Критериальная валидность. Оценка личности обычно предпринимается с целью прогнозирования определенных аспектов поведения индивидуума. Предсказание поведения может касаться успешности обучения в аспирантуре, адекватности терапевтической программы, профессиональной успешности и многого другого, за очень небольшими исключениями. То, с какой точностью результаты теста предсказывают интересующий нас аспект поведения индивида в настоящем или будущем, определяется корреляцией оценок субъектов по данному тесту и показателей по некоему критерию, не зависящему от того, что должен предсказать тест. Например, предположим, что критерий — успеваемость в школе права — измеряется по среднему баллу успеваемости, тогда SAT будет считаться валидным, если он будет точно предсказывать средний балл успеваемости.

Различают два подтипа критериальной валидности. Первый получил название прогностическая валидность. Прогностическая валидность определяется способностью теста предсказывать поведение в будущем, соответственно критерию. Тест измерения интеллекта прогностически валиден, если он точно предсказывает оценки в школе. Второй подтип имеет название текущая валидность. Текущая валидность определяется величиной значимой корреляции результатов данного теста с другими имеющимися критериальными оценками. Например, если оценки пациента по тесту, измеряющему параноидные тенденции, положительно коррелируют с оценками выраженности параноидных тенденций, данными клиническими психологами, то мы можем говорить о наличии текущей валидности. Конечно, клиницисты в этом случае не должны знать заранее о результатах тестирования. Иначе имеющаяся у них информация может повлиять на оценки, которые они дают — это явление называется контаминацией критерия.

Конструктная валидность. Третий тип валидности, один из наиболее важных для оценки личности как целого, называется конструктная валидность. Она отражает степень репрезентации исследуемого психологического конструкта в результатах теста [Cronbach, Meehl, 1955]. Абстрактная природа многих психологических конструктов — таких как самоактуализация, эго-идентичность, социальный интерес и вытеснение — усложняет тестирование и придает результатам неопределенность. Попросту говоря, для этих и других абстрактных концепций функционирования личности (или того, что мы иначе называем гипотетическими конструктами) не существует твердо установленных критериальных величин. Хотя иногда можно наблюдать примеры вытеснения, само вытеснение недоступно прямому наблюдению, оно не имеет физических проявлений. Далее, гипотетический конструкт, существование которого невозможно доказать на основании какого-либо поведенческого критерия, для психологии личности бесполезен, поскольку она использует для получения знаний эмпирический подход. Именно здесь и встает вопрос о конструктной валидности.

Конструктная валидизация — это процесс сбора доказательств того, что тест измеряет определенный гипотетический конструкт, выведенный из теории. Это сложный и трудоемкий процесс, требующий проведения многих исследований, в ходе которых подвергаются проверке корреляции между тестовыми оценками и теми величинами, которые предположительно связаны с рассматриваемой концепцией. Один путь валидизации заключается в установлении корреляций между тестовыми оценками исследуемого конструкта и показателями другого теста, который предположительно измеряет тот же самый конструкт. Эта процедура на практике известна как конвергентная валидизация [Campbell, Fiske, 1959]. Предположим, перед нами новый тест, который, как мы думаем, измеряет конструкт самооценки. Если этот наш новый тест на самом деле измеряет самооценку, он должен положительно коррелировать с другой процедурой измерения самооценки, хорошо зарекомендовавшей себя и валидной. Если несколько разных измерений самооценки согласуются друг с другом и с нашим новым тестом, мы имеем некоторые доказательства конструктной валидности нашего нового теста самооценки.

Другой путь установления конструктной валидности — показать, что вновь разработанная измерительная процедура не коррелирует с показателями, для измерения которых данная процедура не предназначена, явно не связанными с концептуальным определением, данным теоретиком. Этот аспект валидизации известен на практике под рабочим названием дивергентная валидность [Campbell, Fiske, 1959]. Например, если наш новый тест самооценки не коррелирует со значениями других тестов, разработанных для измерения концептуально отличных от представленных в нем качеств, мы получаем доказательства дискриминантной валидности (поскольку наша процедура измерения самооценки отличается от тех, что измеряют не самооценку, а нечто другое, так и должно быть). Это важный этап установления конструктной валидности оценочной процедуры.

Перечисление трудностей,