Стандартизированные шкалы. Принцип обеспечения суверенных прав личности
Лекция 16. Шкалирование результатов тестирования.
1.Задачи шкалирования.
2.Построение шкал.
3.Виды шкал в образовании.
4.Шкалирование результатов тестирования на основе теории IRT .
5.Шкалирование в критериально-ориентированном тестировании.
1. Задачи шкалирования.
Для чего и когда следует использовать процедуру шкалирования. Для обоснованного сопоставления результатов учащихся между собой тестовые баллы в соответствии с рядом критериев и норм (число правильно выпаженных заданий при дихотомической оценке результатов выполнения каждого задания, сумма оценок по отдельным заданиям при политомической, или взвешенной, оценке) переводятся в производные показатели при помощи процедуры, которая получила название шкалирования.
Таким образом, процесс шкалирования состоит в преобразовании сырых баллов в производные показатели, обеспечивающие адекватную интерпретацию и сравнение результатов выполнения педагогических тестов .
Современная трактовка процесса шкалирования. Процесс шкалирования включает в себя различные процедуры. В простейшем случае под шкалированием понимается отображение сырых баллов на готовую шкалу, производимое по "определенным правилам.
Перевод сырых баллов в производные показатели и их размещение на готовой шкале не могут повысить надежность и валид ность данных по тесту.
В современной литературе по теории педагогических измерений встречается расширенное понимание процедуры шкалирования, в которую включают конструирование шкалы по определенным правилам и последующее преобразование исходных эмпирических данных для помещения их на данную шкалу. Таким образом, согласно расширенной трактовке, шкалирование включает ряд последовательных этапов, охватывающих все компоненты педагогических измерений, и имеет связь с качеством результатов.
2. Построения шкал для педагогических измерений
Этапы Шкалирования . При трактовке процесса шкалирования в расширенном варианте можно выделить четыре основных этапа построения измерительных шкал в образовании для ситуации бланкового тестирования и обобщенного случая измерений:
Этап 1 - определение цели измерения, выбор конструкта, размерности и содержательной области, адекватно описывающей конструкт.
Этап 2- разработка заданий и экспертное обоснование их качества, экспертное оценивание адекватности содержания заданий конструкту, определение первоначальной длины теста.
Этап 3 - апробация, эмпирический анализ качества теста, чистка и коррекция измерителя для повышения надежности и валидности шкалы, проверка размерности пространства измерений или доказательство одномерности теста,
Этап 4 - подтверждение качества шкалы и анализ возможности ее использования для представления результатов учащихся по тесту.
Последний этап начинается с построения устойчивой шкалы, выбранной в соответствии с целями измерения и подходом к созданию теста. При последующем использовании теста сырые баллы учеников отображаются на готовой шкале, Особую важность на данном этапе имеет процедура выравнивания результатов педагогических измерений, полученных учащимися по разным вариантам теста.
Необходимость выравнивания может быть не совсем понятна педагогу-практику, поскольку е школе принято выдавать существенно различающиеся но трудности варианты контрольных работ, а затем присваивать одинаковые оценочные эквиваленты разным, зачастую несопоставимым, результатам учащихся. В практике педагогических измерений утвердилась другая норма сравнения и интерпретации результатов испытуемых, основанная на выравнивании, которое представляет собой статистический метод преобразования оценок испытуемых по различным вариантам для обеспечения их сопоставимости.
3. Виды шкал в образовании
Общие цели шкалирования. Процесс шкалирования реализует разные цели в зависимости от подхода, выбранного к разработке теста. При нормативно-ориентированном подходе шкалированные показатели позволяют уточнить место, занимаемое результатом испытуемого относительно норм, или сравнить результаты испытуемых, установив место результата каждого учащегося по отношению к результатам остальных учащихся, выполнявших этот тест
При критериально-ориентированном подходе шкалированный балл показывает процент освоенного содержания и место результата учащегося в сравнении с критериальным баллом. Перечисленным целям отвечают разные шкалы, которые можно построить по результатам выполнения теста.
Шкала перцентильных рангов . Перцентильный (процентильный) ранг для каждого балла определяется процентом испытуемых, которые выполнили столько же или меньше заданий теста. Например, если 30 % учащихся выполнили верно по 20 заданий теста и получили за каждое из них по одному баллу, то сырой балл «20» соответствует 30-му перцентилю. Таким образом, перцентиль показывает относительное положение испытуемого в выборке учащихся, которая выполняла тест. Чем ниже перцентильный ранг результата испытуемого, тем хуже его результаты по сравнению с другими тестируемыми группы.
Перцентили выше 50-го представляют результаты выше среднего по выборке, а перцентили ниже 50-го - ниже среднего, если в качестве средней нормы выступает медиана, которой соответствует 50-й перцентиль. Для 25-го и 75-го перцентилей существуют специальные названия: 1-й и 3-й квартили соответственно. Они отсекают нижнюю и верхнюю четверть распределения тестовых баллов, поэтому их выделение удобно для сравнения результатов данного тестировании с распределениями результатов по другим тестам.
Бели шкала перцентилей построена на выборке стандартизации, то, используя ее, легко определить ранг каждого учащегося, выполнявшего в другое время тот же тест. Для этого достаточно подсчитать его сырой балл и по готовой таблице соответствия найти соответствующий перцентиль. Первичный балл, который ниже любого результата в выборке стандартизации, будет иметь нулевой перцентильный ранг. Результат, превышающий любой другой в выборке, получит перцентильный ранг 100. Конечно, оба эти результата не говорят о нулевом или абсолютном результате выполнения теста. Перцентили не следует путать с обычными про-< центными показателями, которые при дихотомическом оценивании результатов выполнения отдельных заданий представляют собой выраженную в процентах долю правильно выполненных заданий теста. В отличие от обычных процентов перцентиль является производным показателем, который оценивается в единицах процента испытуемых.
Перцентили имеют несомненные достоинства - они удобны в подсчете и просты в интерпретации. Помимо достоинств перцентильные ранги имеют два существенных недостатка. Во-первых, они являются значениями порядковой шкалы, так как показывают относительное положение каждого индивида в нормативной выборке, а не определяют величину истинного различия между результатами отдельных испытуемых группы. Во-вторых, перцентили не только не отражают, но даже искажают реальные различия в результатах выполнения теста. Это связано с особенностями распределения перцентилей, имеющего прямоугольный характер. В этой связи небольшие отклонения от среднего в центре распределения наблюдаемых баллов будут значительно увеличены перцентилями, в то время как относительно большие отклонения на краях кривой нормального распределения будут сжаты.
Стандартные показатели. Z -шкала. При выборе метода шкалирования часто обращаются к стандартным показателям, указывающим отличие индивидуального результата испытуемого от среднего балла повыборке в единицах стандартного отклонения. Эти показатели используются для установления места первичного балла каждого испытуемого в сравнении с результатами других на основе подсчета нормированных отклонений и называются z -оценками. Результат отображения z -оценок на числовую ось образует Z -шкалу.
Для перевода в Z -шкалу сырой балл i -го испытуемого преобразуется по формуле
где X i - сырой балл i -го испытуемого; X - среднее значение индивидуальных баллов N испытуемых группы; S x - стандартное отклонение. Поскольку среднее значение X вычитается из каждого исходного значения X i , то новое среднее в Z -шкале - z - будет равно нулю, а стандартное отклонение благодаря нормированию будет равно единице.
Если величина разности X i - X , стоящей в числителе дроби, больше 0, то результат i -го испытуемого выше среднего по тесту. В противном случае индивидуальный балл i -го испытуемого ниже среднего. В силу линейного характера преобразований при получении г-оценок все свойства исходного распределения сырых баллов переносятся на множество шкалированных баллов.
Использовать Z -шкалу можно для любого распределения индивидуальных баллов. Особенно удобны z -оценки в случае близости распределения первичных баллов к требованиям нормального закона, поскольку можно заранее предсказать процент результатов, лежащих в пределах одного и двух стандартных отклонений под кривой нормального распределения. Несомненным достоинством Z -шкалы является общая средняя арифметическая и общая мера вариации данных, позволяющие достичь сравнимости результатов по разным тестам.
Однако помимо явных достоинств есть и недостатки. Отрицательные и дробные оценки, которые нередко получаются при вычитаний среднего и деления на стандартное отклонение, малопригодны для сообщения результатов тестирования испытуемых группы. Поэтому применяются специальные, методы линейного преобразования z -оценок для перевода их на множество целых положительных чисел.
Шкалы стандартных оценок, полученных на основе линейных преобразований Z - шкалы. Для перевода - оценок в область положительных целых чисел выбираются новые значения среднего арифметического (М) и стандартного отклонения (σ). Они сохраняют все различия между баллами испытуемых, выявленные в Z -шкале, но позволяют избавиться от отрицательных и дробных значений z благодаря умножению каждой z -оценки на одно и то же число, а также прибавлению общей константы и последующему округлению. Для преобразования z -оценок используется формула
z 1 =M + σ z (19)
где М - новое среднее арифметическое; σ - новое стандартное отклонение.
В качестве значений M и σ в формуле (19) можно использовать любые удобные числа. Например, для шкалы IQ эти значения равны 100 и 15. Поэтому z IQ =100+15 z . Другое линейное преобразование c M = 50+10 z переводит значения z в стобалльную T -шкалу по формуле Т = 50 + 1 0 z . Эта шкала позволяет избавиться от дробных и отрицательных значений только в том случае, если значения z лежат в интервале от -5 до +5 и имеют один знак после запятой. В противном случае, если показатели подсчитаны с точностью до сотых, необходимо последующее округление T -показателей, что может привести к снижению дифференцирующего эффекта теста.
Для шкалы СЕЕВ по тестам SAT (Scolastic Aptitude Test ), разработанным Советом по приемным экзаменам в колледжи, z -оценки пересчитывают c я со средним М = 500 и σ = 100 по формуле z CEEB = 500 + 100 z . Значению z = -1 будет соответствовать значение z CEEB = 500 + 100 (-1) = 400. A при z = +1 т- z CEEB = 600. Таким образом, в шкале СЕЕВ все дробные z -оценки превращаются в целые и попадают в интервал (0; 1000) в тех случаях, когда Z лежит в интервале (-5; +5). Так же в тысячебалльную шкалу переводятся оценки результатов выполнения таких известных в мире тестов, как GRE (Graduate Record Examination ) и. др.
Сопоставимость и выравнивание. Поскольку обеспечение сопоставимости результатов педагогических измерений является одной из главных причин перехода от сырых баллов к производным показателям в процессе шкалирования, то возникает вопрос о возможности сравнения z -оценок, полученных на основе различных вариантов тестя. Ответ на этот вопрос на теоретическом уровне носит, несомненно, положительный характер в тех случаях, когда сравниваются z -оценки по параллельным вариантам одного и того же теста. Однако на практике из-за неизбежных отклонений от требований параллельности и существования ошибок измерения для повышения сопоставимости оценок испытуемых обычно используют процедуру выравнивания.
Рис. 33. Сопоставление шкал
В отдельных случаях возникает необходимость сравнения относительного положения испытуемых, полученного в различных шкалах и по различным тестам. Если результаты тестирования имеют нормальное распределение, а выстроенные шкалы основаны на идентичных выборках испытуемых, такое сравнение можно провести с помощью рис. 33.
Чтобы добиться сопоставимости результатов тестирования в ситуации отличия распределений баллов от нормального закона, необходимо преобразование, изменяющее вид кривой распределения с целью приближения ее к виду нормальной кривой.
Нормализация данных тестирования. Для нормализации данных тестирования используется нелинейное преобразование, позволяющее придать эмпирическому распределению желаемую форму нормальной кривой. С этой целью вводятся нормализованные стандартные показатели, соответствующие распределению, преобразованному так, что оно аппроксимируется формой нормальной кривой. Их значения могут быть найдены с помощью таблиц, в которых приводится процент случаев различных отклонений в единицах от среднего значения для нормальной кривой.
Преобразование сырых баллов к нормальному распределению осуществляется способом, получившим название пробшп-преобразования . В рамках процедуры преобразования баллов сначала для каждого сырого показателя определяется кумулированная частота, которая представляет собой сумму всех частот, лежащих ниже данного сырого показателя. Затем к ней добавляется половина количества испытуемых, имеющих этот сырой балл. По этим данным вычисляется кумулированная доля путем деления полученной суммы на общее число испытуемых выборки. Затем по статистическим таблицам, содержащим значения площади под кривой нормального распределения, находят значения нормализованных стандартных Показателей для каждой кумулированной доли |63].
Нормализованный стандартный показатель, как и линейно преобразованный стандартный показатель, имеет среднее значение «О», а стандартное отклонение - «1». Результат учащегося в «-1» балл можно интерпретировать как превосходящий приблизительно 16% результатов группы, а в «+1» балл - как превосходящий 84 % всех результатов.
Шкала станайнов, стенов и другие шкалы. Нормализованным стандартным показателям, так же как и линейно преобразованным, стараются придать удобную форму, пригодную для сообщения испытуемым. Для этого используют шкалы стандартных десяти или девяти единиц. Разбиение нормального распределения на девять интервалов приводит к шкале станайнов, имеющей девять стандартных единиц. Название «станайн» связано с тем, что оценки в этой шкале принимают значения от «1» до «9». При оценке результатов испытуемых по тесту 4 % самых худших результатов присваивается станайн 1, а самых лучших - станайн 9. Следующим за худшими и лучшими 7 % результатов присваивают ста-найны 2 и 8 соответственно. Далее 12 % результатов - станайны 3 и 7. Следующим 17% присваивают станайны 4 и б и, наконец, 20% средних результатов - станайн 5 (табл. 16). .
Помимо описанной шкалы станайнов существуют еще две шкалы, имеющие некоторое, преимущество перед девятибалльной в смысле различающей способности. Одна из них - шкала стандартных десяти единиц, называемая также шкалой Кэтгелла, или шкалой стенов ( sten ). Как следует из названия, весь массив результатов делится на десять частей с интервалом 0,5 стандартного отклонения. В шкале стенов среднее арифметическое принимается равным 5,5, а расстояние между двумя соседними стандартными единицами равно 0,5 S x .
Таблица 16
Таблица соответствия процентов и станайнов
Процент |
|||||||||
Станайн |
Какие шкалы использовать в педагогических измерениях . Многие из шкал, приведенных выше, используются исключительно психологами, другие нашли свое применение в образовании. В практике деятельности зарубежных тестовых служб в образований чаще всего обращаются к стобалльной или тысячебалльной шкале, полученным на основе преобразования z -оценок. Хотя тысячебалльная шкала обладает высокими дифференцирующими возможностями, обычно ее концы оказываются не работающими в силу специального подбора по трудности заданий теста для приближения частотных распределений оценок трудности к виду нормальной кривой. Поэтому, как правило, оценки испытуемых распределяются в интервале от 200 до 800 баллов. Но даже использование менее протяженного диапазона оценок, чем тысячебалльная шкала, требует специальных профессиональных навыков по интерпретации баллов учащихся.
Как осмыслить свой результат, если он, например, равен 570 или 650 баллам? Как отнести его к категории плохих или хороших результатов на столь широком диапазоне баллов? Другое дело, если результат испытуемого составляет 5 или 6 баллов по девятибалльной шкале. Поэтому к растянутым шкалам обычно обращаются профессиональные тестовые службы для массового тестирования в образовании, когда большое число испытуемых требует повышения дифференцирующей способности шкалы.
В России при шкалировании данных ЕГЭ была выбрана стобалльная шкала, в которую переводятся оценки выпускников. Конечно, стобалльная шкала - это своего рода компромисс между потребностью в хорошем дифференцирующем эффекте шкалы из-за значительного числа тестируемых во всех регионах и постепенным переходом от пятибалльной шкалы, существовавшей на протяжении многих лет в России, к более растянутым шкалам.
4. Шкалирование результатов тестирования на основе теории IRT
Построение шкалы с помощью современной теории тестов. Рассмотренные в предыдущем разделе шкалы позволяют сопоставить результаты тестирования и служат удобной формой их интерпретации, но они не повышают уровень измерений в силу того, что используют статистический аппарат классической теории тестов. Порядковая шкала сырых баллов испытуемых переходит в порядковую шкалу производных стандартизированных показателей, не позволяющих интерпретировать разность результатов двух испытуемых, выполнявших один и тот же тест. Зарубежные исследования конца 80-х гг. XX в. показали возможность построения интервальной шкалы результатов педагогических измерений в том случае, если для создания теста и шкалирования результатов его выполнения используется теория IRT .
Условно процесс шкалирования в IRT можно подразделить на три этапа. Первый предполагает построение шкалы логитов для латентного параметра подготовленности испытуемых, второй - шкалы логитов для оценок латентного параметра трудности заданий. Третий этап позволяет свести две шкалы в общую шкалу стандартных оценок для обоих латентных параметров.
Связь шкалы логитов и шкалы Гуттмана. Процедура построения шкалы латентных переменных связана с так называемым шкалированием по Гуттману ( Guiiman - type scale ), в которой задания отбираются в порядке нарастания их трудности по определенным, тщательно структурированным элементам содержания дисциплины. Отличительной особенностью шкалы Гуттмана является существование стойкого кумулятивного эффекта, означающего, что любой испытуемый с правильной структурой знаний, справившийся с j -м заданием, может наверняка успешно выполнить все предыдущие, более легкие задания теста. В понимании Гуттмана совершенная шкала существует в том случае, если по последнему правильному ответу испытуемого можно воспроизвести все его ответы на более легкие задания теста.
Конечно, стойкий кумулятивный эффект наблюдается далеко не всегда. В основном он характерен для заданий, довольно тесно связанных по содержанию. Для иллюстрации идей Гуттмана в англоязычной методической литературе популярен следующий пример заданий на умножение:
Он вполне ясно, хотя и довольно упрощенно, показывает, как реализуется эффект кумулятивности на практике. Действительно, если испытуемый умеет умножать на четырехзначное число, то он тем более справится с умножением на трех-, двух- и однозначные числа.
Шкалирование на основе теории IRT в определенной степени преодолевает ограниченность предположении шкалы Гуттмана, поскольку является вероятностной версией и отражает сущность тестовых процессов, неизбежно связанных с ошибками. измерения. Согласно моделям IRT о правильном выполнении любого задания испытуемым, можно прогнозировать успешность лишь в том слунае, если эта вероятность близка к единице.
Преимущества и проблемы шкалирования по теории IRT . Инвариантность оценок параметров испытуемых относительно трудности заданий теста, достигаемая благодаря, возможностям IRT , позволяет реализовать эффект специфической объективности, который способствует Повышению точности оценок параметра подготовленности учащихся. Благодаря единой шкале интервального типа в IRT разности оценок латентных параметров испытуемых приобретают вполне интерпретируемый смысл, поскольку их можно считать мерой отличия в подготовленности испытуемых по предмету. Таким образом, теория IRT повышает возможности педагогической интерпретации шкалированных баллов, учащихся. С ее помощью можно сопоставить приращения в обученности учащихся и повысить надежность их оценок по тесту.
Однако реализовать преимущества теории IRT довольно сложно. Для этого необходимо обеспечить выполнение ряда условий ее применимости, без которых эффект инвариантности не имеет места. В частности нужно обеспечить конструирование теста на основе теории 1 RT , подтвердить соответствие эмпирических данных тестирования требованиям моделей измерения или удалить неподходящие данные по результатам выполнения теста. Необходимо также обеспечить нормальный характер распределения сырых баллов учащихся, оценок трудности заданий теста, ошибок измерения и реализовать требование локальной независимости отдельных заданий теста. Немало проблем вызывает расходимость итерационных процессов, работающих в методе максимального правдоподобия при переходе от начальных оценок к наиболее эффективным оценкам параметров испытуемых и трудности заданий теста. Поэтому теория IRT в шкалировании используется далеко не всегда, только в случаях массового тестирования для принятия административно-управленческих решений в образовании, когда есть смысл тратить силы на разработку и применение теста.
Преобразования шкалы логитов. Поскольку оценки параметров подготовленности учащихся и трудности заданий теста в шкале логитов обычно лежат в интервале (-5; 5) и имеют несколько знаков после запятой, они малопригодны для сообщения испытуемым без приведения к целому неотрицательному виду. Поэтому необходимы линейные преобразования оценок в другую, более удобную для сообщения результатов шкалу подобно тому, как это происходит с z -оценками.
Сначала все значения параметров умножают на один и тот же множитель для перевода результатов в область целых чисел и округляют результат, до целых. Затем переносят все значения параметров на множество положительных чисел путем прибавления некоторой константы, определяющей новую точку отсчета на шкале, для того чтобы избавиться от отрицательных оценок параметра подготовленности θ. Примеры таких преобразований приведены в специальной литературе по шкалированию результатов педагогических измерений.
5. Шкалирование в критериально-ориентированном тестировании
Виды шкал в критериально -ориентированном тестировании . Виды шкал в критериально-ориентированном тестировании выбираются в зависимости от предназначения теста. Если тесты используются для оценки степени освоения содержательной области (domain - referenced tests ), отображение которой в тесте условно можно принять за 100%, то каждый балл учащегося показывает процент освоенного содержания. Процесс шкалирования осуществляется достаточно просто балл, набранный учащимся, делят на максимально возможный балл по тесту и полученную величину умножают на 100 %. Упорядочение найденных результатов и их нанесение на ось позволяют построить шкалу, каждая точка которой соответствует проценту усвоенного содержания для учащегося или группы учеников.
В другом случае, когда критериально-ориентированный тест применяется для деления тестируемых на две или несколько групп с помощью порогового (критериального) балла (mastery test ), строится номинальная шкала. Например, подобное деление происходит при аттестации: в одну группу попадают аттестованные, а в другую - не аттестованные учащиеся, как не выполнившие запланированный процент заданий теста. Основная трудность при таком шкалировании заключается в установлении порогового бапла для отсечения группы учащихся, не показавшей достаточного владения содержанием теста.
Методы выбора критериального балла. Для установления порогового балла используются три метода. В первом случае балл устанавливается экспертным путем, априорно, на основе анализа целостного содержания теста. Во втором случае эксперты выбирают пороговый балл на основе анализа.содержания тестовых заданий и присвоения им априорных оценок трудности, с помощью которых выделяется критерий отбора в группу аттестованных учащихся. В третьем случае для определения порогового балла анализируются эмпирические данные по результатам апробации теста на репрезентативной выборке учащихся, и используется метод контрастных групп.
Для получения валидного значения критериального балла третьим методом прежде всего необходимо Провести предварительное тестирование на близком по содержанию входном претесте или отобрать группу экспертов, хорошо представляющих, подготовленность тестируемой выборки учащихся. По результатам претеста или экспертизы из группы учащихся выделяются две контрастные подгруппы: заведомо не готовых к тесту самых слабых - 27 % и 27 % самых сильных, хорошо подготовленных к тестированию. В совокупности получаются две контрастные по подготовленности выборки учеников. Затем каждой подгруппе (слабой и сильной) выдается критериально-ориентированный тест, распределение баллов по которому строится на одном графике отдельно для слабых и сильных учащихся (сглаженные кривые - рис. 34, экспериментальные кривые - рис. 35).
Рис. .34. Сглаженные частотные распределения баллов по тесту для контрастных подгрупп
Рис; 35. Эмпирические частотные распределения баллов по тесту для контрастных подгрупп
После проведения тестирования на репрезентативной выборке учащихся и построения частотных распределений для контрастных групп устанавливается критериальный балл в точке, соответствующей на горизонтальной оси пересечению кривых распределения баллов. Эта точка пересечения, спроецированная на рис. 35 на горизонтальную ось, наиболее четко разделяет группы не аттестованных и аттестованных учащихся, поскольку в ней наблюдается наименьший процент ошибочных решений - одновременно минимизируется число учащихся, обладающих достаточно высокой подготовкой, но попавших в группу не аттестованных (часть кривой А слева от вертикальной прямой) и число неподготовленных учеников, ошибочно отнесенных к категории прошедших за пороговый балл (часть кривой В справа от вертикальной прямой). Полученный пороговый балл обладает наибольшей достоверностью по сравнению с его аналогами, определенными экспертными методами.
Уровневые шкалы, совмещающие нормативно-ориентированный и критериально-ориентированный подходы. Для получения надежных и обоснованных результатов итоговой аттестации выпускников учебных заведений тестовый балл иногда дополняют развернутой содержательной интерпретацией, описывающей характеристики уровня подготовки учащегося в терминах освоенных элементов содержания.
Такие шкалы, позволяющие совместить интерпретацию оценки испытуемого по отношению к результатам остальных тестируемых и к уровням освоения содержания, выделенным по критериальному принципу, получили название уровневых. Пример уровневой шкалы приведен на рис. 36, на котором диапазоны тысячеб a лльной шкалы, выбранные гипотетически, соотносятся с уровнями подготовки.
рис. 36. пример уровневой шкалы
На рисунке выделен базовый и промежуточный уровни вместе с уровнем высокой компетентности. Для построения уровневой шкалы обычно шкалируют результаты репрезентативной группы учащихся в рамках нормативно-ориентированного подхода и строят стандартизованную шкалу тестовых баллов. Затем на шкале выделяют диапазоны и выявляют совокупности содержательных элементов, освоенных учащимися в каждом диапазоне, дополняя детальным описанием освоенных знаний и умений.
Упрошенная трактовка рейтинговой шкалы. В российской системе высшего и среднего образования нет устоявшихся определений, позволяющих однозначно определить рейтинговый, балл учащегося. В основном под ним понимают накопленный балл, полученный в результате простого или взвешенного суммирования оценок в порядковых шкалах, которые строятся на основе субъективного выставления и учета баллов учащегося в соответствии с различными уровнями учебной деятельности, временными промежутками в обучении или уровнями усвоения. Нередко к сумативным оценкам, характеризующим успеваемость, прибавляют поощрительные баллы за своевременную: сдачу заданий, активность на занятиях, хорошую посещаемость и т.д.
Такая упрощенная трактовка, далекая от педагогических измерений, таит в себе, по меньшей мере, две серьезные ошибки: во-первых, операция суммирования является недопустимой на порядковом уровне измерений и, во-вторых, происходит бессмысленное объединение баллов по различным переменным, что исключает возможность какой-либо корректной интерпретации результатов подобного объединения. Вполне возможна ситуация, когда в. сумме баллов, накопленной учащимся за определенный период обучения, будут доминировать оценки по второстепенным переменным, не имеющим заметного отношения к целям образования.
Таким образом, за видимой простотой операции получения рейтингового балла скрывается серьезная опасность: по результатам обучения могут быть признаны лучшими те учащиеся, которые не обладают творческим мышлением, но вовремя сдают домашние задания, не пропускают уроков и не нарушают дисциплины в классе.
Обращение к рейтинговой шкале в связке с контрольными заданиями для модулей, построенным на деятельностной основе в русле идей модульного обучения, немного повышает корректность приведенной выше упрощенной трактовки. По крайней мере выделение модулей происходит на содержательной основе и позволяет накапливать оценки уровней усвоения конкретных предметных знаний, что способствует обоснованной интерпретации суммарной оценки.
В целом рейтинговые баллы при корректном подходе к их подсчету и интерпретации могут оказать позитивное влияние на контрольно-оценочную систему в образовании. Они способствуют систематической работе учащихся, снижают роль случайности при сдаче экзаменов и снимают нервное напряжение во время экзаменов благодаря заблаговременному накоплению оценок результатов обучения.
Корректный подход к построению рейтинговых шкал на основе теорий педагогических измерений. Для корректного построения рейтинговых шкал необходимо выполнять ряд условий. В зарубежной литературе к ним относят:
Концептуальное выделение переменных измерения;
Использование тестов с высокой содержательной и конструктной валидностью для получения баллов учащихся по каждой переменной;
Интеграцию результатов по отдельным шкалам (количественного характера) в единую рейтинговую шкалу с использованием весовых коэффициентов, определенных с помощью регрессионного анализа и методов выравнивания шкал для тестов различной длины при последующем объединении взвешенных количественных баллов по отдельным шкалам.
В целом необходимо отметить, что построение рейтинговых шкал требует от учителя определенной методической подготовки, наличия тестов и систематической работы по корректному построению отдельных шкал. При этом повышается нагрузка педагога, поэтому обманчивая простота рейтингования на деле при правильном подходе оборачивается значительными трудозатратами: Под вопросом остается общий эффект, поскольку пока неясно, оправданны ли такие затраты энергии со стороны педагогов или нет.
Вскоре после создания новой методики ее распространяют только для исследовательских целей. Это условие должно быть ясно указано в руководстве, и, соответственно, применение этой методики должно быть ограничено только кругом лиц, участвующих в накоплении банка данных по этой методике и не использующих ее для вынесения отдельных выводов без параллельного использования других надежных методик.
Обязанностью автора и издателя диагностических методов является их проверка и повторная стандартизация, проводимые так часто, как это требуется, чтобы предотвратить их старение. Быстрота, с которой методика устаревает, очень различна и зависит от ее содержания. Сертифицированные психодиагностические методики и их основные части нельзя печатать в газете, журнале или популярной брошюре ни в целях описания, ни для использования их при самооценке. Исключение составляют устаревшие тесты достижений, задания этих тестов можно публиковать в специальных брошюрах для тренировки учащихся в выполнении подобных тестов.
Исключения , касающиеся тестов достижений и методов экспертной оценки, формулируются следующим образом.
1. Сертифицированные тесты достижений, разработанные в центрах, аккредитованных органами народного образования, могут использоваться педагогами как для оперативного, так и для аттестационного контроля уровня знаний. Любой педагог может самостоятельно разработать тест достижений, но использовать его он может только для оперативного контроля за уровнем знаний своих учеников.
2. Методы экспертной оценки личностных качеств учащихся могут использоваться любым педагогом, но их результаты могут иметь применение только в оперативной педагогической работе с данными учащимися и не могут иметь аттестационного значения, т. е. передаваться другим лицам и организациям.
4. Принцип обеспечения суверенных прав личности
Вопрос, возникающий в особенности в связи с использованием личностных тестов, касается посягательства на тайну личности. Это сложный вопрос, поскольку о сущности некоторых тестов, раскрывающих эмоциональные и мотивационные особенности, а также установки личности, человеку не сообщается и он может проявить такие черты в ходе тестирования, которые для него самого нежелательны, не осознавая, что он это делает.
Основной этический принцип в данном случае гласит, что человек не должен подвергаться какому-либо обследованию обманным путем. Это значит, что человек перед обследованием должен быть предупрежден о том, кто будет иметь доступ к результатам обследования и какие решения могут быть им приняты. В том случае, если обследованию подвергаются несовершеннолетние дети, такое предупреждение должны совершенно официально получить родители.
Поясним здесь, что проинформированный о целях и общем смысле обследования (но, конечно, не о содержании тестовых заданий) испытуемый получает следующие возможности :
1) психологически мобилизоваться для его наилучшего выполнения;
2) отказаться от обследования, осознавая при этом, от каких возможностей он отказывается в случае положительных результатов обследования;
3) не формулировать своего отказа в явной форме, но применить собственную тактику выполнения методики, которая, с его точки зрения, позволяет ему скрыть истинную информацию о себе.
Данный этический принцип, который охраняет право индивида отказываться от участия в обследовании и, следовательно, защищает тайну его личности, осложняет работу психолога и повышает требования к его квалификации. При правильных взаимоотношениях и взаимном уважении психолога и обследуемого число отказов от участия в диагностировании может быть сведено к незначительному числу.
5. Принцип объективности
Обследование должно быть абсолютно беспристрастным. На его исполнителя не должны оказывать влияние общие впечатления о личности обследуемого: симпатии или, наоборот, антипатии, равно как и собственное состояние или настроение.
К сожалению, этот принцип слишком часто нарушается лицами, не имеющими специальной подготовки для проведения психодиагностических обследований и не обладающими необходимыми элементами самоуважения в своем профессиональном самосознании и практическими навыками корректного, доброжелательно-нейтрального общения с испытуемым. Например, доброжелательное отношение к испытуемому ни в коем случае не может выразиться в появлении подсказок и других форм прямой помощи, искажающей результаты. Кроме того, любые ошибки испытуемого, которые говорят о том, что испытуемый просто не понял инструкции к тесту, должны быть тут же скорректированы.
6. Принцип конфиденциальности
Вся информация, получаемая в процессе обследования, должна быть строго конфиденциальной: она должна быть доступна только для тех, для кого она предназначена.
В отличие от предыдущей проблемы в данном случае вопрос состоит о том, кому и в какой форме психолог может сообщать информацию по результатам обследования. Один из ответов на этот вопрос вытекает из принципа 5: можно сообщать информацию тем лицам, о которых был предупрежден испытуемый. Ну, а что же это все-таки за люди? Имеет ли право сам испытуемый получать эти сведения? Или это должны делать родители обследованного ребенка? Если сообщать родителям ученика результаты тестирования, то как это делать?
Психолог должен обеспечить такое преподнесение информации, чтобы родители осознавали свою личную ответственность за возможные невысокие результаты их ребенка по тестам, а не видели в этом лишь вину ребенка, которого за это можно и нужно наказывать. Но если ребенок не был предупрежден о том, что результаты по тесту узнают учителя и родители, то психолог вообще не имеет права сообщать их ни тем ни другим.
Особые ситуации возникают, когда диагностические результаты запрашиваются новыми людьми, как, например, в тех случаях, когда будущий наниматель или колледж просят представить им данные тестового обследования индивида, проведенного в школе. В таких случаях требуется получить согласие индивида на передачу данных. Это же относится и к обследованию в клинике или консультации, а также к тестированию, осуществленному с исследовательскими целями.
Другая проблема относится к сохранению диагностических данных в учреждениях. В случаях, когда данные получены либо для длительного использования в интересах индивида, либо для научных целей, для предотвращения неправильного их применения от психолога категорически требуется обеспечить строгий контроль за доступом любых лиц к этим данным, в том числе учителей и школьной администрации. Психолог обязан сообщать информацию по этим тестам по специальному запросу, отвечая на те вопросы, которые ему задает при этом педагог или директор школы. Требование конфиденциальности психологической информации может нарушаться только в тех случаях, когда нераскрытие диагностических данных представляет опасность для обследуемого индивида или для общества.
Применительно к обследованию детей на психолого-педагогических консультациях (комиссиях) в целях выявления недостатков развития следует отметить, что школа получает общее заключение об итогах исследования, но официальные данные о результатах выполнения примененных тестов могут быть переданы только с согласия самого обследованного, его родителей или представляющих его лиц (например, опекунов). Положение о конфиденциальности диагностической информации введено, в частности, в проект Закона Российской Федерации «Об образовании лиц с ограниченными возможностями здоровья».
7. Принцип психопрофилактического изложения результатов
В последнее время все шире во многих странах распространяется следующий этический норматив: испытуемый также должен иметь возможность комментировать содержание своих результатов и в случае необходимости разъяснять или исправлять фактическую информацию. Очевидно, что в этом случае мы получаем как минимум, два серьезных производных требования :
1) при сообщении результатов самому испытуемому должны быть соблюдены соответствующие меры предосторожности, направленные против их неправильного использования, неверной интерпретации или возможного появления невротически-депрессивных реакций или обострения депрессивного состояния (т. е. результат должен быть преподнесен по возможности в ободряющем, не травмирующем психику и самооценку контексте);
2) если испытуемый настаивает на том, чтобы переделать тестовое задание, психолог должен иметь наготове запасной вариант практически эквивалентной методики (ряд профессиональных методик специально имеют так называемые параллельные формы), чтобы убедить самого испытуемого, что ему предоставлен дополнительный шанс, с одной стороны, и что результаты первого тестирования были достаточно достоверны, с другой стороны.
В тех случаях, когда школьному психологу заведомо известно, что данные тестирования могут быть использованы родителями или учителями школьника как дополнительный инструмент в конфронтации с ним, которая носит психотравмирующий характер для ребенка, он должен преподносить свою информацию в форме, снижающей риск обострения подобной конфронтации.
Если учитель не запрашивает какой-то информации о ребенке, а психолог владеет этой информацией, но опасается, что эта информация приведет к ухудшению положения ребенка в классе, то психолог имеет право вообще не сообщать эту информацию учителю. Во всех своих профессиональных действиях психолог следует главному императиву своего этического кодекса «Не повреди!». И знание об этом должно сделать понятным для всех, почему психолог ограничивает распространение психодиагностической информации: он делает так не ради сохранения этой информации в тайне, а ради благополучия, психического и физического здоровья всех людей, а в школе – прежде всего ради детей. Но поскольку вся деятельность педагога также должна быть подчинена этому высшему этическому приоритету, то для продуктивного сотрудничества психолога и педагога в школе существуют все необходимые объективные предпосылки.
ЛЕКЦИЯ № 18. Психологический диагноз
Психологический диагноз (от греч. – «распознание») (ПД) – конечный результат деятельности психолога, направленный на выяснение сущности индивидуально-психологических особенностей личности с целью оценки их актуального состояния, прогноза дальнейшего развития и разработки рекомендаций, определяемых задачей психодиагностического обследования.
Предмет психологического диагноза (ПД) – установление индивидуально-психологических различий в норме и в патологии. Важнейшим элементом психологического диагноза является выяснение в каждом отдельном случае того, почему данные проявления обнаруживаются в поведении обследуемого, каковы их причины и следствия. По мере обогащения психологического знания этиологический элемент в ПД, вероятно, не будет иметь столь существенного значения, как в настоящее время, во всяком случае в текущей, практической работе. Сегодня, как правило, установив средствами психодиагностики те или иные индивидуально-психологические особенности, исследователь лишен возможности указать на их причины, место в структуре личности.
Такой уровень диагностики Л. С. Выготский назвал симптоматическим (или эмпирическим). Этот диагноз ограничивается констатацией определенных особенностей или симптомов, на основании которых непосредственно строятся практические выводы. Л. С. Выготский отмечает, что данный диагноз не является собственно научным, ибо установление симптомов никогда автоматически не приводит к диагнозу. Здесь работу психолога вполне можно заменить машинной обработкой данных.
Второй ступенью в развитии психологического диагноза является тиологический диагноз , учитывающий не только наличие определенных особенностей (симптомов), но и причины их возникновения.
Высший уровень – типологический диагноз , заключающийся в определении места и значения полученных данных в целостной, динамической картине личности. По словам Л. С. Выготского, диагноз всегда должен иметь в виду сложную структуру личности.
Диагноз неразрывно связан с прогнозом. По Л. С. Выготскому содержание прогноза и диагноза совпадает, но прогноз строится на умении настолько понять внутреннюю логику самодвижения процесса развития, что на основе прошлого и настоящего намечает путь развития. Рекомендуется разбивать прогноз на отдельные периоды и прибегать к длительным повторным наблюдениям. Развитие теории психологического диагноза в настоящее время является одной из наиболее важных задач психодиагностики.
1. Кодирование тестовых оценок
Кодирование тестовых оценок – элемент процедуры обработки данных психодиагностического обследования. Применяется в многопараметровых тестовых батареях , личностных опросниках, других методиках, предусматривающих представление результата в виде профильных оценок .
Кодирование тестовых оценок дает возможность более экономного и краткого описания совокупности шкальных оценок, профиля шкал, а также более четкой и быстрой разбивки материала на клинически (или характерологически) сходные группы. Кодирование тестовых оценок способствует выявлению в изучаемой группе наиболее общих характеристик и закономерностей. Формализация комплексных тестовых оценок является важным элементом создания банка данных и автоматизированной обработки данных обследования (см. компьютерная психодиагностика).
Примером кодирования тестовых оценок может служить процедура шифровки данных Миннесотского многоаспектного личностного опросника (MMPI). Код ММРI представляет собой обозначение профиля с последовательным перечислением шкал (начиная с самых высоких) с использованием их порядкового обозначения для шкал клинических и буквенного – для контрольных шкал. Существует несколько вариантов кодирования тестовых оценок профиля MMPI. Наиболее детальным является метод Г. Уэлша. Определение кода осуществляется в несколько этапов.
1. Все клинические шкалы перечисляются с использованием их цифрового обозначения слева направо в таком порядке, чтобы на первом месте находилась шкала, которая является в данном профиле ведущим пиком, а затем – остальные по мере снижения.
2. Обозначается высота шкал профиля в зависимости от выраженности результата в Т-баллах (табл. 13).
Таблица 13
Выражение результата по отдельным шкалам
Используя эти обозначения, можно отделить шкалы, расположенные в различных сигмах графика (сигмы разделяют на профиле десятки стандартных делений Т). Если между шкалами 2 и более сигм, то следует перечислить пропущенные сигмы. Например, если 2-я шкала находится выше 90 Т, а следующая 3-я – между 80 и 70, то следует записать 2"3" и т. д.
3. Шкалы, расположенные на одном уровне, записываются согласно порядковому номеру и подчеркиваются одной линией. Если разница показателей шкал в Т единицах не превышает 1 балла, то они также подчеркиваются, однако первой из них становится расположенная выше независимо от порядкового номера (21 – если 2-я имеет результат 68 Т, а 1-я – 67 Т).
4. Шкалы достоверности перечисляются начиная с наиболее высоко расположенной, между ними ставятся обозначения сигм.
Кроме описанного метода кодирования тестовых оценок, существует процедура, предложенная С. Хатуэем , при которой шкалы, расположенные между 46 и 54 Т, не записываются совсем, шкалы выше 70 Т отделяются знаком (С), а те, что расположены ниже 46 Т, – знаком (-). Контрольные шкалы (без шкалы «?») пишутся в порядке их расположения на графике в числовом выражении (в «сырых» баллах). При этом если результат по шкале превышает критические значения (см. контрольные шкалы), перед обозначением шкалы ставится косой крест, чтобы обратить внимание на недостоверность профиля.
Приведенные способы в соответствующей модификации могут быть перенесены на шифровку данных других методик, например тестов интеллекта. Приемы кодирования применимы в тех случаях, когда результаты отдельных субтестов выражаются в единых измерительных шкалах.
2. Шкальные оценки
Шкальные оценки – способ оценки результата теста путем установления его места на специальной шкале. Шкала содержит данные о внутригрупповых нормах выполнения данной методики в выборке стандартизации. Так, индивидуальные результаты выполнения заданий (первичные оценки испытуемых) сравниваются с данными в сопоставимой нормативной группе (например, результат, достигнутый учеником, сравнивается с показателями детей того же возраста или года обучения; результат исследования общих способностей взрослого сопоставляется со статистически обработанными показателями репрезентативной выборки лиц в заданных возрастных пределах).
Шкальные оценки в этом смысле имеют четко определенное количественное содержание и могут быть использованы при статистическом анализе. Одной из распространенных в психологической диагностике форм оценки результата теста путем соотнесения с групповыми данными является расчет процентилей .
Процентиль – процентная доля индивидов из выборки стандартизации, результат которых ниже данного первичного показателя. Шкалу процентилей можно рассматривать как совокупность ранговых градаций (см. ранговая корреляция) при числе рангов 100 и отсчете от 1-го ранга, соответствующего самому низкому результату; 50-й процентиль (PSQ) соответствует медиане (см. меры центральной тенденции) распределения результатов, Р›50 и Р‹50 соответственно представляют ранги результатов выше и ниже среднего уровня результата.
Процентили не следует смешивать с обычными процентными показателями. Последние представляют собой долю правильных решений из общего количества заданий теста в индивидуальном результате (см. первичные оценки). Ранги Р, и Р100 получают соответственно самый низкий и самый высокий результаты из наблюдавшихся в выборке, однако этим рангам могут соответствовать и далеко не нулевой (ни одного правильного решения) или абсолютный (все решения правильны) показатели (например, при общем количестве 120 заданий минимальный результат, соответствующий первому рангу, может составить 6 правильных решений, в то время как максимальный результат, соответствующий рангу Р100, будет составлять 95 правильно решенных заданий). Такая ситуация наблюдается, например, при оценке тестов скорости.
Основной недостаток процентильных шкал состоит в неравномерности единиц измерения. При нормальном распределении отдельные переменные тесно группируются в центре распределения и по мере удаления к краям рассеиваются. Поэтому равным частотам случаев вблизи центра соответствуют более короткие интервалы по оси абсцисс, расположенные по краям распределения оценок. Процентили показывают относительное положение каждого испытуемого в нормальной выборке, но не величину различий между результатами. Это создает некоторые неудобства в интерпретации индивидуальных результатов. Так, разница в первичных показателях, соответствующая интервалу Р70-Р80, может составить 10 баллов, а различие в количестве правильных решений в интервале рангов Р50-Р60 – лишь 1–3 балла.
Вместе с тем процентильные оценки обладают и рядом достоинств. Они легкодоступны пониманию пользователей психодиагностической информацией, универсальны по отношению к различным типам методик и легко рассчитываются.
Процентильные оценки не относятся к типичным шкальным показателям. Более широкое распространение в психодиагностике получили стандартные показатели , рассчитываемые на основе линейного и нелинейного преобразования первичных показателей, распределенных по нормальному или близкому к нормальному закону. При таком расчете проводится г-преобразование оценок (см. стандартизация, нормальное распределение). Чтобы определить 2-стандартный показатель, определяют разность между индивидуальным первичным результатом и средним значением для нормальной группы, а затем делят эту разность на а нормативной выборки. Полученная таким образом шкала z имеет среднюю точку М = 0, отрицательные значения обозначают результаты ниже среднего и убывают по мере удаления от нулевой точки; положительные значения обозначают, соответственно, результаты выше среднего. Единица измерения (масштаб) в шкале z равна 1а стандартного (единичного) нормального распределения.
Для преобразования полученного при стандартизации распределения первичных нормативных результатов в стандартную z-шкалу необходимо исследовать вопрос о характере эмпирического распределения и степени его согласованности с нормальным. Поскольку для большинства случаев значения показателей в распределении умещаются в пределах М ± 3σ, единицы измерения простой z-шкалы слишком велики. Для удобства оценивания применяется еще одно преобразование типа z = (x – ‹x›) / σ. Примером такой шкалы могут быть оценки тестовой батареи SAT(СЕЕВ) методики для оценки способности к обучению (см. тесты достижений). Эта r-шкала пересчитана таким образом, что средней точке соответствует значение 500, а σ = 100. Другим аналогичным примером является шкала Векслера для отдельных субтестов (см. шкала измерения интеллекта Векслера, где М = 10, σ = 3).
Наряду с определением места индивидуального результата в стандартном распределении групповых данных введение ШО направлено и на достижение другой важнейшей цели – обеспечение сопоставимости количественных результатов различных тестов, выраженных в стандартных шкалах, возможности их совместных интерпретаций, сведение оценок к единой системе.
В случае, если оба распределения оценок в сравниваемых методиках близки к нормальному, вопрос о сопоставимости оценок решается довольно просто (в любом нормальном распределении интервалам М ± nσ соответствует одинаковая частота случаев). Для обеспечения сопоставимости результатов, принадлежащих к рас-пределениям другой формы, применяются нелинейные преобразования , позволяющие придать распределению форму заданной теоретической кривой. В качестве такой кривой обычно используется нормальное распределение. Как и 160–150 в простом г-преобразовании, нормализованным стандартным показателям можно придать любую желаемую форму. К примеру, умножив такой нормализованный стандартный показатель на 10 и прибавив константу 50, получаем Т-показатель (см. стандартизация, миннесотский многоаспектный личностный опросник).
Примером нелинейно преобразованной в стандартную шкалу является и шкала станайнов (от англ. standart nine – «стандартная девятка»), где оценки принимают значения от 1 до 9, М = 5, σ=2.
Шкала станайнов получает все большее распространение, сочетая в себе достоинства стандартных шкальных показателей и простоту процентилей. Первичные показатели легко преобразуются в станайны. Для этого испытуемых ранжируют по возрастанию результатов и из них образуют группы с числом лиц, пропорциональным определенным частотам оценок в нормальном распределении тестовых результатов (табл. 14).
Таблица 14
Перевод первичных тестовых результатов в шкалу станайнов
При трансформации оценок в шкалу стэнов (от англ. standart ten – «стандартная десятка») проводится аналогичная процедура с той лишь разницей, что в основании этой шкалы лежат десять стандартных интервалов. Пусть в выборке стандартизации 200 человек, тогда по 8 (4 %) испытуемых, имеющих самые низкие и самые высокие оценки, будут отнесены к 1 и 9 станайнам соответственно. Процедура продолжается до заполнения всех интервалов шкалы. Соответствующие процентным градациям баллы по тесту, таким образом, будут упорядочены в шкалу, соответствующую стандартным частотам распределения результата.
Одной из наиболее распространенных форм шкальных оценок в тестах интеллекта является стандартный IQ-показатель (М = = 100, σ = 16). Эти параметры для стандартной шкалы оценок в психодиагностике выбраны в качестве эталонных. Существует довольно много шкал, опирающихся на стандартизацию; их оценки легко сводимы друг к другу. Шкалирование, в принципе, допустимо и желательно для широкого круга методик, применяемых в диагностических и исследовательских целях, в том числе и для методик, результаты которых выражены в качественных показателях. В этом случае для стандартизации можно использовать перевод номинативных шкал в ранговые (см. шкалы измерительные) или разработать дифференцированную систему количественных первичных оценок.
Следует отметить, что при всей простоте, наглядности шкальные показатели являются статистическими характеристиками, позволяющими лишь указать на место данного результата в выборке из множества аналогичных по характеру измерений. Шкальный показатель даже для традиционного психометрического инструмента является лишь одной из форм выражения показателей теста, используемых при интерпретации результатов обследования. Количественный анализ при этом должен всегда проводиться в комплексе с многосторонним качественным изучением причин возникновения данного тестового результата с учетом как комплекса сведений о личности испытуемого, так и данных о текущих условиях обследования, надежности и валидности методики. Гипертрофированные представления о возможности обоснованных заключений лишь по количественным оценкам приводили к многим ошибочным представлениям в теории и практике психологической диагностики.
3. Заключение
Заключение – документ о результатах тестирования, подготовленный психологом. 3аключение должно строиться на всех доступных для исследователя данных. Стандартной формы и правил написания заключения не существует, оно видоизменяется в зависимости от цели, ситуации, в которой проводится тестирование, адресата, теоретических установок и специализации психолога. Основное в подготовке заключения – его соответствие потребностям, интересам и уровню квалификации заказчика.
Заключение должно быть ориентировано на действия, которые необходимо предпринять в связи с тем или иным психологическим диагнозом (рекомендации по программам обучения, типа лечения или коррекции, выбора профессии и т. п.). В заключении должны быть показатели заметно низкие или высокие, а не близкие к средним. Основное содержание – это интерпретация и выводы, в отдельных случаях могут прилагаться протоколы обследования. Утверждения психолога должны отражать степень надежности каждого из приводимых фактов или выводов. Следует избегать специальной терминологии. Заключение эффективно лишь в том случае, когда применимо только к данному обследуемому, а не к людям этого возраста, пола, образования, страдающим тем же заболеванием и т. д. При подготовке заключения обязательно следует руководствоваться этическими нормами психодиагностики.
Психодиагностика . Конспект лекций / А.С. Лучинин. - Ростов н/Д.: Феникс, 2004 ... 3-х т. / Р.С. Немов. - М.: Владос, 1998. - Т.3: Психодиагностика . - 632 с. 24. Непомнящая Н.И. Психодиагностика личности: Теория и практика: учеб...
Показатели психометрических тестов, применяемых в практической психологии с целью постановки психологического диагноза, переводятся из первичных ("сырых" – не подвергнутых обработке) и полученных испытуемым по данному тесту в стандартные показатели, которые рассчитываются на основе линейного или нелинейного преобразования первичных показателей (при условии их распределения близкого к нормальному закону). При этом исторически сложилось наличие ряда наиболее распространённых стандартных показателей, связанных с особенностями преобразования, и отсюда – наличие "семейства" стандартных шкал, переводимых друг в друга и несводимых к Z-шкале.
Z-шкала образуется в результате центрирования, понимаемого как линейная трансформация величин признака, при которой средняя величина распределения становится равная нулю, и процедуры нормирования посредством среднеквадратических отклонений.
Z-шкала состоит из непрерывного континуума Z-показателей, определяемых в виде разности между индивидуальными первичными результатами и средним значением для генеральной совокупности, делённые на стандартное отклонение распределения.
где X – необработанные, сырые баллы,
– Среднее,
s – стандартное отклонение.
При этом полученная Z-шкала будет иметь среднюю точку M=0 и единицу измерения (масштаб) 1s стандартного (единичного) нормального распределения как показано на рисунке 2.
Z-показатель может принимать как положительные, так и отрицательные значения. Большинство случаев (99,72%) значения показателей уменьшаются в пределах -3
Разберём процедуру получения преобразованных стандартных показателей на ряде примеров:
Было проведено эмпирическое исследование уровня уверенности в себе (опросник Рейзаса – 0-90) на выборке учителей (50 человек) из различных школ г. Н. Новгорода. В результате первичной статистической обработки были получены результаты:
1) Распределение первичных результатов ("сырых баллов") по форме близко к нормальному распределению (после процедур группировки и анализа кривой распределения – полигона частот).
2) Вычислены характеристики для данной выборки –
Предлагается провести линейное преобразование и определить для различных шкал значение одного первичного результата X=45 ("сырой балл" одного из испытуемых).
1) Преобразование в Z-показатель производится по формуле:
где Z – стандартный Z-показатель;
X – первичный результат тестового измерения;
M x – средняя величина результатов выборки (в нашем случае медиана Me);
S x – стандартное отклонение для данной выборки. Найдите полученный показатель на Z-шкале (рисунок 2) и сделайте вывод о проявлении изучаемого признака у данного испытуемого.
2) Преобразование в T-шкалу для опросников Мак-Колла производится по уже известной формуле (Zp=A+bZ), подставляя вместо констант A = M = 50; b = s = 10 – полученные Мак-Коллом в результате нормализации эмпирических распределений собственных опросников, переведём результат испытуемого (X=45) в стандартные T-баллы по формуле:
Таким образом, результат – 25 T-баллов (стандартных баллов).
3) Преобразование в шкалу станайнов Гилфорда (англ. standard nine – стандартная девятка), где оценкам присваивают целые значения от 1 до 9, при M = 5, s = 2 производятся по формуле:
В данном случае результат испытуемого будет 1 станайн (т.к. полученный результат C = 0 попал в интервал 1-го станайна).
Данная C-шкала обладает таким замечательным свойством (см. рисунок 2), что в 1 и 9 станайны попадает по 4% испытуемых всей выборки, во 2 и 8 станайны – по 7%, и т.д. Таким образом, при ранжированном упорядочивании в сторону возрастания первичных тестовых результатов и условии их нормального (или близкому к нормальному) распределения первым 4% данных присваивается 1 станайн, последующим 7% данных – 2-ой станайн, следующим 12% данных – 3-й станайн и т.д., таким образом, данные будут упорядочены в шкалу, соответствующую стандартным частотам распределения результата.
4) Преобразование в шкалу стенов Кэттела (от англ. standard ten – стандартная десятка) для опросника 16PF, где оценкам присваивают целые значения от 1 до 10, при M = 5; s = 2 производят по формуле:
В данном случае результат испытуемого попадает в интервал 1-го стена.
В тестировании интеллекта используются нормализованные шкалы:
5) Шкала Векслера представленная IQ-стандартными баллами:
6) Шкала структуры интеллекта Амтхауэра по формуле:
С целью интерпретации данных для работников образования представляет интерес шкала Линерта:
7) Шкала школьных оценок Линерта:
Рис.2. Нормальная кривая и стандартные показатели.
РАЗДЕЛ 3
Психометрические требования к психодиагностической методике.
Объективность, валидность и надёжность – это психометрические требования, которым должен удовлетворять психодиагностическая методика.
Если объективность психологического теста связана с тем, что первичные показатели по тесту, их оценка и интерпретация не зависят от поведения и субъективных суждений экспериментатора и основана на стандартизации процедуры проведения, обработки и интерпретации психологического теста, то надёжность и валидность тестовой методики это характеристики самого психодиагностического инструмента, отражающие качество и эффективность.
Надёжность и валидность теста тесно связаны между собой, но наиболее часто практикующему психологу необходимо проводить проверку лишь одной составляющей для оценки применимости теста – его надёжности.
Z-показатель или стандартизированный показатель - этопоказатель, определяющий количество стандартных отклонений, на которое отклоняется полученный результат от среднего результата в нормативной выборке.
Шкала Z-оценок (стандартизированныйZ-показатель)
Шкала стандартных отклонений
Шкала стандартных отклонений в самом простом варианте представляет собой шкалу из трех уровней, каждый из которых соответствует определенной степени выраженности диагностируемого свойства. Дадим характеристику этих уровней.
· Первый уровень соответствует левой части распределения до одной сигмы и отражает низкуюстепеньвыраженности свойства. Все сырые оценки, которые попадают в данный диапазон, независимо от первичного значения, будут свидетельствовать о низкой выраженности диагностируемого параметра.
· Второй уровень шкалы соответствует диапазону от 1 сигмы слева до одной сигмы справа. В центре этого диапазона находится среднее значение по выборке. Данный уровень отражает среднюю степень выраженности свойства. Согласно функции нормального распределения этот уровень имеют 68, 27% испытуемых в нормативной выборке.
· Третий уровень, отражающий значительную выраженность исследуемого свойства, занимает диапазон от первой сигмы справа до правого конца кривой нормального распределения.
В простом варианте описанная шкала состоит из трех уровней, однако возможны варианты и с большим количеством градаций. Как правило, в этих вариантах первый и третий уровни разбиваются на дополнительные уровни в соответствии с интервалами стандартных отклонений.
Недостатки данной шкалы очевидны. Во-первых, шкала имеет небольшое количество градаций, что обусловливает потери диагностической информации. Во-вторых, данная шкала представляет собой, по сути, рейтинговую нормализованную шкалу. Это ограничивает возможности статистического анализа полученных результатов.
На основе значений Z-показателя составляется шкала Z-оценок. Дадим ее характеристику.
· Математически Z-показатель рассчитывается как отношение разности данной сырой оценки и средней оценки в нормативной группе к величине стандартного отклонения.
· Шкала Z-оценок включает 7 или 9 меток. По своей структуре она эквивалентна шкале стандартных отклонений.
· Название «Z-показатель» соответствует представлению данных в форме нормального распределения (Z-распределения).
· Метка в середине шкалы соответствует сырому среднему значению в популяции и принимает значение «0».
· Слева и справа от средней метки находятся равные интервалы, которые соответствуют интервалам 1, 2, 3 и 4 сигм (средних квадратичных отклонений).
· Метки справа имеют соответственно значения «1», «2», «3» и «4 (в случае, если добавляется интервал от 3 сигмы до 4 сигмы).
· Метки справа от среднего значения имеют соответствующие отрицательные значения от «-1» до «-3» или «-4».
Таким образом, шкала Z-оценок включает отрицательные и положительные значения, а также оценку «0». Такая структура шкалы создает трудности для последующего анализа и интерпретации полученных данных. В связи с этим на основе Z-показателя предложены более приемлемые варианты нормализации сырых значений. Одним из таких вариантов является преобразованныйZt-показатель.
Zt-показательпредставляет собой преобразованную Z-оценку.Zt-оценкавычисляется по формуле Zt = A+BxZ, где
А – среднее значение распределения преобразованных оценок,
В – стандартное отклонение преобразованного распределения,
символ «х» - знак умножения.
Из приведенной формулы следует, что Zt учитывает не только среднее значение и среднее квадратичное отклонение распределения сырых оценок, но также среднее значение и среднее квадратичное отклонение распределения уже нормализованных оценок. Преимущество такого преобразования Z-показателя состоит в том, что статистические параметры нормализованного распределения могут выбираться произвольно. В психометрии по общему согласию специалистов в качестве среднего значения нормализованного распределения было выбрано значение «50», а значение стандартного отклонения - «10». В этом случае Zt-показатель стал называться как «Т-балл».
Шкала Т-баллов – это шкала стандартизированных оценок, в которой каждая оценка рассчитывается по формуле:
T = 50+10х(сырая оценка – средняя сырая оценка)/стандартное отклонение распределения сырых оценок.
Т-баллы всегда принимают положительные значения и имеют нормальное распределение со средним значением «50» и стандартным отклонением «10». «Нормальные» оценки по шкале Т-баллов, свидетельствующие о средней выраженности диагностируемого свойства, соответствуют диапазону в пределах 2 стандартных отклонений, обычно от 30 до 70 Т-баллов.
Как и в случае шкалы Z-оценок, основные метки Т-шкалы в целом соответствуют меткам шкалы стандартных отклонений. Например, интервал Т-баллов соответствует интервалу [среднее значение…. одна сигма] по шкале стандартных отклонений слева, или интервалу по шкале Z-оценок.
Шкала Т-баллов удобнее для интерпретации по сравнению с предыдущими шкалами. По своей форме она представляет собой шкалу интервалов и имеет непрерывный характер. С другой стороны, следует помнить, что шкала Т-баллов по сути подобна шкале стандартных отклонений и в строгом смысле она не является шкалой интервалов. В ее конструкции приняты определенные условные допущения, функция которых заключается в обеспечении удобства восприятия и трактовки диагностических данных. Поэтому при интерпретации Т-баллов не стоит переоценивать численные значения нормализованных показателей. Например, если у одного испытуемого по диагностической шкале Т=55, а другого по этой же шкале Т=60, то это совсем не означает, что у первого диагностируемое свойство имеет меньшую выраженность, чем у второго. Оценка значений Т-баллов проводится по диапазонам, эквивалентным шкале стандартных отклонений. Еще раз отметим, что преимущество Т-баллов состоит в возможности более удобного и наглядного представления результатов, например, в виде графика.
Преобразование в шкалу Т-баллов нашло применение в ряде широко используемыхвклиникеопросников, например, Миннесотском мнгогофазном личностном опроснике (MMPI).
Основным недостатком преобразования Z-оценки в Zt-показатель является привязка оценки полученных диагностических результатов к нормативным данным, точнее говоря, к среднему значению и среднему квадратичному отклонению нормативной выборки. Поскольку получить полностью репрезентативную нормативную выборку крайне трудно, нормативные данные чаще всего отражают распределение диагностируемого свойства не в популяции в целом, а лишь в выборке испытуемых, взятой для проведения нормализации. Следует учитывать, что выборканормализации может значительно отличаться от популяции, представителем которой является данный конкретный испытуемый. В результате некорректного перевода первичных оценок в стандартизированныеможетзначительно снизиться валидность и достоверность полученных диагностических данных.
С целью устранения указанного выше недостатка предложены способы перевода в стандартизированные показатели, не зависящие от выборки стандартизации. Такой способ нормализации первичных оценок используется в технологии анализа тестовых заданий . В этой технологии нормализация сырых оценок осуществляется не на основе описательной статистики, а с помощью метода максимального правдоподобия с логарифмическимшкалированием.
Способ перевода в Т-баллы на основе теории анализа тестовых заданий показал достаточно высокую эффективность в ряде психодиагностических методик в клинике.
Стандартизация
– унификация, приведение к единым нормативам процедуры и оценок теста. Благодаря стандартизации методики достигается сопоставимость полученных результатов у разных испытуемых и появляется возможность выражения тестовых оценок в относительных к выборке стандартизации показателях.1) Стандартизация – обработка и регламентация процедуры проведения, унификация инструкции, бланков обследования, способов регистрации результатов, условий проведения обследования, характеристика контингентов испытуемых. Строгая периодичность процедуры обследования – обязательное условие обеспечения надежности теста и определения тестовых норм для оценивания результатов в обследования.
2) Стандартизация – преобразование нормальной шкалы оценок в новую шкалу, основанную не на количественных значениях изучаемого показателя, а на его относительном месте в распределении результатов в выборке испытуемых.
Этапы стандартизации
1 этап. Создание единообразной процедуры тестирования.
Она состоит из определения моментов диагностической ситуации.
· Условия тестирования (помещение, освещение и др. внешние факторы).
· Содержание инструкции и особенности ее предъявления (тон голоса, паузы, скорость речи и т.д.).
· Наличие стандартного стимульного материала (например, карты Роршаха).
· Временные ограничения выполнения данного теста.
· Стандартный бланк для выполнения данного теста.
· Учет влияния ситуационных факторов на процесс и результат тестирования.
· Учет влияния поведения диагноста на процесс и результат тестирования
· Учет влияния опыта испытуемого в тестировании.
2 этап. Создание единообразной оценки выполнения теста. С тандартной интерпретации полученных результатов и предварительной стандартной обработки. На этом этапе сравнивается полученный показатель с нормой выполнения этого теста для данного возраста.
3 этап. Определение норм выполнения теста. Нормы разрабатываются для различных возрастов, профессий, полов и т.д.
z-стандартный показатель
Наиболее распространенным преобразование первичных оценок являются центрирование и нормирование посредством среднеквадратических отклонений. Процедура нормирования заключается в переходе к другим единицам измерения. В качестве функции нормирования обычно выступает
Z-показатель (стандартный показатель), который выражает отклонение индивидуального результата Х в единицах, пропрорциональных стандартному отклонению.Более широкое распространение в психодиагностике получили стандартные показатели, рассчитываемые на основе линейного и нелинейного преобразования первичных показателей, распределенных по нормальному или близкому к нормальному закону. При таком расчете проводится z-преобразование оценок. Чтобы определить z-стандартный показатель, определяют разность между индивидуальным первичным результатом средним значением для нормальной группы, а затем делят эту разность на δ нормативной выборки.
Х – сырой балл (количество выполненных заданий)
Мх – средняя величина выполненных заданий по всей выборке
δ – среднеквадратичное отклонение (в зарубежной психологии SD)
Математик Карл Гаусс предложил функцию, описывающию нормальное распределение. График уравнения нормального распределения – симметричная унимодальная колоколообразная кривая (или
кривая нормального распределения ).Назовем среднее арифметическое Мх, а стандартное отклонение δ (сигма малая). При нормальном распределении все изучаемые величины находятся в пределах Мх ± 5 δ.
В пределах Мх ± δ находится 68,26 %, остальные 31,74 % расположены симметрично по 15,87
В пределах Мх ± 2 δ находится 95,44 %
А в пределах Мх ± 3 δ находится 99,72 %
ПРОЦЕНТИЛИ
Процентиль – процентная доля индивидов из выборки стандартизации, результат которых ниже данного первичного показателя. Шкалу процентилей можно рассматривать как совокупность ранговых градаций при числе рангов 100 и отсчете от 1-го ранга, соответствующего самому низкому результату;
50-й процентиль (Р 50 )соответствует медиане распределения результатов
Процентили не следует смешивать с обычными процентными показателями. Последние представляют собой долю правильных решений из общего количества заданий теста в индивидуальном результате. Ранги Р 1 и Р 100 получают соответственно самый низкий и самый высокий результаты из наблюдавшихся в выборке, однако этим рангам могут соответствовать и далеко не нулевой (ни одного правильного решения) или абсолютный (все решения правильны) показатели. Например, при общем количестве 120 заданий минимальный результат, соответствующий первому рангу, может составить 6 правильных решений, в то время как максимальный результат, соответствующий рангу Р 100 , будет составлять 95 правильно решенных заданий. Такая ситуация наблюдается, например, при оценке тестов скорости.
Основной недостаток процентильных шкал состоит в неравномерности единиц измерения. При нормальном распределении отдельные переменные тесно группируются в центре распределения и по мере удаления к краям рассеиваются. Поэтому равным частотам случаев вблизи центра соответствуют более короткие интервалы по оси абсцисс, расположенные по краям распределения оценок. Процентили показывают относительное положение каждого испытуемого в нормальной выборке, но не величину различий между результатами. Это создает некоторые неудобства в интерпретации индивидуальных результатов. Так, разница в первичных показателях, соответствующая интервалу Р 70 – Р 80, может составить 10баллов, а различие в количестве правильных решений в интервале рангов Р 50 – Р 60 , - лишь 1 – 3 балла.
Вместе с тем процентильные оценки обладают и рядом достоинств. Они легко доступны пониманию пользователей психодиагностической информацией, универсальны по отношению к различным типам методик и легко рассчитываются.Статистические нормы
А. Статистические нормы. Граничные значения на шкале тестовых баллов, образованные на основе частотного распределения тестовых баллов в выборке стандартизации. Как правило, эти граничные значения отделяют от выборки фиксированный процент испытуемых: (дециль), 25 (квартиль), 50 (медиана). При нормальном распределении статистическая норма описывается с помощью параметров (среднее плюс/минус сигма, или стандартное отклонение). Статистические нормы служат принятию «сравнительный решения» и не дают информации для принятии «нормативных решений»
Б. Возрастные нормы – частные варианты психодиагностических норм, собранные для детей разного возраста.
В. Критериальные нормы - диагностические нормы, в которых задано соответствие между тестовыми баллами по шкале измеряемого свойства и уровнем критериального показателя. В случае критериального поведения критериальные нормы указывают на вероятность появления критериального поведения при данном значении тестового балла.
Г. Школьные нормы разрабатываются на основе тесов школьных достижений или тестов школьных способностей.
Д. Профессиональный нормы. Устанавливаются на основе тестов для различных профессиональных групп.
Е. Локальные нормы . Устанавливаются для узких категорий людей, отличающихся наличием общего признака – возраста, пола, географического района, социоэкономического статуса.
Ж. Национальные нормы. Разрабатываются для представителей данной нации или страны в целом.
СТАНАЙНЫ
Примером нелинейного преобразованной в стандартную шкалу является и шкала станайнов (англ. standart nine – стандартная девятка), где оценки принимают значения от 1 до 9, М = 5, δ = 2
Шкала станайнов получает все большее распространение, сочетая в себе достоинства стандартных шкальных показателей и простоту процентилей. Первичные показатели легко преобразуются в станайны. Для этого испытуемых ранжируют по возрастанию результатов и из них образуют группы с числом лиц, пропорциональным определенным частотам оценок в нормальном распределении тестовых результатов.
СТЭНЫ
При трансформации оценок в шкалу стэнов (от англ. standsrt ten - стандартная десятка) проводится аналогичная процедура с той лишь разницей, что в основании этой шкалы лежат десять стандартных интервалов.