Основы теории педагогических заданий Часть первая. В редакции 2018 г.

 

Впервые опубликовано в журнале «Педагогические Измерения» №2 2006 г. (С. 26-62)

Вадим Аванесов

testolog@mail.ru

Аннотация

В статье излагаются основы теории педагогических заданий, разрабатываемой в рамках ранее опубликованного проекта общей теории педагогических измерений. Представлены элементы истории возникновения заданий, сформулирована система исходных определений, определены субъективные, интерсубъективные и объективные свойства педагогических заданий. Рассмотрены графики вероятности правильного ответа на различные задания теста, даны примеры графических образов заданий.

Ключевые слова: педагогическое задание, теория, качество и свойства заданий, оценка качества заданий.

 

Элементы истории педагогических заданий

В цикле работ по истории тестов уже отмечалось, что педагогические задания пришли к нам из глубины веков. Самый первый из сохранившихся источников - это учебник XYII в. до н.э., содержащий 84 задания по математике. Он был написан на куске древнего папируса длиною более пяти метров. Сейчас этот исторический памятник древнего педагогического творчества хранится в Британском музее.

В конце XIX века н.э. в российской печати обсуждался вопрос о введении экзаменов. В циркуляре по Санкт-Петербургскому учебному округу “О производстве испытаний зрелости без послаблений”, сообщалось, что во многих гимназиях испытания зрелости производятся крайне снисходительно, с весьма большими послаблениями. А это обстоятельство, в свою очередь, весьма неблагоприятно отзывается на всём ходе учебного дела, приучая воспитанников поверхностно относится к усвоению преподаваемых им наук, в надежде на ожидаемые послабления на испытаниях. В этом же циркуляре определён главный принцип определения содержания контрольных заданий: “не обременяя требованиями мелких и второстепенных подробностей… необходимо удостовериться в знании существенно-важного в каждом предмете».

Первая попытка научного обоснования качества заданий была сделана в начале XX-го века. Это произошло во Франции. Авторы первого теста, созданного для измерения интеллектуальных способностей детей, А. Бине и Т. Симон провели эмпирическую проверку заданий, которые предполагалось включить в их тест. Для оценки пригодности заданий авторы использовали два основных критерия:

1) эмпирическую меру трудности каждого задания, которую они определяли по доле или по проценту правильных ответов в группах детей разного возраста.

2) информацию о степени совпадения результатов теста с мнением преподавателей.

Для достижения сопоставимости данных и минимизации ошибок измерения, А. Бине и Т. Симон прилагали к тесту стандартную инструкцию по проведению тестирования. Интересен метод выявления дифференцирующей способности, заданий, которым пользовались эти авторы. Результаты ответов испытуемых, на каждое задание, представлялись в виде точек на плоскости, где по оси абсцисс откладывались значения возраста, а по оси ординат - доли правильных ответов, в каждой возрастной группе. Усредняя полученные точки и затем, соединяя их линией, они получали графический образ (ломаную линию), на основании которого делали выводы об адекватности задания для того или иного возраста. Позже этим же методом успешно воспользовалась Марион Ричардсон.


 

Определение задания

Научное определение понятия есть форма концентрированного выражения знаний. Концентрация знаний о заданиях происходит постепенно, по мере выявления их системных свойств. Условиями эффективности создаваемых понятий становится их адекватность сущности предмета и возникновение понятийной системы.

В статье продолжаются попытки создания системы понятий педагогической теории измерений. Ключевое место в ней занимают авторская концепция трёх главных понятий – задания в тестовой форме, тестовое задние и педагогический тест, как системы заданий возрастающей трудности. Общим для всех перечисленных понятий является понятие «педагогическое задание».

Задание – это педагогическая форма, нацеленная на достижение усвоения учащимися запланированных результатов. Каждое задание создано для определенной цели, а потому, можно сказать иначе, имеет свою миссию и свои характеристики.

Главная миссия заданий - побуждение учащихся к активной самообразовательной деятельности, развитие учащихся, овладение необходимыми знаниями, умениями и навыками до требуемого уровня компетенции. Нельзя одну и ту же систему заданий использовать для разных целей, и особенно, для разных уровней подготовленности испытуемых, так как это повышает погрешность и снижает качество измерений.

Задания могут создаваться для интеллектуально одаренных или менее способных учащихся, для самостоятельной работы и компьютерной самопроверки уровня подготовленности, для проведения аттестации или профессионального отбора. В зависимости от цели, некоторые характеристики заданий могут меняться, в особенности их содержание и уровень трудности.

Педагогическое задание можно также рассматривать как средство обучения и воспитания, способствующее развитию личности, повышению качества знаний, а также повышению эффективности педагогического труда. Развитие личности требует разработки системы интеллектуальных, предметно-дисциплинарных (языковых, математических, физических и т.п.), эстетических, трудовых и прочих заданий, отвечающих требованиям новых образовательных технологий. За единицу учебного времени такие задания дают наибольший прирост знаний, умений и навыков у наибольшего количества учащихся. Именно в вопросах производства и применения эффективных заданий российское образование стало отставать от общемировых тенденций. Сейчас это одно из самых слабых мест российской педагогики и педагогической науки. Отсюда – актуальность проблемы эффективности и качества педагогических заданий.


 

Синергетическая функция заданий

Задания выполняют синергетическую функцию объединения усилий педагога и обучаемого. Метафорически задание можно представить как мост между учащимся и педагогом, открывающим возможности для их взаимодействия, объединяющим их усилия в учебном и воспитательном процессе. Если держаться и далее упомянутой метафоры, то качество и эффективность учебного процесса в существенной мере зависти от качества моста. Чем лучше задания, тем (при прочих равных условиях) прочнее и весомыми могут быть результаты взаимодействия.

Лекционные и прочие формы педагогической деятельности представляют только одну, преподавательскую сторону педагогического процесса. Выполнение заданий учащимися (студентами) – вторая, не менее, а часто и более важная сторона педагогического процесса.

Основные виды заданий - задача, вопрос, упражнение, творческое задание, задание в тестовой форме, тестовое задание, учебная проблема, курсовая и дипломная работа, а также другие.

В наши дни, наряду с задачами и развивающими вопросами, заметную роль приобрели задания в тестовой форме. Обучение без заданий не эффективно, а нередко и вредно, потому что отучает от мышления в учебной работе. Отсутствие или недостаток опыта самостоятельного решения учебных задач переносится и на неумение выпускника школы или вуза успешно решать затем и жизненные задачи. В подлинной образовательной деятельности ведущая роль отводится не только педагогу, но и заданиям. А потому в педагогике не случайно говорят о задачном подходе к организации обучения. Как писал один из сторонников этого подхода Г.С. Костюк, понять новый учебный объект - значит решить какую-то, пусть маленькую, познавательную задачу.

С этой точки зрения, сложившаяся практика планирования, учёта и оценки педагогического труда по количеству проведенных лекций или уроков, без реального учёта количества и качества выполненных учащимися заданий, представляет собой анахронизм, тормозящий улучшение образовательной деятельности.


 

Оценки качества педагогических заданий

Измерение качества педагогических заданий означает процесс выявления их существенных свойств и отображение уровня проявления каждого свойства численными эквивалентами, адекватными количеству проявляемого свойства. Оценки обычно выражаются с помощью качественных и сравнительных понятий. Примеры качественных понятий - лёгкое или трудное задание, отлично подготовленный испытуемый, слабо знающий студент, отличный ответ и т.п. Специфическим условием измерений в общественных науках является формирование выборки испытуемых, обладающих, по предположению, интересующим свойством. Соответственно, в матрицу результатов измерения включаются только те испытуемые, у кого такое свойство есть, хотя бы в самом минимальном количестве.

Эффективное задание позволяет учащимся за единицу учебного времени добиться большего обучающего эффекта, сравнительно с другими педагогическими заданиями: быстрее усвоить новые элементы знаний, правильнее их применять, улучшить воспроизведение знаний, повысить точность изложения и др.


 

Теория педагогических заданий

Теория педагогических заданий призвана создать логически непротиворечивую систему научного знания, дающую целостный взгляд на существенные свойства заданий, независимо от конкретной учебной дисциплины и от уровня обучения. Следовательно, это может быть часть общей теории педагогической науки.

Предмет этой теории составляет:

- система определений;

- объективные и субъективные свойства (характеристики) заданий;

- формы заданий, общие для всех учебных дисциплин;

- инвариантные принципы отбора содержания заданий, независимо от учебных дисциплин;

- вопросы оценки эффективности и качества самих заданий.


 

Классификация заданий

В зависимости от цели применения, все педагогические задания можно разделить на несколько классов.

Для обучения применяются упражнения, задачи, вопросы, задания в тестовой форме и др.

Для контроля и самоконтроля знаний умений и навыков используются зачетные, экзаменационные и тестовые задания, задачи, вопросы, а также выпускные учебные работы.

Для создания гомогенного теста используется система тестовых заданий равномерно возрастающей трудности, имеющая общее содержание, приемлемую корреляционную и факторную структуру.

Аттестационные задания применяются для аттестации выпускников школ, средних профессиональных заведений и вузов. Трудность аттестационных заданий устанавливается на таком уровне, который точно соответствует квоте аттестуемых выпускников. В России сейчас обычно аттестуется положительно свыше 95 -100 % выпускников школ. Следовательно, уровень трудности аттестационных заданий заведомо устанавливается низким. А там, где он формально оказывается выше, ради достижения принятой квоты успешно окончивших школу систематически используются различные формы искажения результатов. Так было в ЕГЭ, до тех пока лор, пока сами организаторы не сделали задания предельно лёгкими.

Расхожее среди чиновников название «аттестационный тест» имеет только внешнее отношение к тесту, где некоторые задания иногда представляются в тестовой форме. В таких «тестах» содержание всех заданий преимущественно лёгкое, а потому настоящих тестов, включая трудные задания, там нет.

Для приёма в вузы должны применяться тесты, различающихся по содержанию и по уровню трудности, в зависимости от требований самого вуза. Также неоднократно отмечалось, что единый подход к комплектованию студентов множества различных вузов вреден и опасен своими отрицательными последствиями. Проблема профессионального отбора и классификации абитуриентов по направлениям подготовки одним методом не решается. Т. н. ЕГЭ и КИМы эту проблему не только не решают, но и заметно ухудшают условия нормальной работы вузов.

Задания для оценки профессиональной компетентности называются сертификационными. Сертификационные тесты, если таковые действительно могут быть созданы, предполагаются различающимися по трудности. Испытуемый сертифицируется в зависимости от содержания и от уровня трудности успешно выполняемых заданий.


 

Принципы теории педагогических заданий

Взаимосвязанные принципы контроля знаний и педагогических измерений уже излагались в работах автора. Напомним, что это были принципы объективности; справедливости и гласности; научности и эффективности; систематичности и всесторонности; связи контроля с образованием, обучением и воспитанием. Опираясь на эти общие принципы, можно попытаться сформулировать принципы теории педагогических заданий.

 

Обновление заданий

Хотя некоторым педагогическим заданиям уже тысячи лет, массовое применение тестовых методов и новых образовательных технологий требует специально организованного процесса создания, творческого обновления, улучшения и постоянной замены заданий. По сути, нужно ставить вопрос о создании своеобразной культуры непрерывного изменения и замены заданий в тестовых системах, открытия новых самоокупаемых методических центров, способных качественно производить и эффективно применять тестовые задания в практике. Это предмет специально-научной методологии, теории, методики и практики педагогических измерений.

Учитывая важную роль принципов в деятельности педагогов, это предложение можно сформулировать как принцип обновления заданий, применение которого позволит получить измерения повышенной точности и преодолеть пропасть, возникшую между практикой проведения ЕГЭ и подлинной наукой о педагогических измерениях.


 

Соответствие уровня трудности заданий уровню подготовленности испытуемых

Задание называется соответственным (адекватным) для испытуемого, если испытуемый может его решить, с какой-либо вероятностью успеха. Наиболее адекватными заданиями для организации адаптивного тестирования являются задания с примерно 50 % вероятностью удачного решения конкретным испытуемым. Абсолютно нерешаемое задание не адекватно уровню подготовленности испытуемых.

В процессе обработки данных тестовые матрицы часто приводят к пригодному для композиции теста виду. Это означает, что из матрицы удаляют все задания, не соответствующие испытуемым по уровню их подготовленности, а потому не подходящие для создания теста.

Отсюда следует важный принцип педагогического измерения – уровни трудности заданий теста должны соответствовать уровням подготовленности испытуемых. Этот принцип обладает симметрией: уровни подготовленности испытуемых также должны соответствовать уровням трудности заданий теста. Вот почему его можно кратко назвать принципом соответствия. Нарушение этого принципа повышает ошибки измерения. Чем больше несоответствие, тем ниже точность педагогических измерений. Принцип соответствия удачно дополняет систему принципов, сформулированную ранее.

Не соответствующими бывают не только некоторые задания, но и, как это ни покажется странным, некоторые испытуемые. Это те, чья подготовка выходит за пределы измеряемого уровня подготовленности. Везде можно найти таких «обучающихся», которые, фактически не учась, только делают вид, что учатся. Вследствие этого они оказываются не подготовленными к тестированию. По хорошему тесту, состоящему из заданий с несколькими правильными ответами, они получают нули, а это и есть показатель их несоответствия содержанию, и возможно, и цели теста. В процессе тестирования выясняется, что тест создан не для них.

Не соответствующими для данного теста оказываются также и те испытуемые, кто на все задания отвечает правильно, но в отведенное для всех время мог бы решить, возможно, и другие задания, если бы таковые были в тесте. Для них нужен другой тест, повышенного уровня трудности.


 

Технологичность педагогических заданий

В российском образовании используются задания преимущественно в нетестовой форме. Большинство из них - это вопросы, задачи и упражнения, которые в тестовой культуре не используются. Нередко вопросы и задачи называются тестами. Но ответы на них иногда бывают столь многословными, что для выявления истинности требуются большие затраты интеллектуальной энергии. В то время как технологичная методика тестирования предполагает четкую и быструю дифференцируемость правильного ответа от неправильного. В этом смысле традиционные вопросы и ответы не технологичны; их не рекомендуется включать в тест. То же относится и к задачам, имеющим громоздкие формулировки.

Технологичность заданий определяется как вариант композиции, которая позволяет вести процесс тестирования с помощью технических средств, и делать это точно, быстро, экономично и объективно. Задания становятся технологичными, если их содержание правильно и быстро понимается испытуемыми, и если форма заданий способствует процессу компьютеризации тестирования.

Главные препятствия для достижения технологичности тестового задания - это обилие слов, потребность в устных разъяснениях, расплывчатость и неопределенность формы, плохая формулировка содержания, отсутствие необходимой техники и программ. Использование автоматизированного обучения и контроля на основе достижений новой педагогики, педагогических измерений, психологии, кибернетики и компьютерной техники, взятых в разумном соотношении, образует основу именно того, что сейчас называют педагогической технологией.

В этой технологии самым узким местом оказалось неумение делать задания, без чего нельзя сейчас ни объективно проверить знания, ни создать современную автоматизированную контрольно-обучающую программу, ни наладить такую форму организации учебного процесса, как дистанционное обучение. В идеальном случае учебная программа, каждый ее модуль сопровождаются заданиями в тестовой форме. Однако путь к достижению этого идеала лежит через трудности создания качественных тестовых заданий. Технологичность заданий обеспечивается правильностью формы заданий и корректностью содержания заданий. С точки зрения содержания, тестовое задание оценивается по конкретности и абстрактности, глубине, обобщенности и полноте содержания.

Задания становятся технологичными, если их содержание точно и быстро понимается испытуемыми, и если форма заданий способствует процессу компьютеризации тестирования. Именно использование автоматизированного обучения и контроля на основе достижений новой педагогики, педагогических измерений, психологии, кибернетики и компьютерной техники, взятое в разумном соотношении, образует основу того, что сейчас называют педагогической технологией.

 

Соизмеримость шкал для оценки испытуемых и заданий

Для проведения педагогических измерений очень полезной оказалась идея L.L. Thurstone, а вслед за ним и G.Rasch, логарифмического преобразования исходных шкал трудности заданий и уровня подготовленности испытуемых. В итоге получается одна общая логарифмическая шкала, в которой стало удобно сравнивать испытуемых и задания. Что открывает дорогу к адаптивному обучению и адаптивному тестовому контролю. Результаты такого логарифмирования представлены в табл. 1 этой статьи.

 

Содержательная и логическая правильность заданий

В педагогической практике заметное распространение получают различные формы заданий и задач, нарушающие данный принцип. В основном это задачи с неправильными условиями.


 

Проблема логического обоснования качества педагогических заданий

Логика определяется как наука о формах правильного мышления. Форма мысли – это то, что остаётся после отвлечения от содержания мысли. Одна из важнейших задач логики - критика мышления и его результатов. Основная задача логики – вскрывать алогизмы, учить давать точные определения, отделять правильно сформулированные утверждения от неправильно сформулированных утверждений. В тестовом процессе логика помогает правильно формулировать задания, находить в них формальные ошибки, делать задания понятными для испытуемых.

В теории и методике педагогических измерений основными объектами логической рефлексии являются система определений этой теории, логические принципы разработки заданий и ответов к заданиям.

Логической основой формы задания с выбором одного правильного ответа из нескольких предлагаемых является закон исключенного третьего, впервые сформулированный Аристотелем. Выбор правильного ответа даёт истинное суждение, а выбор неправильного - ложное суждение. Третьего не дано. Из этого закона следует методическое правило: в каждом задании с выбором одного ответа правильный ответ должен быть, что придаёт однозначность замыслу самого задания и не допускает противоречивых толкований у испытуемых.

Огромное количество примеров алогичных заданий и ответов к ним давали необученные производители т.н. «КИМов ЕГЭ». Посмотрим алогичный пример, вместе с принятой там пунктуацией и инструкцией.

Обвести кружком номер правильного ответа:

  1. ВОССТАНИЕ СПАРТАКА БЫЛО

•а) в 73 г. до н.э.

•б) в 73 г. н.э.

•в) в 1973г.

•г) пока еще не было.

Ранее автором был сформулирован принцип логической однородности подбора дистракторов в задании. Пример нарушения общей логики задания и данного принципа можно увидеть ответах к заданию:

2. ПРИЕХАВ В СТОЛИЦУ

1) всех поражает шум и суета;

2) у вас не будет времени сходить в музей;

3) идите сразу на Красную площадь;

4) у меня было прекрасное настроение.

Задание в тестовой форме полезно рассматривать как высказывание. Высказывание – грамматически правильное предложение, взятое вместе с выражаемым им смыслом. Смысл, выражаемый грамматически правильным предложением, называется суждением. Тестовое задание формулируется из точных терминов и никогда не содержит метафоры, лишние слова и лишние знаки. Пример метафорично сформулированного задания в открытой форме:

3. ОТЦОМ РУССКОЙ ФИЗИОЛОГИИ СЧИТАЕТСЯ _________.

В логике выделяется четыре основные свойства правильного мышления: это определенность, правильность, непротиворечивость, обоснованность. Применительно к тестовой теории и практике эти общие свойства правильного мышления приобретают функции специфических регулятивов тестовой деятельности, вследствие чего приобретают значение принципов. Рассмотрим их подробнее.


 

Определенность содержания теста

Определенность содержания теста образует предмет педагогического измерения. В случае гомогенного теста возникает вопрос об уверенности в том, что все задания теста проверяют знания именно по определенной учебной дисциплине, а не по какой-то другой. Например, в физических расчетах используется немало математических знаний и потому в систему физического знания обычно включается та математика, которая используется при решении физических задач. Неудача в математических расчетах порождает неудачу при ответах на задания физического теста. Отрицательный балл ставится, соответственно, за незнание физики, хотя испытуемый допустил ошибки математического толка.

Если в тест включено много таких заданий, которые для правильного решения требуют не столько физических знаний, сколько умений выполнять усложненные расчеты, то это может быть примером неточно определенного содержания теста по физике. Чем меньше пересечение знаний одной учебной дисциплины со знаниями другой, тем определеннее выражается в тесте содержание каждой учебной дисциплины. Во всяком тестовом задании заранее определяется, что однозначно считается ответом на задание, с какой степенью полноты должен быть правильный ответ.

В гетерогенном тесте это достигается посредством явного выделения заданий одной учебной дисциплины в отдельную шкалу. При этом нередко встречаются задания, хорошо работающие не только на одну, но и на две, три и даже на большее число шкал.

Задания по математике для обычной средней школы нередко перенасыщены интеллектуальным компонентом. Этот компонент затрудняет освоение математических знаний и операций, что составляет суть этой учебной дисциплины, и отвращает от математики миллионы детей, недостаточно подготовленных для решения заданий с интеллектуальным компонентом.

Включение большого числа заданий, имеющих повышенное интеллектуальное содержащие, в учебники (якобы из благих побуждений - дети ведь должны учиться мыслить – кто с этой демагогией может спорить!) на самом деле уже много лет фактически убивает математическое образование в стране.

Между тем, интеллектуальное развитие детей – творческая задача сама по себе. Она не решается включением трудных заданий в учебники или примитивным принуждением. Интеллектуальный компонент нужно включать в задания только для тех, кто может и хочет их решать. Отсюда становится понятной важная проблема культурной организации измеряемого уровневого образования, которую не следует путать с профильным образованием учащихся средней общеобразовательной школы.


 

Логическая правильность

Немалую роль в формировании теста как системы играет требование логической правильности заданий, включенных в тест. Логическая правильность в формулировании тестовых заданий достигается при соблюдении условий:

-соразмерности объема определяющего понятия объему определяемого. Известные в литературе примеры (2):

4. ЧЕТЫРЕХУГОЛЬНИК, У КОТОРОГО ВСЕ СТОРОНЫ РАВНЫ, НАЗЫВАЕТСЯ __________.

5. ПРЯМОУГОЛЬНИК, У КОТОРОГО ВСЕ СТОРОНЫ РАВНЫ, НАЗЫВАЕТСЯ __________.

В случае, если на четвертое задание дается ответ "квадрат", допускается несоразмерность: объем определяющего понятия – «четырехугольник» - больше объема определяемого понятия «квадрат»;

Ещё пример задания с ромбом:

Обвести кружком номера всех правильных ответов:

6. РОМБ – ЭТО

    1) квадрат            3) прямоугольник

    2) четырёхугольник    4)параллелограмм

5) параллелограмм c равными сторонами


 

Непротиворечивость содержания заданий

Непротиворечивость содержания заданий требует, чтобы относительно одной и той же мысли не возникали суждения, одновременно утверждающие и отрицающие её. Недопустимо существование двух исключающих ответов на одно и то же задание теста.

Если испытуемым дается инструкция: “Обведите кружком номер правильного ответа”, а затем в одном из ответов утверждается, что правильного ответа нет, либо все ответы правильные, то это пример алогичного мышления.

В заданиях с выбором одного или нескольких ответов иногда встречаются ответы, вообще не связанные с содержанием задания. Такие ответы довольно легко распознаются испытуемыми как ошибочные, и потому весь тест оказывается неэффективным. Для повышения эффективности дистракторы вместе с заданием проходят апробацию на типичной выборке испытуемых. И если обнаружатся такие ответы к заданиям, которые испытуемые вообще не выбирают, то все такие ответы удаляются, как не выполняющие функцию дистрактора, призванного отвлечь внимание незнающих испытуемых от правильного ответа. Неэффективные дистракторы вредны для теста; так как они снижают точность измерений.


 

Обоснованность

Обоснованность содержания тестовых заданий означает наличие у них оснований истинности. Обоснованность связана с аргументами, которые могут быть приведены в пользу той или другой формулировки заданий теста.

При отсутствии доказательных аргументов в пользу правильности сформулированного задания оно в тест не включается, ни под каким предлогом. То же происходит, если в процессе экспертного обсуждения возникает хотя бы один контраргумент, или допускается условие, при котором данное утверждение может оказаться двусмысленным или ложным.

Идея обоснованности содержания теста тесно переплетается с принципом содержательной правильности тестовых заданий. В тест включается только то содержание учебной дисциплины, которое является объективно истинным и что поддается некоторой рациональной аргументации. Соответственно, спорные точки зрения, вполне приемлемые в науке, не рекомендуется включать в содержание тестовых заданий для учащихся.

Неточно или двусмысленно сформулированные задания, порождающие несколько правильных или условно правильных ответов тоже не включаются в тест. Отсюда возникает необходимость вводить дополнительные условия истинности, что удлиняет само задание и усложняет его семантику.

Неистинность содержания тестовых заданий отличается от некорректности их формулировки. Неистинность, как отмечалось выше, определяется соответствующим ответом, в то время как некорректно сформулированное задание может продуцировать ответы как правильные, так и неправильные, а то и вызывать недоумение. Некорректность формулировки обычно выясняется в процессе обсуждения содержания заданий с опытными педагогами-экспертами.

 

Матрица для анализа качества педагогических заданий

Для выявления интерсубъективных и объективных свойств заданий используются матрицы тестовых результатов.

Матрицей называется математическая форма упорядочения и хранения информации, имеющей некоторую общность содержания. Применительно к тестовой технологии, матрица является формой организации, сохранения, представления и обработки данных. Тестовые результаты мыслятся в форме матриц. По строкам матриц обычно всегда располагаются фамилии испытуемых или их номера, по столбцам – номера заданий. Вопрос – а почему нельзя иначе, разве в математике не всё равно, что писать по строкам, а что - по столбцам? В математике всё равно, а в тестовой литературе матрицы принято располагать именно так. Такого рода конвенция удобна для коммуникации, при интерпретации исходных, промежуточных и конечных результатов.

Исходная тестовая матрица обычно имеет вид прямоугольной матрицы. Из соображений достоверности статистических выводов, число (N) испытуемых (строк) всегда должно быть больше числа (m) заданий (столбцов); чем больше отношение , тем выводы о характеристиках испытуемых более обоснованы. Часто ставится вопрос о минимально допустимом соотношении этих двух чисел для обоснования качества тестовых заданий. Хорошо, если число строк в десять раз превышает количество заданий. Минимальное допустимое соотношение числа испытуемых к числу заданий – не менее пяти.

Элементы тестовых матриц – это числа, отражающие оценки каждого испытуемого, полученные ими по каждому заданию. Если обозначить символом i номер испытуемого, а j номер задания, то общий элемент матрицы хij трансформируется в уникальное, получая номер строки и номер столбца. Этим номерам ставятся в соответствие получаемые баллы. Например, если первый по счету испытуемый ответил неправильно по восьмому заданию теста, то элемент с именем х18 принимается равным нулю. Это записывается так: х18 = 0.

G.Rasch рассматривал все значения тестовых матриц, как итог противоборства каждого испытуемого i, с предлагаемыми ему заданиями (j). Исход каждого противоборства оценивается баллом xij.  Значение балла зависит от соотношения уровня подготовленности тестируемого и уровня трудности задания, при условии заранее принятого правила (конвенции) - что считать «победой» испытуемого или задания. В упрощенном подходе допускаются только два исхода. Первый – правильное решение, что означает победу испытуемого; он получает один балл на пересечении номера своей строки и номера задания. Второй исход – ошибочное выполнение задания. Тогда в том же пересечении записывается нуль баллов. Каждая строка представляет результаты одного испытуемого, каждый столбец – результаты ответов множества испытуемых по одному только заданию данного номера.

Матрицы исходных тестовых результатов обычно готовятся в электронных таблицах «Excel». Для работ вузовского или школьного уровня «Excel» удобен тем, что это часть стандартного компьютерного офиса, а потому практически доступен. Кроме того, данные этих таблиц принимают все, или почти все профессионально сделанные пакеты многомерной статистики, что сильно облегчает работу над созданием качественного теста.

Исходя из дидактических соображений, здесь используется ранее приводившийся пример небольшой учебной матрицы тестовых результатов, в которой всего 13 испытуемых и 10 заданий. Что делает саму матрицу и операции с её элементами обозримыми на одной странице. Поскольку это дидактический пример, вопрос о достоверности выборочных статистик в таких случаях не ставится.

Таблица 1 представляет собой расширенный вариант ранее использованного примера. Для того, чтобы понять смысл последующей части работы, здесь придётся воспроизвести небольшую часть понятийного и формального аппарата. Напомним, что первый столбец таблицы представляет номера испытуемых, с 1 по 13. Общее число испытуемых в данном примере равно 13 (N =13). Вектор-столбцы Х1,  Х2, Х3, …Х10 представляют ответы испытуемых по десяти заданиям.

Пример матрицы тестовых результатов приводится в табл. 1.   Табл.1.

№№

Х1

Х2

Х3

Х4

Х5

Х6

Х7

Х8

Х9

Х10

Yi

pi

qi

pi/qi

lnpi/qi

1.

1   

1

1

0

1

1

1

1

1

1

9

.90

.10

9

2.20

2.

1

1

0

1

1

1

1

1

1

0

8

.80

.20

4

1.39

3.

1

1

1

1

0

1

1

0

1

0

7

.70

.30

2.33

.85

4.

1

1

1

1

0

1

0

1

0

0

6

.60

.40

1.50

.40

5.

1

1

1

1

1

1

0

0

0

0

6

.60

.40

1.50

.40

6.

1

1

1

1

0

0

1

0

0

0

5

.50

.50

1.00

0

7.

1

1

0

1

1

0

1

0

0

0

5

.50

.50

1.00

0

8.

1

1

1

1

1

0

0

0

0

0

5

.50

.50

1.00

0

9.

1

0

1

0

1

1

0

0

0

0

4

.40

.60

.66

-.42

10.

0

1

1

0

0

0

0

1

0

1

4

.40

.60

.66

-.42

11.

1

1

1

0

0

0

0

0

0

0

3

.30

.70

.43

-.84

12.

1

1

0

0

0

0

0

0

0

0

2

.20

.80

.25

-1.39

13.

1

0

0

0

0

0

0

0

0

0

1

.10

.90

.11

-2.21

Rj

12

11

9

7

6

6

5

4

3

2

65

       

Wj

1

2

4

6

7

7

8

9

10

11

         

pj

.923

.846

.692

.538

.462

.462

.385

.308

.231

.154

5

       

qj

.077

.154

.308

.462

.538

.538

.615

.692

.769

.846

         

pjqj

.071

.130

.213

.248

.248

.248

.236

.213

.178

.130

         

qj/pj

.083

.182

.445

.859

1.164

1.164

1.597

2.246

3.329

5.493

         

lnqj/pj

-2.489

-1.704

-.810

-.152

.152

.152

.468

.809

1.202

1.703

         
 

Сложение по строке даёт исходные тестовые баллы испытуемых (Yi), подлежащие далее шкалированию. Суммирование баллов испытуемых ΣYi дает число 65. Сложение по столбцам характеризуют задания. Чем больше правильных ответов на задание, тем легче оно оказывается для данной группы испытуемых. Внизу таблицы:

Rj  - число правильных ответов, полученных в заданиях;

Wj - указывает на число неправильных ответов испытуемых в каждом задании.

pj – доля правильных ответов по заданию j; определяется по формуле  pj = ; В результате деления получается нормированный, по числу испытуемых, статистический показатель - доля правильных ответов (рj) на задание j. Значения рj приводятся в третьей строке нижней части таблицы.

Деление Wj на N даёт долю неправильных ответов qi;  qj = Wj/ N

Все значения долей qj представлены в четвертой строке нижней части таблицы.

Сумма по строке pi, и значение среднего арифметического балла совпадают, или иначе, Σpi = М. Потому что pj является не только долей правильных ответов, но и принимается в качестве средней арифметической для каждого задания. Данное равенство отражает сумму всех элементов матрицы тестовых заданий, но только в случае, если для получения Yi используются одинаковые весовые коэффициенты (cj) значимости заданий. Например, когда в тесте все cj равны, например, единице. Все упомянутые расчеты делаются с целью проверить - какие задания в тестовой форме могут стать тестовыми заданиями, а какие – не могут стать таковыми.

До начала сложения из матрицы удаляются неподходящие задания и испытуемые, после чего производится два упорядочения – по вектору–столбцу Y и по вектору-строке R. Одно касается испытуемых. В первой строке представляются баллы самого успешного испытуемого, во второй – менее успешного и т.д., по нисходящей сумме баллов. Последнюю строку матрицы занимает наименее подготовленный испытуемый. Другое упорядочение проводится для заданий. На первом месте ставится самое легкое задание (по нему имеется наибольшее число правильных ответов), на втором – менее легкое, и так далее, до последнего, самого трудного задания. Такое построение строк и столбцов удобно.

Далее нам понадобятся значения последнего столбца табл. 1. Ln pi/qi. -  значения натурального логарифма отношения доли правильно решённых заданий pi, испытуемым под номером i, к доле неправильно решённых заданий qi. Это очень интересная мера, позволяющая провести логарифмическое шкалирование исходных тестовых баллов испытуемых. Средняя арифметическая в логарифмической шкале равна нулю, стандартное отклонение равно единице.

Значения логарифмированных тестовых баллов полезно обозначить, вслед за классиком американской тестологии F.M.Lord, как θ, где θ означает переменную величину, называемую им по-английски ability. Это стало общим названием измеряемой латентной величины. На русском языке для педагогических измерений правильнее дать другое название - уровень подготовленности испытуемых. Конкретные значения испытуемых дополняются подстрочными символами θi0, где подстрочный индекс i обозначает номер испытуемого, а нуль обозначает, что это исходное (нулевое) значение латентного тестового балла испытуемого, подлежащего дальнейшему уточнению. Таким образом, θi0 = ln pi/qi. Все эти значения, для каждого испытуемого, напомним, приводятся в последнем столбце табл. 1.

Симметрично, в Rasch Measurement вводится логарифмическая мера трудности заданий β. Исходные значения логарифма значения уровня трудности каждого задания βj0 = ln qj/pj читатель найдёт в последней строке табл. 1.


 

Свойства и показатели качества педагогических заданий

Качество педагогических заданий формируется составом и структурой, т.е. системой его существенных свойств. Состав задания образуют его элементы: номер задания, инструкция по выполнению задания, текст задания (слова, термины, предложения), формульный аппарат, рисунки, графики, чертежи, схемы, правильные ответы и неправильные (дистракторы).

Качество заданий представляется системой показателей различного уровня сложности. Элементарный показатель назовём индикатором. В педагогическом тесте в качестве индикатора выступает тестовое задание. Система индикаторов образует показатель. В педагогических измерениях одним из показателей является тест.

Главные показатели качества заданий – меры трудности, коэффициенты вариации, корреляции. Представляют интерес и множество производных показателей – крутизна графика задания, значения факторных нагрузок, информационная функция задания и другие.

В литературе иногда пишут о «надёжности и валидности» заданий, но эти две традиционные категории теории педагогических измерений правильнее применять к характеристике тестовых результатов в целом, а не к отдельным индикаторам (заданиям) теста.

Структуру задания образуют взаимосвязь и расположение перечисленных выше элементов задания.


 

Свойства заданий

Свойства заданий можно разделить на три класса: субъективные, интерсубъективные и объективные.

 

Привлекательность задания

Как и образование в целом, хорошее педагогическое задание отвечает познавательным потребностям обучающихся. Для того чтобы задание стало интересным, оно должно быть абсолютно понятным, соответствовать уровню интеллектуального развития и индивидуальному уровню подготовленности по учебному предмету. Ввиду естественных индивидуальных различий в восприятии и понимании информации, легко прийти к важному для практики выводу: нет заданий одинаково подходящих для всех. В идеально организованном учебном процессе для каждого учащегося, в каждый текущий момент учебного процесса, надо искать своё задание, развивающее личность. А в массовом учебном процессе это можно сделать только посредством системы адаптивного компьютеризованного обучения и контроля, в котором применяются тестовые технологии. Альтернативы этому подходу нет. Отсюда его актуальность


 

Трудоёмкость задания

Главное отличие задачи от тестовых заданий состоит во времени решения, в количестве вычислений и в количестве умственных действий. Увлечение только задачами или только тестовыми заданиями формирует соответствующий тип мышления. На самом деле нужны различные формы обучения и контроля знаний. В качественно организованном учебном процессе применение учебных форм координирует педагог. Насильственное внедрение тестовых форм в качестве единственных или главных в обучении или контроле наносит вред, особенно для становления мыслительной, речевой и письменной культуры личности.

Одна из причин образовательного кризиса заключается в отсутствии учёта средней трудоёмкости заданий, даваемых учащимся и студентам. Каждый преподаватель требует выполнения своих заданий и не может принять во внимание, что и другие преподаватели тоже дают задания. Обычное отсутствие реальной координации по количеству и трудоёмкости ежедневно предлагаемых заданий приводит к учебной перегрузке, и как следствие, к регулярному отказу от выполнения заданий по причине нехватки времени.

К числу показателей трудоёмкости заданий можно отнести число выполняемых умственных операций и время выполнения. В практике тестирования стремятся подбирать такие задания, чтобы цепочка умственных действий была  не длинной, число вычислений было небольшим, а затраты времени – оказались минимальными.


 

Трудность задания

Трудность задания определяется как статистическая мера его решаемости испытуемыми. Чем больше решаемость, тем легче задание. Доля правильных ответов является самой популярной мерой для определения трудности задания. Трудность заданий может определяться, например, определяться умозрительно, на основе предполагаемого числа и характера умственных операций, необходимых для успешного выполнения заданий. Поскольку этим чаще занимаются психологи, то в этой науке часто используется другое понятие - сложность задания.

Знание объективированной меры трудности является обязательным требованием к тестовым заданиям. Эту мысль можно усилить, связав с ранее изложенным материалом: если неизвестна эмпирическая мера трудности задания, то это задание - не тестовое. В лучшем случае оно будет заданием в тестовой форме, в худшем – ни тем, ни другим. Мера трудности задания определяется после эмпирической апробации заданий, составления матриц и подсчета долей неправильных ответов qj .в каждом задании (j). В качестве показателя трудности в классической теории тестов долго использовалась статистика рj.

G. Rasch в числе первых обратил внимание на смысловую ошибочность показателя рj: увеличение значения pj указывает не на возрастание трудности, а, наоборот, на возрастание лёгкости, если можно применить такое слово. Поэтому в последние годы с показателем трудности заданий стали ассоциировать противоположную статистику - долю неправильных ответов (qj). Если тест - система заданий равномерно возрастающей трудности, то в нем нет места заданиям с неизвестной мерой трудности.

В западной статистической теории тестов многие годы рассматривались только эмпирические показатели трудности. В новых вариантах психологических и педагогических теорий тестов больше внимание стало уделяться характеру умственной деятельности учащихся в процессе выполнения тестовых заданий различных форм.

Таким образом, требование известной трудности оказывается важнейшим системообразующим признаком тестового задания. Если тест -это система параллельных заданий равномерно возрастающей трудности, то в нем нет места заданиям с неизвестной или неадекватной мерой трудности. В настоящем тесте, сделанном по новым технологиям, нет места и заданиям одинаковой трудности.

Для удобства в разработке теста и в интерпретации результатов тестирования F.Baker разделил задания на пять примерных уровней трудности :

Табл. 2

ГРАДАЦИИ ТРУДНОСТИ

МЕРА

Очень трудные задания

βj >2,6

Трудные задания

1,5<βj <2,59

Задания среднего уровня трудности

-1,49 <β j <1,49

Легкие задания

-2,59 <β j <- 1,5

Очень легкие задания

βj < -2,6

 

На основе этой уровневой классификации, задания табл. 1 можно оценить следующим образом. Первое задание очень лёгкое, второе и третье - лёгкие, четвертое, пятое, шестое, седьмое и восьмое - задания среднего уровня трудности. Девятое и десятое – трудные задания. Очень трудных заданий в табл. 1 нет.

Нередко встречаются задания, ответы на которые оцениваются сплошными нулями (предельно трудные) или единицами (предельно лёгкие) задания. Те и другие образуют отдельную группу т.н. «нетестовых» заданий.

Нетестовые задания – это те, которые имеют нетестовую форму. Но нетестовые задания могут иметь тестовую форму, но не быть тестовыми по существу, то есть не отвечать содержательным и другим требованиям к тестовым заданиям. Форма – условие необходимое, но недостаточное. Нетестовые задания не дифференцируют подготовленных испытуемых от неподготовленных. В своих крайних проявлениях, это такие задания, на которые либо все испытуемые отвечают правильно, либо все отвечают неправильно. Все такие задания удаляются из матрицы, как не соответствующие уровню подготовленности испытуемого контингента. По ответам на слишком лёгкие, или слишком трудные задания все испытуемые выглядят одинаково – удачливыми или неудачливыми испытуемыми. Иначе говоря, нетестовые задания в силу ошибочной композиции – неправильно подобранного содержания или ошибок в форме, а возможно, того и другого, не дифференцируют испытуемых по уровню подготовленности.

В этой связи полезно немного перефразировать и слегка уточнить первую часть определения педагогического теста: «тест – это система фасетных заданий равномерно возрастающей трудности; таких заданий, которые обладают свойством дифференцировать испытуемых по уровню их подготовленности». В тесте нет места заданиям, не обладающих отмеченными свойствами.

Если слабо подготовленные испытуемые отвечают на задание так же правильно, как и хорошо подготовленные испытуемые, то это может означать высокую угадываемость правильных ответов или наличие каких-то других дефектов - задания или организации тестирования. В любом случае итогом становится низкое дифференцирующее свойство задания. Такие задания являются плохим индикатором и не подходят для создания теста. Эти задания - не тестовые.

В процессе обработки данных тестовые матрицы часто приводят к пригодному для композиции теста виду. Это означает, что из матрицы удаляют всё не подходящее для этого задания.


 

Одномерность задания

Содержательная сторона одномерности может быть описана словами «предметная чистота содержания задания». Под этим понимается отсутствие пересечения содержания задания одной учебной дисциплины с содержанием другой, что определяется экспертно. Отсутствие пересечения порождает признак гомогенности теста. Это означает, что тест измеряет именно то знание, которое задумано измерять, и ничего сверх того. Это, казалось бы, естественное требование для гомогенного (одномерного) теста очень часто нарушается из-за стремления увязать проверку знаний по отдельной дисциплине со стремлением проверить что-то еще. Неоднократное нарушение этого требования приводит к ухудшению качества измерения, к потере так называемого свойства одномерности теста или шкалы, если держать в уме еще одно очень короткое определение: тест - это шкала. Одномерность определяется также статистическими методами.


 

Вариация тестовых баллов.

Вариация баллов является пятым свойством и, одновременно, обязательным требованием к тестовым заданиям. Мера вариации (дисперсии) тестовых баллов – это показатель. Значения дисперсий, рассчитанные по этой формуле для каждого задания, представлены в пятой строке нижней части примерной таблицы 1 тестовых результатов. Чем выше дисперсия, тем выше дифференцирующая способность задания. Для данных, представленных в дихотомической шкале один или ноль максимум дисперсии наблюдается при p=q = 0,5. В табл. 1, представлены значения pjqj  - дисперсии тестовых баллов по каждому заданию, для случаев использования оценок 1 и 0». Из этой строки видно, что для заданий, оцениваемых единицей и нулем, максимальное значение дисперсии получается при pj и qj, равных 0,5.

В отличие от Rj и Wj, значения долей pj и qj можно отнести к статистическим показателям, или кратко, к статистикам, что открывает возможность проверки достоверности этих мер, полученных в разных выборках. Кроме того, определяются значения так называемых доверительных интервалов, в пределах которых могут находиться значения этих долей в генеральной совокупности испытуемых. В статистике естественным образом принимается pj + qj = 1.

Так как цель разработки теста – это измерение уровня подготовленности испытуемых, то качественно это можно сделать только с помощью системы заданий равномерно возрастающей трудности. И если все, без исключения, испытуемые отвечают на задание одинаково правильно, то это означает, что задание не дифференцирует знающих испытуемых от незнающих. Нет, соответственно, и никакой вариации в значениях ответов. По данному заданию в матрице будут стоять одинаковые оценки. Такое задание из матрицы удаляется из-за отсутствия вариации баллов.

Нет вариации и в очень трудном задании, где нет ни одного правильного ответа; в матрице стоят, соответственно, одни нули. Вариация по нему тоже равна нулю, что означает необходимость и его удаления из проектируемого теста. Оно не тестовое.

Часто ставится вопрос: а как проявят себя удаляемые задания в других выборках испытуемых? Ответ зависит от подбора групп, а точнее от статистического плана формирования выборочных совокупностей. Ключ к правильному ответу на этот вопрос надо искать в смысле понятия «target group»; это множество испытуемых, для которых предназначен разрабатываемый тест. Соответственно, если задания проектируемого теста ведут себя неодинаково в разных группах, то это может быть указанием на ошибки в формировании выборок испытуемых, различий в преподавании и др. На языке статистике это означает, что испытуемые целевой и экспериментальных групп должны принадлежать одной генеральной совокупности.


 

Дифференцирующая способность задания

Дифференцирующим свойством задания называется его способность различать испытуемых по уровню подготовленности, на данном уровне измеряемого континуума подготовленности θ. Чем выше дифференцирующее свойство задания, тем лучше деление испытуемых на подготовленных и не подготовленных. Тем выше и качество теста. Это свойство легко понять из сравнения результатов например, применения пятибалльной и одиннадцатибалльной шкал. Вторая шкала лучше различает (дифференцирует) испытуемых, чем первая. Ещё лучше это делает, например, тридцатибалльная шкала теста. Она делит всех испытуемых на тридцать групп (классов). Эту логику можно распространить на стобалльную шкалу, часто применяемую в массовом тестировании.


 

Значение коэффициента корреляции ответов на задание и на тест в целом (rxy).

Это второй показатель дифференцирующей способности заданий. Такое распространённое в практике название, представляет собой сокращенный вариант более правильного понятия - корреляция оценок, полученных испытуемыми по заданию под номером хj, с суммой баллов тех же испытуемых. Корреляция является стандартной мерой дифференцирующей способности задания. Чем выше rxy, тем лучше оно дифференцирует испытуемых по уровню подготовленности. Задание в тестовой форме нельзя называть тестовым, если баллы по этому заданию не коррелируют (не связаны) с суммой исходных тестовых баллов.

Для расчета rjy формируется два вектор-столбца, один из которых - задание (Хj), другой - критерий (Y). Между значениями этих двух векторов и устанавливается мера связи, если таковая существует. Мера связи определяется посредством расчёта коэффициента корреляции rjy, где символом r обозначается так называемый классический коэффициент корреляции Пирсона, j представляет номер коррелируемого задания, а символ Y - числовой вектор-столбец тестовых баллов испытуемых.

Формулы для расчета коэффициентов корреляции и примеры такого расчета уже приводились. Проверим, например меру связи ответов испытуемых по заданию №7 с суммой баллов испытуемых по всему тесту. Для этого строится вспомогательная таблица 3, в которой использованы соответствующие данные табл.1.

В колонке Х7 приводятся значения баллов, полученных испытуемыми в седьмом задании. Сумма этих баллов равна 5.

Во второй колонке представлены тестовые баллы (Yi); в таблице представлено без индекса i, что позволяет не перегружать формулы; ΣYi = 65.

В третьей колонке даются произведения баллов каждого испытуемого по седьмому заданию (X7) и по сумме баллов (Y); ΣX7Y= 34. Это сумма попарных произведений X и Y.

В четвертой и пятой колонках - квадраты значений X7 и Y; Соответственно, = 5 и = 387.

При расчете используются, последовательно, четыре формулы:

1) Вначале находится сумма квадратов отклонений баллов испытуемых от среднего арифметического балла в интересующем задании (SS7). Это делается по формуле:

SS7 = -     (1)

Расчет коэффициента корреляции.  Табл. 3

Испытуемые

   X7

      Y

        X7 Y

X2

 Y2

1.

    1

  9

  9

  1

 81

2.

    1

  8

  8

  1

 64

3.

    1

  7

  7

  1

 49

4.

    0

  6

  0

  0

 36

5.

    0

  6

  0

  0

 36

6.

    1

  5

  5

  1

 25

7.

    1

  5

  5

  1

 25

8.

    0

  5

  0

  0

 25

9.

    0

  4

  0

  0

 16

10.

    0

  4

  0

  0

 16

11.

    0

  3

  0

  0

   9

12.

    0

  2

  0

  0

   4

13.

    0

  1

  0

  0

   1

Σ:

    5

 65

 34

  5

   387

 

2) Затем находится сумма квадратов отклонений тестовых баллов испытуемых от среднего арифметического балла по всему тесту (SSy). Это делается также по формуле:  

SSу = = 387 - = 62        (2)

3) Находится так называемая скорректированная на средние значения сумма попарных произведений X и Y, по формуле:

SPxy = - 34 - 9    (3)

В последней формуле представляет собой сумму произведений баллов каждого испытуемого по седьмому заданию и по Yi, тестовому баллу испытуемых. Вторая часть формулы представляет собой коррекцию на средние значения X и Y.

4) Рассчитывается коэффициент корреляции по формуле:

rxy  =                     (4)

Подставляя в эту формулу результаты проведенных расчетов, получаем

   rxy  =

Чем выше значения rxy, тем больше вероятность у задания быть включенным в тест. Если взять r2 × 100%, то получим значение так называемого коэффициента детерминации, выраженного в удобной, для интерпретации, процентной мере связи задания с суммой баллов. Для взятого примера коэффициент детерминации у седьмого задания равен (0,652)2 × 100% = 42, 5 %, что можно интерпретировать так: 42,5% вариации исходных тестовых баллов испытуемых связано с вариацией баллов по одному только седьмому заданию, что указывает на достаточно хороший вклад седьмого задания в общую дисперсию тестовых баллов испытуемых.

При значениях 0,2 • rxy •0,5 во внимание начинают приниматься и другие характеристики: такие как, мера корреляции задания с другими заданиями, факторная чистота задания и прочие; их рассмотрение здесь потребовало бы другого стиля изложения. В качестве нижней границы включения заданий в тест обычно рассматриваются значения rxy = 0,300, и самой нижней, в исключительных случаях, rxy = 0,200. Нулевая корреляция свидетельствует об отсутствии у задания системных свойств, присущих для тестового задания. Такие задания, равно как и задания с отрицательными значениями rxy, устраняются из тестовых материалов, как не выдержавшие эмпирической проверки.

Теоретически предпочтительнее рассчитывать другие варианты коэффициента корреляции Пирсона. Первый из них называется point-biserial – одним из бисериальных коэффициентов корреляции, для случая, когда одна переменная представлена дихотомической оценкой.

rpb = ,                (5)

где rpb означает названный коэффициент;

М1 - среднее арифметическое по всему тесту для испытуемых, получивших по данному заданию один балл;

М2 - среднее арифметическое по всему тесту для испытуемых, получивших по данному заданию ноль баллов;

n1  - число испытуемых, получивших в задании один балл, n0 - число испытуемых, получивших в задании ноль баллов.

При использовании данной формулы из таблицы 2. опираются на такие данные: Один балл по седьмому заданию получили первый, второй, третий, шестой и седьмой испытуемые. Сложение полученных ими баллов по Y дает 9 + 8 + 7 + 5 + 5 = 34; среднее арифметическое М1  = 34/5 = 6,800. Ноль баллов по этому же заданию получили 4, 5, 8, 9, 10, 11, 12, и 13 испытуемые. Сложение полученных ими баллов по Y дает 6 + 6 + 5 + 4 + 4 + 3 +2 + 1 = 31; среднее арифметическое М0 = 31/8 = 3,875, при n1 = 5, n0 = 8; n = 13,

Подстановка полученных данных в формулу 11.9 даёт

rpb = = 0,651.

Сравнение rpb = 0,651 и rxy = 0,652 подтверждает сходство полученных значений и практическую достаточность использования любой одной из этих формул. Расчет другого, так называемого (bi-serial) бисериального коэффициента корреляции задания с критерием проводится обычно в целях теоретического исследования. На малых выборках он дает завышенные значения, что объясняется обычными отклонениями исходных тестовых баллов от нормального распределения.


 

Параметр крутизны графика задания теста – это третий показатель дифференцирующей способности заданий. График выражает функцию вида

Pj{ = 1⏐, aj} = exp aj(θ - )/(1 + exp aj(θ - βj),     (6)

рассматриваемой ниже. Он обозначается символом aj. При условии, что уровень трудности заданий соответствует уровню подготовленности испытуемых, и при наличии достаточно репрезентативной выборки, оценки параметров aj проводятся по формуле, приведенной в работе F. M.Lord

aj =             (7)

где r представляет ранее посчитанный коэффициент корреляции ответов на задание j теста с общей суммой баллов теста.

По уровню дифференцирующей способности F.Baker делит тестовые задания на семь уровней (Табл. 4):




 

Табл. 4.

Дифференцирующая способность

Значения параметра крутизны функции, aj

1) практически отсутствует

0

2) очень низкая

0,01- 0,34

3) низкая

0,35- 0, 64

4) средняя

0,65- 1,34

5) высокая

1,35- 1,69

6) очень высокая

>1,70

5) отличная (совершенная, perfect)

с неопределяемого большого числа до + бесконечности.

 

Встречающиеся в практике задания с отрицательными значениями aj  не относятся к тестовым заданиям, а потому подлежат удалению. Пример такого задания представлен в разделе «Графические образы заданий».

 

Требования к тестовым заданиям

Ранее для заданий в тестовой форме были сформулированы такие требования:

-краткость;

-технологичность;

-правильность формы;

-логическая форма высказывания;

-одинаковость правил оценки ответов;

-наличие определенного места для ответов;

-одинаковость инструкции для всех испытуемых;

-правильность расположения элементов задания;

-адекватность инструкции форме и содержанию задания. Для того, чтобы задания в тестовой форме могли бы далее превратиться в тестовые задания, к ним добавляются требования иметь рассмотренные выше свойства:

- трудности;

-  вариации тестовых баллов;

- положительной корреляции баллов по заданию с баллами по всему тесту;

- одномерности. Последнее свойство выражается содержательно и формально.

О содержательной интерпретации уже упоминалось в п.8.4. Формально одномерность является главным свойством заданий гомогенного теста. Это означает, что все задания теста измеряют одно и то же интересующее свойство. Формальным выражением идеи одномерности измеряемого свойства является требование так называемой локальной независимости ответов испытуемых на задания теста. Логика такова: если на вероятность правильного ответа влияют только различия в уровне подготовленности испытуемых, то для испытуемых одинакового уровня подготовленности вероятность правильного ответа на одно задание не должна зависеть от вероятности правильного ответа на любое другое задание;

- адекватность уровня трудности задания уровню подготовленности испытуемого. В этом случае показателем эффективности становятся значения так называемой информационной функции задания.

Кроме того, педагогические задания должны:

- формулироваться из точных терминов, не содержать метафор, лишних слов и знаков.

- иметь педагогически корректное содержание;

- быть логически точными и непротиворечивыми;

- быть изложенными на понятном для всех учащихся языке изученной дисциплины (предмета);

- быть обоснованными теоретически и эмпирически.

- иметь алгоритм правильного и, по возможности, быстрого решения.

Было бы хорошо, если бы все педагогические задания в той или иной мере могли отвечать изложенным выше требованиям. Но этого нет, и не будет до тех пор, пока культура педагогических измерений не укоренится в педагогическом обществе.

Теоретическое обоснование качества педагогических заданий имеет два источника. Первый - в предметной области, где формируется система научной аргументации в пользу избранного содержания задания. Второй источник обоснования качества задания находится в теории педагогических измерений, в которой формулируются общие требования к тестовым заданиям.

Эмпирическое обоснование качества тестовых заданий проводится на выборочной совокупности испытуемых, с применением статистических и математических методов обработки данных. Для этой цели специально разработаны статистические пакеты SPSS, Winsteps, RUMM-2020 и множество других.

 

Объективные свойства заданий

Объективные свойства педагогических заданий - это содержание, форма и технологичность.

Содержание заданий ранее определялось как специально отобранная и признанная профессиональным сообществом система элементов объективного опыта человечества, применение и усвоение которой необходимо для успешной профессиональной деятельности индивида в избранной им сфере и в процессе жизнедеятельности. Содержание образования задается учебным планом и соответствующими ему программами учебных дисциплин; оно отражается в учебниках учебных пособиях и в других средствах обучения. В хороших образовательных системах существуют Национальные (общественно-профессиональные) стандарты уровня и структуры подготовленности учащихся и студентов, достижение которых контролируется общественными профессиональными организациями и независимыми Центрами тестирования. Для оценки подготовленности используются  тысячи тестовых заданий различного уровня и направления, в зависимости от профиля вуза.

В России утвердилась идеология государственных стандартов подготовки, которые исходят из идей минимальной достаточности, с последующим контролем знаний со стороны государственных органов управления образованием и подчиненных им центров тестирования.

С точки зрения содержания, тестовое задание оценивается по конкретности и абстрактности, глубине, обобщенности, полноте знаний предмета.

Форма педагогического задания определяется как такое расположение элементов, которое наилучшим образом позволяет выполнить предназначенную функцию контроля или обучения. Это ключевая проблема теории педагогических измерений. От правильного выбора тестовых форм зависит точность выражения содержания теста и качество тестовых оценок.

Образовавшийся в практике застой с применением только формы с выбором одного правильного ответа из 3-4 дистракторов подменяет педагогический принцип контроля принципом угадывания. Что неизбежно приведет к росту справедливой критики и к дискредитации тестового метода.

Для предотвращения нежелательных последствий предлагается быстрее перейти к применению в практике заданий с выбором нескольких правильных ответов, сдвоенных заданий, тематических и текстовых заданий. Они позволяют проверять различные виды знаний, делать самоконтроль интереснее и качественным.

Технологичность – является одним из современных требований к тестовым заданиям. Технологичность заданий определяется как вариант композиции, которая позволяет вести процесс тестирования с помощью технических средств, и делать это точно, быстро, экономично и объективно. Задания становятся технологичными, если их содержание правильно и быстро понимается испытуемыми, и если форма заданий способствует процессу компьютеризации тестирования.

Главные препятствия для достижения технологичности задания - это неопределенность формы, плохая формулировка содержания, отсутствие необходимой техники и программ. Именно использование автоматизированного обучения и контроля на основе достижений новой педагогики, педагогических измерений, психологии, кибернетики и компьютерной техники, взятое в разумном соотношении, образует основу того, что сейчас называют педагогической технологией.

В этой технологии самым узким местом оказалось неумение делать задания, без чего нельзя сейчас ни объективно проверить знания, ни создать современную автоматизированную контрольно-обучающую программу, ни наладить такую форму организации учебного процесса, как дистанционное обучение. В идеальном случае учебная программа, каждый ее модуль сопровождаются заданиями в тестовой форме. Однако путь к достижению этого идеала лежит через трудности создания качественных тестовых заданий. Технологичность заданий обеспечивается правильностью формы заданий и корректностью содержания заданий. С точки зрения содержания, тестовое задание оценивается по конкретности и абстрактности, глубине, обобщенности, полноте содержания.

 

Вероятностные функции педагогических заданий

Педагогу традиционной формации бывает нелегко объяснить, что у каждого педагогического задания может быть свой графический образ. Для выявления свойств заданий и для построения графических образов применяются различные математические модели-функции. Известны три основные модели педагогических измерений. В качестве одной из них используется так называемая логистическая функция, известная, по мнению F.Baker, в биологии с 1844 года. Это функция вида

Y.            (    8)

В 1958 году у G.Rasch возникла идея выразить вероятность правильного ответа испытуемого i на задание j посредством такой функции. Она приняла такой вид, который на Западе называют логистической функцией:

Pj (θ) = {xij = 1⏐βj } =       (9)

где Pj (θ) это вероятность правильного ответа на задание под номером j, вместо х стоит разность .

xij = 1, если ответ испытуемого i на j-ое задание правильный;

θ - уровень подготовленности (знаний), латентная переменная. Поэтому индекс i при символе θ опущен.

- уровень трудности j-го задания теста, измеряемой на латентном континууме трудности заданий.

exp – константа e, иррациональное число, равное, округлённо, 2,71828.

Функцию (1) можно записать и другими способами, например, в строку:

Pj { = 1⏐βj } = exp(θ - βj)/(1 + exp(θ - βj)         (10)

или  Pj(θ) = {xij = 1⏐βj }=  или, совсем  короче. Pj (θ) = .

А также Pj (θ) = 1/ 1 + exp (-L), где L представляет разность параметров испытуемого i и задания j, (θi - βj). Если берётся конкретное задание под номером j, то разность записывается с индексом соответствующего номера βj. Если берётся конкретный испытуемый i с присущим ему уровнем подготовленности, то разность пишется (θi - β).

Понятно, что вместо неизвестного значения х в формуле (1) G.Rasch подставил разность получаемых из табл. 1 исходных значений двух параметров θ и β. Напомним, что первый параметр – θi = ln pi/qi - означает уровень подготовленности испытуемого в шкале натуральных логарифмов. Второй - βj = ln qj/ p - означает уровень трудности задания под номером j, представленный в той же шкале.

Логарифмические оценки уровня знаний и уровня трудности заданий дали возможность сравнить их, что оказало огромное влияние на развитие зарубежной педагогической теории и практики. Впервые появилась возможность непосредственно сопоставить испытуемого и задание, начать процесс адаптивного обучения.

Чем выше крутизна функции, тем ΄уже интервал, на котором это задание работает. Таким образом, возникла мысль об улучшении модели G. Rasch за счет введения в выражение (10) второго, после параметра , параметра аj. Параметр аj даёт информацию о задании с точки зрения оценки его дифференцирующей способности, на заданном интервале континуума измерения. Графически значение параметра аj выражается крутизной характеристической кривой, аналитически – значением производной функции в точке перегиба. После введения в выражение параметра аj получается двухпараметрическая модель педагогического измерения.

Pj { = 1⏐, aj}= exp aj(θ - )/(1 + exp aj(θ -)      (11)

Если ещё раз на оси абсцисс отложить значения логитов уровня подготовленности, а по оси ординат - значения вероятности правильного ответа на задание j, то характеристические кривые одинакового уровня трудности, но с изменяющимися значениями параметра аj приобретают графические образы, представленные на рис. 1.

 

Уровень подготовленности (θ)

Рис. 1. Вероятностные функции (графические образы) заданий одинакового уровня трудности, отличающиеся значениями параметра дифференцирующей способности аj: а1 =1,5; а2 =1,0; а3=0,5.

При aj, принимаемых равными единице во всех заданиях, получается система кривых, отличающихся только уровнем трудности заданий, что выражается сдвигом по оси θ (См. рис. 2).

Чем задание труднее, тем оно располагается правее. Значение проекции точки перегиба функции на ось θ в точности равно параметру трудности задания.

Графический пример системы заданий, построенных на основе модели G Rasch, представлен по публикации В.С. Кима в нашем журнале. По оси абсцисс рис. 2 отложен латентный уровень подготовленности испытуемых (θ), по оси ординат – вероятность правильного ответа на задание (j), с уровнем трудности βj. Добавление третьего параметра cj, ассоциируемого со значением вероятности угадывания правильного ответа в заданиях с выбором, дает трехпараметрическую модель:

Pj{=1⏐,aj, сj } = сj + (1 - сj) exp aj(θ - )/(1 + exp aj(θ - βj)       (12)

 

Алгоритм вычисления вероятности правильного ответа на задания

Как было уже показано, исходные значения параметров θi и βj берутся из таблиц, создаваемых по аналогии с примерной таблицей 1. Далее обе шкалы θ и β приводятся к общей средней арифметической и к общему стандартному отклонению, а затем методом максимального правдоподобия, либо другими вычислительными методами уточняются значения  интересующих параметров.

В основу математической теории педагогических измерений положено понятие функции – вероятности правильного ответа испытуемого в зависимости от уровня его подготовленности от уровня трудности заданий.

Посмотрим здесь сравнительно простой случай, в предположении, что исходные значения θi и β уже известны из таблицы 1, и надо найти первую оценку вероятности правильного ответа испытуемых на задание одного фиксированного уровня трудности. Для этого последовательно берутся значения переменной величины θI, с некоторым шагом, и для каждого вычисляют значение искомой вероятности. Это позволит посмотреть – как меняется вероятность правильного ответа на одно и то же задание, с уровнем трудности b = 1.0 для испытуемых, имеющих различный уровень подготовленности. Для этого достаточно провести небольшой вычислительный эксперимент, в котором надо последовательно (с шагом +1) брать разные уровни подготовленности, и полученные данные свести в таблицу 1.

Возьмём пример применения однопараметрической модели, где значение параметра аj принимается равным 1.0 (модель Г. Раша), а значения βj, предположим, как уже упоминалось, равным +1,0. Для удобства строится вспомогательная таблица 5. Эта таблица содержит результаты вычислительного эксперимента по определению вероятности правильного ответа испытуемых различного уровня подготовленности на задание с параметром трудности b = 1.0

Табл. 5.

Предполагаемый уровень подготовленности испытуемых, θI (здесь берётся с шагом 1 логит).

L =j(θ - βj )

e –L

1 + e –L

Pj (θ)

-3,0

(-3-1)= -4

54,598

55,598

0,018

-2,0

(-2-1)=-3

20,086

21,086

0,047

-1,0

(-1-1)= -2

7, 389

8,389

0,166

0

(0-1)= -1,0

2, 718

3, 716

0,269

1.0

(1-1) = 0

1

2

0,500

2.0

(2-1)= 1,0

0,368

1,368

0,731

3.0

(3-1)= 2

0,135

1,135

0,881

 

Первый шаг: Находим L = (θ - βj). Для самого низкого уровня подготовленности

L = (-3,0 – 1,0) = -4,0. (второй столбец табл. 5.)

Второй шаг: Вычисляется значение e-L   = 2, 71828-(-4,0)  = 54,59801

Третий шаг: находится значение знаменателя формулы (2)

1 + 54, 59801 = 55,59801

Четвёртый шаг: Находится вероятность правильного ответа при использованных данных   Pj (θ) = =   = 0,018315.

Интерпретация полученного результата: для испытуемых очень низкого уровня подготовленности, равного –3,0 логита, вероятность правильного ответа на задание уровня трудности 1,0 логит равна 0,018315, что вполне согласуется с естественной педагогической логикой: правильный ответ малоподготовленного испытуемого на задание среднего уровня трудности маловероятен. Ещё менее вероятным может стать правильный ответ такого испытуемого на трудное задание.

Расчёты для остальных значений θ приводятся в таблице 5.

Если посмотреть внимательно на строки таблицы 5, то можно заметить, что например, уровень подготовленности испытуемого θi = 1,0 который  в точности равняется уровню трудности задания βj  =1,0 то вероятность правильного ответа равна 0,5. С увеличением уровня подготовленности испытуемых растёт и вероятность правильного ответа на это задание. Если по полученным значениям P (θ)построить график, то он будет выглядеть как на рис.3.

 

Рис. 3. График функции P(θ) при уровне трудности задания βj = 1

 

12. ГРАФИЧЕСКИЕ ОБРАЗЫ ЗАДАНИЙ

Для предсказания тестовых свойств заданий и для первоначальной ориентации в их потенциальных возможностях профессиональные разработчики теста используют построение графических  образов заданий.

Известны два метода построения графических образов заданий.

Первый метод – построение графиков долей правильных ответов испытуемых на задание j, в зависимости от уровня подготовленности испытуемых. При построении графика каждого задания желательно, чтобы число испытуемых было как можно больше. При этом условии появляется возможность разделить всё множество испытуемых на так называемые балльные группы, с достаточным числом испытуемых в каждой из них. Значения балльных групп откладываются на оси абсцисс. Создаются отдельные группы тех, кто имеет только один правильный ответ, два, три и т.д. Соответственно, на педагогическом языке их можно называть группами единичников, двоечников, троечников, четверочников, пятерочников, шестёрочников и т.д.

В каждой такой балльной группе подсчитывается доля правильных ответов. Значение этой доли в каждой балльной группе и является проекцией на ось ординат. В итоге на плоскости откладываются точки.

 

Рис. 4. Эмпирически полученные значения долей правильных ответов на задание теста в каждой балльной группе испытуемых.

Рис. 5. Функция задания, подобранная по эмпирическим данным ответов испытуемых на задание теста.

По этим точкам можно подобрать кривую, наилучшим образом описывающую полученные данные. (Рис.5).

Второй метод построения графических образов задания – аналитический, аналогичный методу, представленному в табл. 5. При этом могут использоваться различные функции – одно, двух или трёхпараметрические. И хотя все три функции-модели нередко используются в разработке педагогических тестов, наибольшее предпочтение отдаётся модели измерения Г. Раша.

При анализе характеристических кривых обращают внимание на три характеристики: на расположение точки перегиба графика относительно оси Х, на место пересечения с осью ординат и на меру крутизны кривой.

Чем правее на плоскости располагается кривая задания, тем оно труднее для испытуемых.

Чем выше точка пересечения начала графика при значениях θ <-3 с осью ординат, тем выше потенциальный или реальный уровень угадывания правильного ответа на задание j.

Чем больше крутизна функции P(θ), тем задание j точнее измеряет интересующее свойство испытуемых на своём интервале измерения подготовленности испытуемых.

В педагогическом тесте предпочтительно иметь задания с равной крутизной, потому что пересечение кривых является дополнительным источником погрешностей измерения. Примерное число заданий по одной не очень большой учебной дисциплине – 30, что обеспечивает достаточную точность педагогических измерений. Лучше, чтобы общее время тестирования не превышало более сорока минут. Увеличение времени, как и уменьшение времени, снижает дисперсию тестовых результатов, а следовательно ухудшает дифференцирующую способность всего теста. Как следствие, снижается и общий показатель точности измерений.

Рейтинг всех персональных страниц

Избранные публикации

Как стать нашим автором?
Прислать нам свою биографию или статью

Присылайте нам любой материал и, если он не содержит сведений запрещенных к публикации
в СМИ законом и соответствует политике нашего портала, он будет опубликован