Комп'ютеризоване адаптивне тестування

Комп'ютеризо́ване адапти́вне тестува́ння (КАТ, англ. computerized adaptive testing, CAT) — це вид комп'ютерного тестування, яке адаптується до рівня кваліфікації іспитника. Через це його також називають індивідуа́льно пристосо́вуваним тестува́нням (англ. tailored testing). Іншими словами, це вид здійснюваного за допомогою комп'ютера тестування, в якому наступне завдання або набір завдань, призначувані іспитникові, залежить від правильності відповідей на попередні завдання.[1]

Опис

КАТ послідовно обирає питання з метою максимізації точності іспиту на основі того, що відомо про іспитника з попередніх питань.[2] З погляду іспитника, складність іспиту ніби пристосовується до його рівня кваліфікації. Наприклад, якщо іспитник добре впорується із завданням середньої складності, йому буде запропоновано складніше питання. Або, якщо він відповідав погано, йому буде запропоновано простіше питання. У порівнянні зі статичними тестами, з якими стикався майже кожен, із незмінним набором завдань, які надають усім іспитникам, комп'ютерно-адаптивні тести вимагають менше тестових завдань для досягнення однаково точних результатів.[2]

Основний метод комп'ютерно-адаптивного тестування — це ітеративний алгоритм із наступними кроками:[3]

  1. Пошук оптимального завдання в банку доступних завдань на основі поточної оцінки кваліфікації іспитника
  2. Обране завдання надається іспитникові, який відтак відповідає на нього правильно або неправильно
  3. Оцінка кваліфікації уточнюється, на основі всіх попередніх відповідей
  4. Кроки 1–3 повторюються, доки не буде виконано критерій завершення

Про іспитника до надання першого завдання не відомо нічого, тому алгоритм зазвичай починається з вибору завдання середньої або середньо-легкої складності як першого.[джерело?]

В результаті адаптивного надавання різні іспитники отримують доволі різні тести.[4] Хоча іспитникам зазвичай надаються різні тести, оцінки їхньої кваліфікації порівнянні між собою (тобто так, ніби вони отримували однаковий тест, як це прийнято у тестах, розроблених за класичною теорією тестування). Психометрична технологія, яка дозволяє обчислювати справедливі результати для різних наборів завдань, — теорія відгуку завдання(інші мови)[5] (англ. item response theory, IRT). Вона також є пріоритетною методологією для вибору оптимальних завдань, які зазвичай обираються на основі інформації, а не виключно складності.[3]

Суміжну методологію, звану багатоетапним тестуванням (англ. multistage testing, MST) або комп'ютерно-адаптивним послідовним тестуванням (англ. computer-adaptive sequential testing, CAST), використовують у Єдиному сертифікаційному аудиторському іспиті США(інші мови). Багатоетапне тестування обходить або зменшує деякі недоліки КАТ, описані нижче.[6]

Приклади

КАТ існує з 1970-х років, і наразі є багато оцінювальних тестів(інші мови), що використовують цю методику.

Крім того, перелік чинних іспитів КАТ знаходиться на сайті Міжнародної асоціації комп'ютеризованого адаптивного тестування,[8] де також доступні переліки поточних дослідницьких програм з КАТ і майже повна бібліографія всіх опублікованих досліджень у цій галузі.

Переваги

Адаптивні тести можуть забезпечувати рівномірно точні результати для більшості тестованих.[3] На противагу, стандартні незмінні тести майже завжди забезпечують найкращу точність для тестованих середньої кваліфікації, й усе гіршу точність для іспитників з усе ближчими до країв оцінками тесту.[джерело?]

Адаптивний тест зазвичай можливо скоротити на 50 %, все ще зберігши вищий рівень прецизійності, ніж у незмінної версії.[2] Це перетворюється на заощадження часу для тестованого. Тестовані не марнують час на виконання занадто складних чи елементарно легких завдань. Крім того, від цього заощадження часу отримує вигоду й тестувальна організація, оскільки витрати на перебування іспитника на тестуванні значно знижуються. Проте, оскільки розробка КАТ вимагає набагато більших витрат, ніж для стандартного тесту незмінного вигляду, для фінансової окупності програми КАТ потрібна велика сукупність іспитників.[джерело?]

Великі цільові сукупності зазвичай зустрічаються в наукових та дослідницьких галузях. У цих відношеннях КАТ можна використовувати для вловлювання ранніх ознак порушень та захворювань. За останні 10 років використання КАТ у цих галузях значно зросло. Колись його в медичних закладах та лабораторіях не сприймали, але зараз КАТ у рамках діагностування активно заохочується.[джерело?]

Як і будь-який комп'ютерний тест, адаптивні тести можуть показувати результати негайно після тестування.[джерело?]

Адаптивне тестування, залежно від алгоритму вибору завдань, може знижувати виставляння (англ. exposure) деяких завдань, оскільки іспитники зазвичай отримують різні набори завдань, замість видавання всій сукупності єдиного набору. Проте воно може збільшувати виставляння інших завдань (зокрема, завдань середньої чи середньо-легкої складності, пропонованих більшості іспитників на початку тесту).[3]

Недоліки

Першою проблемою, з якою стикаються в КАТ, є калібрування банку завдань. Щоби змоделювати характеристики завдань (наприклад, щоби обирати оптимальні завдання), усі завдання тесту мусять бути попередньо надані значній вибірці, й відтак проаналізовані. Для досягнення цього нові завдання мусить бути домішано до чинних завдань іспиту (відповіді записуються, але не роблять внеску до підсумкових оцінок тестованих), що називають «пілотним тестуванням», «попереднім тестуванням» або «посівом» (англ. "seeding").[3] Це створює логістичні, етичні та безпекові проблеми. Наприклад, неможливо запустити робочий адаптивний тест із абсолютно новими, невипробуваними завданнями;[9] усі завдання повинні бути попередньо протестовані на достатньо великій вибірці для отримання стабільних статистик завдань. Цій вибірці може бути потрібно мати до 1 000 іспитників.[9] Кожна програма мусить вирішити, який відсоток тесту може бути прийнятно складати з неоцінених пілотних завдань.[джерело?]

Хоч адаптивні тести й мають алгоритми контролю виставляння (англ. exposure control) для запобігання надмірному використанню небагатьох завдань,[3] виставляння залежно від кваліфікації часто не контролюється, й може легко наближуватися до 1. Тобто, для людей з однаковою кваліфікацією деякі завдання часто стають дуже поширеними. Це — серйозна безпекова проблема, оскільки групи, які обмінюються завданнями, цілком можуть мати подібний функційний рівень кваліфікації. Насправді, повністю випадковий екзамен є найбезпечнішим (але водночас найменш ефективним).[джерело?]

Перегляд попередніх завдань зазвичай заборонено, оскільки адаптивні тести схильні пропонувати легші завдання після неправильних відповідей. Вважають, що спостережливий тестований може використовувати такі підказки для виявляння й виправляння неправильних відповідей. Або ж тестованих можуть натренувати цілеспрямовано давати більшу кількість неправильних відповідей, що призводитиме до все більшого спрощення тесту. Після того, як адаптивний тест буде «надурено» на побудову максимально простого іспиту, вони можуть потім переглянути ці завдання й відповісти на них правильно, потенційно досягши дуже високої оцінки. Тестовані часто скаржаться на неможливість перегляду попередніх завдань.[10]

Через високу складність розробка КАТ має низку передумов.[11] Для калібрування за теорією відгуку завдання(інші мови) (IRT) необхідні великі вибірки (зазвичай сотні іспитників). Завдання мусять бути оцінюваними в реальному часі, якщо обирати нове завдання необхідно миттєво. Потрібні психометрики з досвідом у калібруванні за IRT та дослідженні симуляцій КАТ для забезпечення документування валідності(інші мови). Зрештою, мусить бути доступною програмна система, здатна здійснювати справжнє адаптивне тестування на основі IRT.[джерело?]

У КАТ з обмеженням часу іспитникам неможливо точно спланувати час, який вони можуть витратити на кожне завдання, і визначити, чи встигають вони завершити розділ вчасно. Тестовані відтак можуть зазнавати штрафування через те, що витратили забагато часу на складне завдання на початку розділу, через що їм не вистачає часу для завершення завдань, необхідних для точної оцінки їхньої кваліфікації в інших областях, що залишаються невипробуваними до завершення часу.[12] Хоча КАТ без обмеження часу є чудовими інструментами для формувального оцінювання, що спрямовує подальше навчання, КАТ із обмеженням часу не підходять для відповідального підсумкового оцінювання(інші мови), яке використовують для оцінки придатності до роботи чи навчальних програм.[джерело?]

Складові

Існує п'ять технічних складових побудови КАТ (наступне перейнято з Weiss & Kingsbury, 1984[2]). Цей перелік не містить практичних аспектів, як-от попереднього тестування завдань чи випуску тесту в реальні умови.

  1. Калібрований банк завдань
  2. Початкова точка або рівень входу
  3. Алгоритм вибору завдань
  4. Процедура оцінювання
  5. Критерій завершення

Калібрований банк завдань

Для роботи КАТ необхідний банк завдань для вибору.[2] Такі завдання можливо створювати традиційним чином (тобто вручну), або за допомогою автоматичного породжування завдань(інші мови). Цей банк мусить бути відкаліброваним за допомогою психометричної моделі, яка слугує основою для решти чотирьох складових. Зазвичай як психометричну модель використовують теорію відгуку завдання(інші мови) (IRT).[2] Однією з причин популярності теорії відгуку завдання є те, що вона розміщує осіб та завдання на одній шкалі (позначуваній грецькою літерою тета), що корисно з огляду на нюанси вибирання завдань (див. нижче).[джерело?]

Початкова точка

У КАТ вибір завдань відбувається на основі продуктивності іспитника до даного моменту тестування. Проте на початку тестування КАТ очевидно не може зробити жодної конкретної оцінки кваліфікації іспитника, коли ще не було надано жодного завдання. Тож необхідна деяка первинна оцінка кваліфікації іспитника. Якщо доступна якась попередня інформація про іспитника, нею можливо скористатися,[2] але часто КАТ просто виходить з того, що іспитник має середню компетентність — через це першим зазвичай є завдання середнього рівня складності.[джерело?]

Алгоритм вибору завдань

Як зазначено вище, теорія відгуку завдання розміщує іспитників та завдання на одній шкалі. Відтак, якщо КАТ має оцінку кваліфікації іспитника, воно може вибрати найвідповідніше цій оцінці завдання.[9] Технічно це робиться шляхом вибору завдання з найбільшою інформацією на той момент.[2] Інформація — це функція параметра розрізнювальності (англ. discrimination parameter) завдання, а також умовної дисперсії та параметра псевдовідгадуваності (англ. pseudo-guessing parameter, якщо його використовують).[джерело?]

Процедура оцінювання

Після надання завдання КАТ уточнює свою оцінку рівня кваліфікації іспитника. Якщо іспитник відповів на завдання правильно, КАТ, імовірно, оцінить його компетентність трохи вище, і навпаки. Це здійснюється за допомогою функції відгуку завдання з теорії відгуку завдання для отримання функції правдоподібності кваліфікації іспитника. Два методи для цього називають оцінюванням максимальною правдоподібністю, та баєсовим оцінюванням. Останній виходить з апріорного розподілу кваліфікації іспитника й має два поширені оцінювачі: апостеріорне математичне сподівання (англ. expectation a posteriori) та апостеріорний максимум (англ. maximum a posteriori). Максимальна правдоподібність еквівалентна баєсовій оцінці апостеріорного максимуму за умови рівномірного (f(x)=1) апріорного.[9] Максимальна правдоподібність асимптотично незміщена, але не може надавати оцінку тета для незмішаного вектора відповідей (усі правильні або всі неправильні), в такому випадку може знадобитися тимчасово скористатися баєсовим методом.[2]

Критерій завершення

Алгоритм КАТ розроблено таким чином, щоби він багаторазово надавав завдання й уточнював оцінку кваліфікації іспитника. Це триватиме доти, поки не буде вичерпано банк завдань, якщо в КАТ не передбачено критерію завершення. Часто тест завершують, коли стандартна похибка вимірювання кваліфікації іспитника падає нижче певного встановленого користувачем значення, через що, як зазначено вище, однією з переваг є те, що оцінки іспитників будуть рівномірно точними, або «рівноточними» (англ. "equiprecise").[2] Існують також інші критерії завершення, які застосовують залежно від мети тесту, наприклад, якщо тест розроблено лише для визначення, чи іспитник «склав», чи «провалив» іспит, а не для отримання точної оцінки його кваліфікації.[2][13]

Інші нюанси

Склав — провалив

У багатьох ситуаціях метою тесту є класифікація іспитників на дві або більше взаємовиключні й вичерпні(інші мови) категорії. Сюди належить поширений «тест на засвоєння», в якому є дві категорії — «склав» і «провалив», а також ситуації, де існує три або більше категорії, наприклад, «недостатній», «базовий» та «поглиблений» рівні знань або компетентності. Такий «адаптивний тест на рівні завдань», як описано в цій статті, найкраще підходить для тестів, які не є тестами «склав/провалив» чи для тестів цього типу, де надзвичайно важливим є надання якісного зворотного зв'язку. Для КАТ типу «склав/провалив», відомого також як комп'ютеризований класифікаційний тест(інші мови) (англ. computerized classification test, CCT), необхідні певні видозміни.[13] Для іспитників з істинними оцінками, дуже близькими до прохідного балу, комп'ютеризовані класифікаційні тести призводитимуть до довшого тестування, тоді як для іспитників з істинними оцінками значно вищими або нижчими за прохідний бал іспити будуть найкоротшими.[джерело?]

Наприклад, необхідно застосувати новий критерій завершення та алгоритм оцінювання, які класифікують іспитника у відповідну категорію, а не надають точкову оцінку його кваліфікації. Для цього доступні дві основні методології. Відомішою з них є послідовний критерій відношення ймовірностей(інші мови) (англ. sequential probability ratio test, SPRT).[14][15] У цій методології задачу класифікування іспитника формулюють як перевірку гіпотези, що його кваліфікація дорівнює або деякій заданій точці вище прохідного балу, або іншій заданій точці нижче прохідного балу. Зауважте, що це формулювання точкової гіпотези, а не складеної,[16] що було би концептуально доречнішим. Формулювання складеної гіпотези означало би, що кваліфікація іспитника знаходиться або в області вище прохідного балу, або в області нижче прохідного балу.[джерело?]

Також використовують підхід довірчого інтервалу, в якому після надання кожного завдання алгоритм визначає ймовірність того, що істинна оцінка іспитника перевищує прохідний бал, чи не досягає його.[17][18] Наприклад, алгоритм може продовжуватися, допоки 95 %-вий довірчий інтервал для істинної оцінки більше не міститиме прохідного балу. В цей момент подальші завдання не потрібні, оскільки рішення щодо «склав/провалив» уже є на 95 % точним, за умови, що психометричні моделі в основі адаптивного тестування відповідають іспитникові та тесту. Цей підхід спочатку називали «адаптивним тестуванням на засвоєння» (англ. "adaptive mastery testing")[17], але його можливо застосовувати й до неадаптивного вибирання завдань та до ситуацій класифікації з двома або більше прохідними балами (типовий тест на засвоєння має один прохідний бал).[18]

Як практичний підхід, алгоритм зазвичай програмують із мінімальною та максимальною довжиною тесту (або мінімальною й максимальною тривалістю тестування). Інакше можлива ситуація, коли іспитник із кваліфікацією, дуже близькою до прохідного балу, може отримати всі завдання з банку, а алгоритм так і не ухвалить рішення.[джерело?]

Алгоритм вибору завдань залежить від критерію завершення. Максимізування інформації на рівні прохідного балу доречніше для послідовного критерію відношення ймовірностей (SPRT), оскільки це максимізує різницю ймовірностей, використовувану у відношенні правдоподібності.[19] Максимізування інформації на оцінці кваліфікації доречніше для підходу довірчого інтервалу, оскільки воно мінімізує умовну стандартну похибку вимірювання, що зменшує ширину довірчого інтервалу, необхідного для здійснення класифікування.[18]

Практичні обмеження адаптивності

Дослідниця зі Служби освітніх тестувань (ETS) Марта Стокінг жартувала, що більшість адаптивних тестів насправді є «заледве адаптивними тестами» (англ. barely adaptive tests, BAT[20]), оскільки на практиці на вибір завдань накладається багато обмежень. Наприклад, іспити КАТ зазвичай повинні відповідати специфікаціям змісту;[3] вербальному іспитові може бути потрібно складатися з однакової кількості завдань на аналогії, заповнення пропусків та синоніми. КАТ зазвичай мають певного виду обмеження виставляння завдань (англ. item exposure constraint)[3] задля запобігання надмірному виставлянню найінформативніших завдань. Крім того, у деяких тестах намагаються збалансувати зовнішні характеристики завдань, як-от стать персонажів у завданнях, або етнічне походження, що випливає з їхніх імен. Таким чином, іспити КАТ часто обмежені у виборі завдань, і для деяких іспитів ці обмеження можуть бути суттєвими та вимагати складних пошукових стратегій (наприклад, лінійного програмування) для знаходження підхожих завдань.[джерело?]

Простим методом керування виставлянням завдань є метод «випадковості» (англ. "randomesque") або страти. Замість обирати в кожній точці тесту найінформативніше завдання, алгоритм випадковим чином обирає наступне завдання з п'яти або десяти найінформативніших. Цей метод можливо використовувати протягом усього тесту, або лише на його початку.[3] Іншим методом є метод Сімпсона-Геттера,[21] у якому береться випадкове число з рівномірного розподілу U(0,1), і порівнюється з параметром ki, визначеним для кожного завдання користувачем тесту. Якщо це випадкове число більше за ki, розглядається наступне найінформативніше завдання.[3]

Вім ван дер Лінден з колегами[22] розвинули альтернативний підхід, названий тіньовим тестуванням (англ. shadow testing), який передбачає створення цілих тіньових тестів як частину вибирання завдання. Вибирання завдань із тіньових тестів допомагає адаптивним тестам відповідати критеріям вибирання, зосереджуючись на глобально оптимальних виборах (на відміну від виборів, оптимальних для конкретного завдання).[джерело?]

Багатовимірне адаптивне тестування

За заданого набору завдань багатовимірний комп'ютеризований адаптивний тест (БКАТ, англ. multidimensional computer adaptive test, MCAT) обирає завдання з банку відповідно до оцінених кваліфікацій студента, створюючи індивідуалізований тест. БКАТи прагнуть максимізувати точність тесту, ґрунтуючись на одночасному оцінюванні кількох кваліфікацій (на відміну від комп'ютеризованого адаптивного тесту — КАТ — який оцінює лише одну кваліфікацію) з використанням послідовності завдань, наданих раніше (Piton-Gonçalves та Aluísio, 2012).[джерело?]

Див. також

Примітки

  1. National Council on Measurement in Education (англ.). Архів оригіналу за 22 липня 2017.
  2. а б в г д е ж и к л м Weiss, D. J.; Kingsbury, G. G. (1984). Application of computerized adaptive testing to educational problems. Journal of Educational Measurement (англ.). 21 (4): 361—375. doi:10.1111/j.1745-3984.1984.tb01040.x.
  3. а б в г д е ж и к л Thissen, D.; Mislevy, R.J. (2000). Testing Algorithms. У Wainer, H. (ред.). Computerized Adaptive Testing: A Primer (англ.). Mahwah, NJ: Lawrence Erlbaum Associates.
  4. Green, B.F. (2000). System design and operation. У Wainer, H. (ред.). Computerized Adaptive Testing: A Primer (англ.). Mahwah, NJ: Lawrence Erlbaum Associates.
  5. Колгатін, О.Г.; Колгатіна, Л.С. (2015). Інтерпретація тестових результатів на основі логістичної моделі в табличному процесорі. Теорія та методика навчання математики, фізики, інформатики (укр.). Кривий Ріг: ДВНЗ КНУ. 13 (2): 338—339. doi:10.55056/tmn.v13i2.795.
  6. Див. 2006 special issue of Applied Measurement in Education (англ.). або Computerized Multistage Testing (англ.). для отримання додаткової інформації про багатоетапне тестування.[джерело?]
  7. Knox, Liam (5 March 2024). College Board launches digital SAT. Inside Higher Ed (англ.). Процитовано 10 березня 2024.
  8. International Association for Computerized Adaptive Testing (IACAT) (англ.). Архів оригіналу за 3 грудня 2009.
  9. а б в г Wainer, H.; Mislevy, R.J. (2000). Item response theory, calibration, and estimation. У Wainer, H. (ред.). Computerized Adaptive Testing: A Primer (англ.). Mahwah, NJ: Lawrence Erlbaum Associates.
  10. Lawrence M. Rudner. An On-line, Interactive, Computer Adaptive Testing Tutorial. EdRes.org/scripts/cat (англ.).
  11. Requirements of Computerized Adaptive Testing (PDF). FastTEST Web (англ.). Архів оригіналу (PDF) за 25 квітня 2012.
  12. GMAT Tip: Adapting to a Computer-Adaptive Test. Bloomberg (англ.). 3 квітня 2013. Архів оригіналу за 6 квітня 2013.
  13. а б Lin, C.-J.; Spray, J.A. (2000), Effects of item-selection criteria on classification testing with the sequential probability ratio test. (Research Report 2000-8) (PDF) (англ.), Iowa City, IA: ACT, Inc., архів (PDF) оригіналу за 21 квітня 2015
  14. Wald, A. (1947). Sequential analysis (англ.). New York: Wiley.
  15. Reckase, M. D. (1983). A procedure for decision making using tailored testing. У Weiss, D. J. (ред.). New horizons in testing: Latent trait theory and computerized adaptive testing (англ.). New York: Academic Press. с. 237—255. ISBN 0-12-742780-5.
  16. Weitzman, R. A. (1982). Sequential testing for selection. Applied Psychological Measurement (англ.). 6 (3): 337—351. CiteSeerX 10.1.1.1030.6828. doi:10.1177/014662168200600310. S2CID 122365749.
  17. а б Kingsbury, G. G.; Weiss, D. J. (1983). A procedure for decision making using tailored testing. У Weiss, D. J. (ред.). A comparison of IRT-based adaptive mastery testing and a sequential mastery testing procedure (англ.). New York: Academic Press. с. 257—283. ISBN 0-12-742780-5.
  18. а б в Eggen, T. J. H. M; Straetmans, G. J. J. M. (2000). Computerized adaptive testing for classifying examinees into three categories. Educational and Psychological Measurement (англ.). 60 (5): 713—734. doi:10.1177/00131640021970862. S2CID 64632296.
  19. Spray, J. A.; Reckase, M. D. (5–7 April 1994). The selection of test items for decision making with a computerized adaptive test (PDF). Annual Meeting of the National Council for Measurement in Education (англ.). New Orleans, LA. Архів (PDF) оригіналу за 30 квітня 2015.
  20. англ. cat — кіт, англ. bat — кажан
  21. Sympson, B.J.; Hetter, R.D. (1985). Controlling item-exposure rates in computerized adaptive testing. Annual conference of the Military Testing Association (англ.). San Diego.
  22. van der Linden, W. J.; Veldkamp, B. P. (2004). Constraining item exposure in computerized adaptive testing with shadow tests. Journal of Educational and Behavioral Statistics (англ.). 29 (3): 273—291. doi:10.3102/10769986029003273. S2CID 381707.

Додаткові джерела

Література

Посилання