Комп'ютеризо́ваний класифікаці́йний тест (ККТ, англ.computerized classification test, CCT) — це система атестації, здійснюваної за допомогою комп'ютера з метою класифікування іспитників. Найпоширенішим ККТ є тест на засвоєння знань, у якому тест класифікує іспитників як «склав» або «провалив», але цей термін також охоплює й тести, які класифікують іспитників у понад дві категорії. Хоча цей термін можна вважати загальним для всіх комп'ютеризованих тестів для класифікування, зазвичай його застосовують до тестів, що проводяться інтерактивно або мають змінну довжину, подібно до комп'ютеризованого адаптивного тестування (КАТ). Як і КАТ, ККТ змінної довжини може досягати мети тесту (точної класифікації) із залученням меншої кількості завдань порівняно зі звичайним тестом незмінного вигляду.
Для проведення ККТ потрібні кілька складових:
Банк завдань, відкалібрований за обраною психометричною моделлю, визначеною розробником тесту
Початкова точка не є предметом обговорення; дослідження ККТ здебільшого стосуються застосування різних методів для інших трьох складових. Примітка: Критерій завершення та процедура оцінювання відокремлені в КАТ, але є одним і тим же в ККТ, оскільки тест завершується, коли ухвалено рішення щодо класифікації. Тож для розробки КАТ потрібно визначати п'ять складових.
Вступ до ККТ представлено в Томпсона (2007)[1] та книзі Паршалла, Спрея, Калона та Дейві (2006).[2] Нижче наведено бібліографію опублікованих досліджень з ККТ.
Як він працює
ККТ дуже подібний до КАТ. Завдання надаються іспитникові по одному. Після відповіді іспитника на завдання комп'ютер оцінює її та визначає, чи вже можливо класифікувати іспитника. Якщо можливо, тест завершується, й іспитника класифіковано. Якщо ні, надається наступне завдання. Цей процес повторюється, доки іспитника не буде класифіковано або не буде досягнуто іншої точки завершення (усі завдання з банку завдань використані або досягнуто максимальної довжини тесту).
Психометрична модель
Для психометричної моделі ККТ доступні два підходи: класична теорія тестування (КТТ) та теорія відгуку завдання[3] (ТВЗ, англ.item response theory, IRT). Класична теорія тестування виходить із моделі станів (англ.state model), оскільки її застосовують шляхом визначення параметрів завдань для вибірки іспитників, для яких визначено, до якої категорії вони належать. Наприклад, може бути відібрано кілька сотень «тих, хто засвоїв» та кілька сотень «тих, хто не засвоїв» для визначення складності й розрізнювальності кожного завдання, але це вимагає здатності легко встановлювати виразну множину людей, що є в кожній групі. ТВЗ, натомість, виходить із моделі рис[4] (англ.trait model); знання або здібності, вимірювані тестом, це континуум. Класифікаційні групи потрібно буде більш-менш довільно визначити вздовж цього континууму, як-от використанням прохідного балу для розмежування тих, хто засвоїв, і тих, хто не засвоїв, але визначення параметрів завдань виходить із моделі рис.
Кожна має свої переваги й недоліки. КТТ пропонує більшу умоглядну простоту. Що важливіше, КТТ вимагає менше іспитників у вибірці для калібрування параметрів завдань, які згодом використовуватимуть у розробці ККТ, що робить її корисною для менших програм тестування. Опис ККТ на основі КТТ див. у Фріка (1992).[5] Проте більшість ККТ використовують ТВЗ. ТВЗ пропонує вищу специфічність, але найважливішою причиною може бути те, що розробка ККТ (і КАТ) є дорогою, і, таким чином, частіше здійснюється великими програмами тестування зі значними ресурсами. Такі програми, ймовірно, використовуватимуть ТВЗ.
Початкова точка
ККТ мусить мати визначену початкову точку, щоби уможливити певні алгоритми. Якщо як критерій завершення використовують послідовний критерій відношення ймовірностей(інші мови) (англ.sequential probability ratio test, SPRT), він неявно виходить із початкового відношення 1,0 (однакова ймовірність того, що іспитник засвоїв, і що не засвоїв). Якщо ж критерій завершення ґрунтується на підході довірчого інтервалу, необхідно задати початкову точку на тета (). Зазвичай це 0,0, центр розподілу, але також можливо випадково обирати значення з певного розподілу, якщо параметри розподілу іспитників відомі. Крім того, можливо використовувати попередню інформацію про конкретного іспитника, наприклад, його результат, отриманий під час попереднього проходження тесту (в разі повторного складання).
Обирання завдань
У ККТ завдання обираються для надання упродовж усього тесту, на відміну від традиційного методу надання незмінного набору завдань усім іспитникам. Хоча зазвичай це роблять на рівні окремих завдань, можливе й обирання груп завдань, відомих як тестлети (Луехт і Нанґестер, 1998;[6] Вос і Ґлас, 2000[7]).
Методи обирання завдань поділяють на дві категорії: на основі прохідного балу, та на основі оцінки. Методи на основі прохідного балу (відомі також як послідовний вибір) максимізують інформацію, яку надає завдання на рівні прохідного балу або балів, якщо їх декілька, незалежно від кваліфікації іспитника. Методи на основі оцінки (відомі також як адаптивне обирання) максимізують інформацію на рівні поточної оцінки кваліфікації іспитника, незалежно від місця розташування прохідного балу. Обидва підходи працюють ефективно, але їхня ефективність залежить, зокрема, від критерію завершення. Оскільки послідовний критерій відношення ймовірностей(інші мови) оцінює ймовірності лише поблизу прохідного балу, доречніше обирання завдань на основі прохідного балу. Оскільки критерій завершення на основі довірчого інтервалу орієнтований на оцінку кваліфікації іспитника, доречніше адаптивне обирання завдань. Це пояснюється тим, що тест завершиться класифікацією, коли довірчий інтервал стане достатньо малим, щоби повністю перебувати вище або нижче прохідного балу (див. нижче). Довірчий інтервал буде меншим, якщо стандартна похибка вимірювання буде меншою, а вона, своєю чергою, буде меншою, якщо на рівні тета іспитника більше інформації.
Критерій завершення
Існує три основні критерії завершення, які зазвичай використовують для ККТ. Методи баєсової теорії рішень пропонують велику гнучкість, надаючи нескінченний вибір структур втрат/корисності та критеріїв оцінювання, але водночас вносять більшу довільність. Підхід довірчого інтервалу розраховує довірчий інтервал навколо поточної оцінки тета іспитника на кожному етапі тесту та класифікує іспитника, коли цей інтервал повністю потрапляє в область тета, що визначає класифікацію. Цей метод спочатку був відомий як адаптивне тестування на засвоєння (Kingsbury та Weiss, 1983), але він не обов'язково вимагає адаптивного обирання завдань і не обмежується ситуацією тестування на засвоєння з бінарною класифікацією. Метод послідовного критерію відношення ймовірностей(інші мови) (Reckase, 1983) визначає задачу класифікування як перевірку гіпотези того, що тета іспитника дорівнює заданій точці вище прохідного балу або заданій точці нижче прохідного балу.
↑Parshall, C. G.; Spray, J. A.; Kalohn, J. C.; Davey, T. (2006). Practical considerations in computer-based testing(англ.). New York: Springer.
↑Колгатін, О.Г.; Колгатіна, Л.С. (2015). Інтерпретація тестових результатів на основі логістичної моделі в табличному процесорі. Теорія та методика навчання математики, фізики, інформатики(укр.). Кривий Ріг: ДВНЗ КНУ. 13 (2): 338—339. doi:10.55056/tmn.v13i2.795.
↑Карпенко, Є.; Савко, Н.; Лялюк, Ю.; Колісник, Р. (2024). Емоційний інтелект в організації структури мотивації особистості. Інсайт: психологічні виміри суспільства(укр.). 11: 57—76. doi:10.32999/2663-970X/2024-11-4.
↑Frick, T. (1992). Computerized Adaptive Mastery Tests as Expert Systems. Journal of Educational Computing Research(англ.). 8 (2): 187—213. doi:10.2190/J87V-6VWP-52G7-L4XX.
↑Luecht, R. M.; Nungester, R. J. (1998). Some practical examples of computer-adaptive sequential testing. Journal of Educational Measurement(англ.). 35: 229—249. doi:10.1111/j.1745-3984.1998.tb00537.x.
↑Vos, H.J.; Glas, C.A.W. (2000). Testlet-based adaptive mastery testing. У van der Linden, W.J.; Glas, C.A.W. (ред.). Computerized Adaptive Testing: Theory and Practice(англ.). doi:10.1007/0-306-47531-6_15.
Бібліографія дослідження ККТ
Armitage, P. (1950). Sequential analysis with more than two alternative hypotheses, and its relation to discriminant function analysis. Journal of the Royal Statistical Society(англ.). 12: 137—144.
Braun, H.; Bejar, I.I.; Williamson, D.M. (2006). Rule-based methods for automated scoring: Application in a licensing context. У Williamson, D.M.; Mislevy, R.J.; Bejar, I.I. (ред.). Automated scoring of complex tasks in computer-based testing(англ.). Mahwah, NJ: Erlbaum.
Dodd, B.G.; De Ayala, R.J.; Koch, W.R. (1995). Computerized adaptive testing with polytomous items. Applied Psychological Measurement(англ.). 19: 5—22.
Eggen, T.J.H.M. (1999). Item selection in adaptive testing with the sequential probability ratio test. Applied Psychological Measurement(англ.). 23: 249—261.
Eggen, T.J.H.M.; Straetmans, G.J.J.M. (2000). Computerized adaptive testing for classifying examinees into three categories. Educational and Psychological Measurement(англ.). 60: 713—734.
Ferguson, R.L. (1969). The development, implementation, and evaluation of a computer-assisted branched test for a program of individually prescribed instruction (PhD, unpublished) (англ.). University of Pittsburgh.
Frick, T.W. (1989). Bayesian adaptation during computer-based tests and computer-guided exercises. Journal of Educational Computing Research(англ.). 5: 89—114.
Frick, T.W. (1990). A comparison of three decisions models for adapting the length of computer-based mastery tests. Journal of Educational Computing Research(англ.). 6: 479—513.
Frick, T.W. (1992). Computerized adaptive mastery tests as expert systems. Journal of Educational Computing Research(англ.). 8: 187—213.
Huang, C.-Y.; Kalohn, J.C.; Lin, C.-J.; Spray, J. (2000). Estimating Item Parameters from Classical Indices for Item Pool Development with a Computerized Classification Test (Research Report 2000–4) (англ.). Iowa City, IA: ACT, Inc.
Jacobs-Cassuto, M.S. (2005). A Comparison of Adaptive Mastery Testing Using Testlets With the 3-Parameter Logistic Model (PhD, unpublished) (англ.). University of Minnesota, Minneapolis, MN.
Jiao, H.; Lau, A.C. (April 2003). The Effects of Model Misfit in Computerized Classification Test. Annual meeting of the National Council of Educational Measurement (англ.). Chicago, IL.
Jiao, H.; Wang, S.; Lau, C.A. (April 2004). An Investigation of Two Combination Procedures of SPRT for Three-category Classification Decisions in Computerized Classification Test. Annual meeting of the American Educational Research Association (англ.). San Antonio.
Kalohn, J.C.; Spray, J.A. (1999). The effect of model misspecification on classification decisions made using a computerized test. Journal of Educational Measurement(англ.). 36: 47—59.
Kingsbury, G.G.; Weiss, D.J. (1979). An adaptive testing strategy for mastery decisions (Research report 79–05) (англ.). Minneapolis: University of Minnesota, Psychometric Methods Laboratory.
Kingsbury, G.G.; Weiss, D.J. (1983). A comparison of IRT-based adaptive mastery testing and a sequential mastery testing procedure. У Weiss, D.J. (ред.). New horizons in testing: Latent trait theory and computerized adaptive testing(англ.). New York: Academic Press. с. 237—254.
Lau, C.A. (1996). Robustness of a unidimensional computerized testing mastery procedure with multidimensional testing data (PhD, unpublished) (англ.). University of Iowa, Iowa City IA.
Lau, C.A.; Wang, T. (1998). Comparing and combining dichotomous and polytomous items with SPRT procedure in computerized classification testing. Annual meeting of the American Educational Research Association (англ.). San Diego.
Lau, C.A.; Wang, T. (1999). Computerized classification testing under practical constraints with a polytomous model. Annual meeting of the American Educational Research Association (англ.). Montreal, Canada.
Lau, C.A.; Wang, T. (2000). A new item selection procedure for mixed item type in computerized classification testing. Annual meeting of the American Educational Research Association (англ.). New Orleans, Louisiana.
Lewis, C.; Sheehan, K. (1990). Using Bayesian decision theory to design a computerized mastery test. Applied Psychological Measurement(англ.). 14: 367—386.
Lin, C.-J.; Spray, J.A. (2000). Effects of item-selection criteria on classification testing with the sequential probability ratio test (Research Report 2000–8) (англ.). Iowa City, IA: ACT, Inc.
Linn, R.L.; Rock, D.A.; Cleary, T.A. (1972). Sequential testing for dichotomous decisions. Educational & Psychological Measurement(англ.). 32: 85—95.
Luecht, R.M. (1996). Multidimensional Computerized Adaptive Testing in a Certification or Licensure Context. Applied Psychological Measurement(англ.). 20: 389—404.
Reckase, M.D. (1983). A procedure for decision making using tailored testing. У Weiss, D.J. (ред.). New horizons in testing: Latent trait theory and computerized adaptive testing(англ.). New York: Academic Press. с. 237—254.
Rudner, L.M. (1–5 April 2002). An examination of decision-theory adaptive testing procedures. Annual meeting of the American Educational Research Association (англ.). New Orleans, LA.
Sheehan, K.; Lewis, C. (1992). Computerized mastery testing with nonequivalent testlets. Applied Psychological Measurement(англ.). 16: 65—76.
Spray, J.A. (1993). Multiple-category classification using a sequential probability ratio test (Research Report 93–7) (англ.). Iowa City, Iowa: ACT, Inc.
Spray, J.A.; Abdel-fattah, A.A.; Huang, C.; Lau, C.A. (1997). Unidimensional approximations for a computerized test when the item pool and latent space are multidimensional (Research Report 97–5) (англ.). Iowa City, Iowa: ACT, Inc.
Spray, J.A.; Reckase, M.D. (1987). The effect of item parameter estimation error on decisions made using the sequential probability ratio test (Research Report 87–17) (англ.). Iowa City, IA: ACT, Inc.
Spray, J.A.; Reckase, M.D. (5–7 April 1994). The selection of test items for decision making with a computerized adaptive test. Annual Meeting of the National Council for Measurement in Education (англ.). New Orleans, LA.
Spray, J.A.; Reckase, M.D. (1996). Comparison of SPRT and sequential Bayes procedures for classifying examinees into two categories using a computerized test. Journal of Educational & Behavioral Statistics(англ.). 21: 405—414.
Vos, H.J. (1998). Optimal sequential rules for computer-based instruction. Journal of Educational Computing Research(англ.). 19: 133—154.
Vos, H.J. (1999). Applications of Bayesian decision theory to sequential mastery testing. Journal of Educational and Behavioral Statistics(англ.). 24: 271—292.
Wald, A. (1947). Sequential analysis(англ.). New York: Wiley.
Weiss, D.J.; Kingsbury, G.G. (1984). Application of computerized adaptive testing to educational problems. Journal of Educational Measurement(англ.). 21: 361—375.
Weissman, A. (2004). Mutual information item selection in multiple-category classification CAT. Annual Meeting of the National Council for Measurement in Education (англ.). San Diego, CA.
Weitzman, R.A. (1982b). Weiss, D. J. (ред.). Use of sequential testing to prescreen prospective entrants into military service. Proceedings of the 1982 Computerized Adaptive Testing Conference (англ.). Minneapolis, MN: University of Minnesota, Department of Psychology, Psychometric Methods Program.