Задача классифика́ции — задача, в которой множество объектов (ситуаций) необходимо разделить некоторым образом на классы, при этом задано конечное множество объектов, для которых известно, к каким классам они относятся (выборка), но классовая принадлежность остальных объектов неизвестна. Для решения задачи требуется построить алгоритм, способный классифицировать произвольный объект из исходного множества, то есть указать, к какому классу он относится.
Существуют также другие способы постановки эксперимента — обучение без учителя, но они используются для решения другой задачи — кластеризации или таксономии. В этих задачах разделение объектов обучающей выборки на классы не задаётся, и требуется классифицировать объекты только на основе их сходства друг с другом. В некоторых прикладных областях, и даже в самой математической статистике, из-за близости задач часто не различают задачи кластеризации от задач классификации.
Пусть — множество описаний объектов,
— множество номеров (или наименований) классов.
Существует неизвестная целевая зависимость — отображение
,
значения которой известны только на объектах конечной обучающей выборки.
Требуется построить алгоритм
,
способный классифицировать произвольный объект
.
Вероятностная постановка задачи
Более общей считается вероятностная постановка задачи.
Предполагается, что множество пар «объект, класс»
является вероятностным пространством
с неизвестной вероятностной мерой.
Имеется конечная обучающая выборка наблюдений
,
сгенерированная согласно вероятностной мере .
Требуется построить алгоритм
,
способный классифицировать произвольный объект
.
Признаковое пространство
Признаком называется отображение
,
где
— множество допустимых значений признака.
Если заданы признаки
,
то вектор
называется признаковым описанием объекта
.
Признаковые описания допустимо отождествлять с самими объектами.
При этом множество
называют признаковым пространством.
В зависимости от множества признаки делятся на следующие типы:
Часто встречаются прикладные задачи с разнотипными признаками, для их решения подходят далеко не все методы.
Типология задач классификации
Типы входных данных
Признаковое описание — наиболее распространённый случай. Каждый объект описывается набором своих характеристик, называемых признаками. Признаки могут быть числовыми или нечисловыми.
Временной ряд или сигнал представляет собой последовательность измерений во времени. Каждое измерение может представляться числом, вектором, а в общем случае — признаковым описанием исследуемого объекта в данный момент времени.
Двухклассовая классификация. Наиболее простой в техническом отношении случай, который служит основой для решения более сложных задач.
Многоклассовая классификация. Когда число классов достигает многих тысяч (например, при распознавании иероглифов или слитной речи), задача классификации становится существенно более трудной.
Непересекающиеся классы.
Пересекающиеся классы. Объект может относиться одновременно к нескольким классам.
Нечёткие классы. Требуется определять степень принадлежности объекта каждому из классов, обычно это действительное число от 0 до 1.
Вапник В. Н. Восстановление зависимостей по эмпирическим данным. — М.: Наука, 1979.
Гудфеллоу Я., Бенджио И., Курвилль А. Глубокое обучение / пер. с анг. А. А. Слинкина. — 2-е изд., испр.. — М.: ДМК Пресс, 2018. — 652 с. — ISBN 978-5-97060-618-6.
Журавлёв Ю. И., Рязанов В. В., Сенько О. В. «Распознавание». Математические методы. Программная система. Практические применения. — М.: Фазис, 2006. ISBN 5-7036-0108-8.