Probabilistische KlassifikationBei der probabilistischen Klassifikation sagt ein maschineller Klassifikator zu einer gegebenen Beobachtung eine Wahrscheinlichkeitsverteilung für eine Menge von Klassen vorher, statt beispielsweise nur die wahrscheinlichste Klasse zurückzugeben. Die vorhergesagte Wahrscheinlichkeit kann entweder direkt verwendet oder in ein Ensemble mit Vorhersagen weiterer Modelle kombiniert werden. DefinitionEin gewöhnlicher, nicht probabilistischer Klassifikator kann als Funktion betrachtet werden, die einer Beobachtung ein Klassenlabel zuordnet:
Die Beobachtung stammt aus einer Menge aller möglichen Beobachtungen (bspw. Dokumente oder Bilder). Die möglichen Labels bilden eine endliche Menge . Probabilistische Klassifikatoren beschreiben im Gegensatz dazu eine bedingte Wahrscheinlichkeit . Das heißt, sie weisen für eine Beobachtung jedem möglichen Label eine Wahrscheinlichkeit zu, wobei die Summe der Wahrscheinlichkeiten 1 beträgt. Aus dieser Wahrscheinlichkeitsverteilung kann bei Bedarf eine einzelne Klasse gewählt werden, um einen nicht probabilistischen Klassifikator zu erhalten. Optimalerweise wird die Klasse mit der höchsten Wahrscheinlichkeit gewählt, d. h.:[1]:39–40 WahrscheinlichkeitskalibrierungManche Klassifikationsmodelle haben von Grund auf eine probabilistische Ausgabe, zum Beispiel Naive Bayes, logistische Regression und neuronale Netze mit Softmax-Ausgabe. Allerdings können die vorhergesagten Wahrscheinlichkeiten durch verschiedene Effekte verzerrt sein. Bei gut kalibrierten Klassifikatoren kann die vorhergesagte Wahrscheinlichkeit einer Klasse direkt interpretiert werden. Von allen Beobachtungen, bei denen der Klassifikator für eine bestimmte Klasse beispielsweise ungefähr eine Wahrscheinlichkeit von 80 Prozent angibt, sollen ungefähr 80 Prozent tatsächlich zu dieser Klasse gehören.[2] Die Kalibrierung kann mithilfe einer Kalibrationskurve untersucht werden. Größere Abweichungen von der Diagonalen deuten auf eine schlechte Kalibrierung hin. Um die Kalibrierung eines schlecht kalibrierten Modells zu verbessern, können verschiedene Techniken verwendet werden. Im binären Fall sind dies zum Beispiel Platt Scaling, das ein logistisches Regressionsmodell lernt,[3] oder isotonische Regression,[4] die Platt Scaling überlegen ist, wenn ausreichend viele Daten vorhanden sind.[5] Der Hosmer-Lemeshow-Test wird zur Überprüfung der Kalibrierung eines Modells eingesetzt[6]. AnwendungenProbabilistische Klassifikation findet zum Beispiel bei diskreten Ereigniszeitmodellen Anwendung. Hier ist insbesondere die Kalibrierung wichtig, damit der Klassifikator die bedingte Ausfallwahrscheinlichkeit richtig schätzt und der Klassifikator somit zur Schätzung der Überlebensfunktion verwendet werden kann. Siehe auchEinzelnachweise
|