Explorative DatenanalyseDie explorative Datenanalyse (EDA) oder explorative Statistik ist ein Teilgebiet der Statistik. Sie untersucht und begutachtet Daten, von denen nur ein geringes Wissen über deren Zusammenhänge vorliegt. Viele EDA-Techniken werden im Data-Mining eingesetzt. Außerdem werden sie häufig in Lehrveranstaltungen über die Statistik als Einführung in das statistische Denken gelehrt. Diese Benennung wurde von John W. Tukey in den 1970er Jahren eingeführt. Tukey legte dar, dass ein zu großer Schwerpunkt in der Statistik auf das Auswerten und Testen von gegebenen Hypothesen gelegt wird. Ferner schlug er vor, Daten dazu zu verwenden, um mögliche Hypothesen zu erhalten, welche anschließend getestet werden. ZieleZiele der explorativen Statistik sind:
VerfahrenGrundlegende graphische Methoden, welche in der explorativen Statistik verwendet werden, sind: Grundlegende quantitative Methoden sind: Spezielle VerfahrenProblemeProblematisch kann das Bilden von Hypothesen anhand eines Datensatzes und das Testen dieser Hypothesen auf dem gleichen Datensatz sein. Dann können scheinbar signifikante Resultate oder Scheinkorrelationen erhalten werden, die sich aber auf einem unabhängigen Datensatz zum selben Sachverhalt nicht zeigen würden – dies ist das Problem von P-Hacking. Ein Ausweg aus diesem Problem ist das strikte Trennen von Datensätzen, die man zum Bilden von Hypothesen nutzt und Datensätzen, die man zum validieren der gefundenen Hypothesen benutzt (siehe Kreuzvalidierungsverfahren). Explorative Datenanalyse – Beurteilende StatistikDie EDA, eine Weiterentwicklung der deskriptiven Statistik zur Analyse von Daten, arbeitet mehr induktiv: Mit ihren Methoden soll Neues entdeckt, sollen Vermutungen generiert, Besonderheiten erkannt und Sachverhalte dargestellt werden.[1] Die Daten bestimmen die Vorgehensweise. Die Einfachheit der Methoden und ihre Praxisrelevanz machen die EDA als Schulstoff besonders interessant.[2] Tukey benutzt die Figur des Datendetektivs[3], von dem Einfallsreichtum und Intuition verlangt werden, um die Einstellung zur EDA zu kennzeichnen. Die beurteilende Statistik arbeitet deduktiv: Eine Hypothese wird entweder verworfen oder beibehalten. Die dabei benutzten Verfahren sind hoch formalisiert, häufig schwer zu verstehen, ihre praktische Relevanz sowie die Interpretation der Ergebnisse umstritten.[4] Beide, EDA und beurteilende Statistik, schließen jedoch einander nicht aus, sie ergänzen sich.[Anm. 1] Literatur
Anmerkungen
Einzelnachweise
|
Portal di Ensiklopedia Dunia