UitbijterEen uitbijter of uitschieter (outlier) is in de statistiek en gegevensanalyse een waarneming die niet bij de overige lijkt te passen. Meestal betreft het een van de gegevens die relatief ver van de overige data verwijderd ligt. Statistieken afgeleid uit gegevens met uitbijters kunnen een sterk vertekend beeld geven van de werkelijkheid. Uitbijters kunnen echter ook een aanwijzing zijn dat niet de juiste kansverdeling wordt toegepast. In dat geval is er feitelijk geen sprake van uitschieter. Zo heeft een uitbijter grote invloed op het rekenkundig gemiddelde, maar nauwelijks of geen invloed op de mediaan. Detectie van uitbijters is, naast het opsporen van redundantie en de eliminatie van ruis, een van de belangrijkste taken na het opmeten en verzamelen van resultaatgegevens. Voor het detecteren van uitbijters moet onderscheid gemaakt worden tussen univariate (slechts één meetresultaat per meting voor een staal) en multivariate gegevens (vele, soms wel honderden, meetresultaten per meting voor een staal). VoorbeeldStel bijvoorbeeld dat de temperatuur van een kamer gevolgd wordt die rond 20 °C ligt en dat er 9 metingen zijn in de buurt van de doeltemperatuur en één meting van 200 °C. Dan is duidelijk dat deze laatste meting een uitbijter is, dus niet juist, die het totale beeld verstoort. Een uitbijter behoort niet tot de betrokken populatie. Voorkomen en oorzaken van uitbijtersIn een normale verdeling liggen 95% van de meetwaarden op maximaal twee standaardafwijkingen van het gemiddelde, terwijl 99,7% van de meetwaarden op maximaal 3 standaarddeviaties van het midden liggen. Wanneer in een normaal verdeelde populatie een hoger percentage van de meetwaarden buiten deze intervallen ligt, zijn er waarschijnlijk uitbijters aanwezig in de dataset. Een andere mogelijkheid is dat er geen sprake is van een normale verdeling, maar andere kansverdeling, zoals een lange of zware staart. Voor het weergeven van de spreiding van meetwaarden en uitbijters wordt vaak gebruikgemaakt van een boxplot. Uitbijters hebben tal van mogelijke oorzaken, waaronder technische oorzaken.
Detectie van uitbijtersEr bestaat geen eenduidige definitie van wat een uitbijter is. Het bepalen of een meetwaarde een uitbijter is, is bijgevolg subjectief. Diverse criteria worden gebruikt voor het objectiveren van de beslissing of een bepaalde meetwaarde een uitbijter is. Meestal wordt uitgegaan van de veronderstelling dat de meetpunten van een dataset uit een normaal verdeelde populatie komen. Een vaak gebruikt criterium stelt dat een meetwaarde die meer dan drie standaarddeviaties van het gemiddelde ligt, een uitbijter is. Andere criteria die afgeleid worden van het gemiddelde en de standaardafwijking zijn:
Daarnaast bestaan er ook criteria die gebruikmaken van de interkwartielafstand. Wanneer bijvoorbeeld en het eerste en derde kwartiel zijn, kan een meetwaarde als uitbijter beschouwd worden als deze ligt buiten het interval
waarbij een vooraf bepaalde constante is. Univariate gegevensIn het meest voorkomende geval is er per meting van een staal slechts één meetresultaat verkregen. Vaak volgen de meetwaarden een normale verdeling. Als dit niet het geval is, kan soms door een geschikte transformatie toch tot een normale verdeling besloten worden. Detectie van uitbijters bij univariate gegevens die als normaal verdeeld beschouwd kunnen worden, kan op de volgende wijze gedaan worden:
Multivariate gegevensBij multivariate gegevens zullen de verschillende meetwaarden per meting tezamen veranderen. Daarom kan de procedure van univariate gegevens niet gevolgd worden en zijn enkel speciale multivariate methoden bruikbaar die de gezamenlijke verandering van verschillende meetwaarden kunnen uitbuiten. Voor detectie van uitbijters bij multivariate gegevens kan gebruik worden gemaakt van Hotellings -waarden of Cooks afstanden. In de biologie, met name de ecologie en taxonomie, wordt voor het opsporen van uitbijters en van redundantie vaak gebruikgemaakt van ordinatie, gradiëntanalyse of multidimensionale schaling (waarbij objecten en variabelen als punten of vectoren in een vectorruimte worden voorgesteld) – en van classificatie, waarbij het onderlinge verband tussen objecten wordt ontward door deze te groeperen. GevaarAls van het te meten onderwerp weinig bekend is, kan het verwijderen van uitbijters leiden tot onbewuste datamassage, manipulatie van data tot een gewenste uitkomst. Het is daarom aan te bevelen om de criteria voor de gegevensselectie vooraf (ex ante) vast te stellen en niet achteraf (ex post). Zie ook |