Multivariate kalibratie en foutenbronnenNaast het gewenste signaal bevatten multivariate meetgegevens, zoals spectra, ongewenste foutenbronnen zoals een (kleine) hoeveelheid ruis en vaak ook interferenties. Bijkomend kunnen fouten optreden door het verkeerd gebruik van het meettoestel of een verkeerde dataverwerking. Er zijn twee soorten interferentie:
Interferentie kan vaak op een wiskundige manier beschreven worden. Met behulp van representatieve stalen wordt een wiskundig model opgebouwd waarmee de interferentie van nieuwe stalen ingeschat kan worden. Bijgevolg moeten de stalen zo veel mogelijk de relevante variatie van het bestudeerde proces, alsook de verwachte interferenties, bevatten. Met behulp van wiskundige modellering wordt het dan mogelijk de invloed van foutenbronnen te verminderen:
Wegens een verkeerde of ontoereikende dataverwerking kunnen foute conclusies getrokken worden. Er moet dan ook voldaan zijn aan de voorwaarden die het gebruikte regressiealgoritme stelt. Het regressiealgoritme laat toe om relevante conclusies te trekken uit de overmaat aan meetgegevens. De voorwaarden voor en correct gebruik van het regressiealgoritme kunnen o.a. zijn:
Indien niet aan deze belangrijke voorwaarden voldaan is, ontstaan meestal zeer grote voorspelfouten. Bovendien bestaat de voorspelfout uit twee delen met tegengestelde trend (zie figuur):
Onderfitting is het modelleren met te weinig factoren. De predictieve capaciteit van het model is onvoldoende voor een optimale voorspelling. Overfitten is het modelleren met te veel factoren. De voorspellende kracht is schijnbaar heel hoog, maar ruis wordt mee gemodelleerd. Hierdoor worden te optimistische resultaten bekomen, zelfs na cross-validatie. Validatie van het model op een onafhankelijke dataset is steeds noodzakelijk. Verbeteren van de voorspelling: eliminatie van foutenbronnenHet gebruik van meer data laat toe de verschillende effecten beter in te schatten. Triviaal is ook het gebruik van betere data, met verminderde ruis en interferentie. Dergelijke irrelevante variatie kan ook verwijderd worden door geschikte preprocessing. Een mathematisch model bevat een aantal veronderstellingen over de populatie van bestudeerde objecten (bijvoorbeeld: de data vertonen een lineaire respons). De veronderstellingen van het gebruikte model en regressiemethode gaan niet altijd even goed op voor de hele populatie. Bij het bestaan van subpopulaties is het beter de volledige dataset op te splitsen. Zie ook |