Multivariate kalibratie en foutenbronnen

Naast het gewenste signaal bevatten multivariate meetgegevens, zoals spectra, ongewenste foutenbronnen zoals een (kleine) hoeveelheid ruis en vaak ook interferenties. Bijkomend kunnen fouten optreden door het verkeerd gebruik van het meettoestel of een verkeerde dataverwerking. Er zijn twee soorten interferentie:

  1. Chemische interferentie: is de aanwezigheid van (onbekende) onzuiverheden of het niet-lineaire antwoord van het meettoestel voor wisselende concentraties van een product. Verandering van het productspectrum bij wijziging van pH is hier een voorbeeld van.
  2. Fysische interferentie: is interferentie die niet specifiek te wijten is aan de aanwezigheid van een bepaalde stof. Voorbeelden van fysische interferentie zijn temperatuursverandering, verandering in deeltjesgrootte, ...

Interferentie kan vaak op een wiskundige manier beschreven worden. Met behulp van representatieve stalen wordt een wiskundig model opgebouwd waarmee de interferentie van nieuwe stalen ingeschat kan worden. Bijgevolg moeten de stalen zo veel mogelijk de relevante variatie van het bestudeerde proces, alsook de verwachte interferenties, bevatten. Met behulp van wiskundige modellering wordt het dan mogelijk de invloed van foutenbronnen te verminderen:

  • door het gebruik van robuuste regressiemethoden (PCR, PLS) die kleine variaties in de meetgegevens kunnen opvangen
  • door voorafgaande (mathematische) correctie indien de interferentie reeds bekend is

Wegens een verkeerde of ontoereikende dataverwerking kunnen foute conclusies getrokken worden. Er moet dan ook voldaan zijn aan de voorwaarden die het gebruikte regressiealgoritme stelt. Het regressiealgoritme laat toe om relevante conclusies te trekken uit de overmaat aan meetgegevens. De voorwaarden voor en correct gebruik van het regressiealgoritme kunnen o.a. zijn:

  • de gegevens moeten een lineaire respons vertonen
  • de gegevens moeten uit normaal verdeelde populatie komen
  • variabelen moeten onafhankelijk zijn
  • residuelen zijn onafhankelijk van de x-waarden en zijn normaal verdeeld
  • ...

Indien niet aan deze belangrijke voorwaarden voldaan is, ontstaan meestal zeer grote voorspelfouten. Bovendien bestaat de voorspelfout uit twee delen met tegengestelde trend (zie figuur):

  • de invloed van interferentie zal dalen met toenemende complexiteit van het wiskundige model, dat de gegevens en de verschillende interferentiebronnen beschrijft
  • bij toenemende complexiteit van het model ontstaat er statistische onzekerheid door het stijgend aantal parameters dat moet worden geschat. Elke parameter die moet worden geschat bevat een zekere fout.
Verschillende types voorspelfouten en de relatie tot over- en onderfitting

Onderfitting is het modelleren met te weinig factoren. De predictieve capaciteit van het model is onvoldoende voor een optimale voorspelling.

Overfitten is het modelleren met te veel factoren. De voorspellende kracht is schijnbaar heel hoog, maar ruis wordt mee gemodelleerd. Hierdoor worden te optimistische resultaten bekomen, zelfs na cross-validatie. Validatie van het model op een onafhankelijke dataset is steeds noodzakelijk.

Verbeteren van de voorspelling: eliminatie van foutenbronnen

Het gebruik van meer data laat toe de verschillende effecten beter in te schatten. Triviaal is ook het gebruik van betere data, met verminderde ruis en interferentie. Dergelijke irrelevante variatie kan ook verwijderd worden door geschikte preprocessing.

Een mathematisch model bevat een aantal veronderstellingen over de populatie van bestudeerde objecten (bijvoorbeeld: de data vertonen een lineaire respons). De veronderstellingen van het gebruikte model en regressiemethode gaan niet altijd even goed op voor de hele populatie. Bij het bestaan van subpopulaties is het beter de volledige dataset op te splitsen.

Zie ook