de Anwendung von Gau%C3%9Fprozessen

Technische Anwendungen von Gaußprozessen findet man unter anderem in der Numerik, Informatik und speziell im Bereich des maschinellen Lernens. Sie stellen dort ein vielseitiges Werkzeug zum Umgang mit realen Messdaten und zur Modellierung von Funktionen dar.

Einleitung

Ein Gaußprozess ist ein stochastischer Prozess mit der Eigenschaft, dass jede endliche Teilmenge seiner Werte mehrdimensional normalverteilt (gaußverteilt) ist. Als stochastischen Prozess bezeichnet man eine Funktion, deren Werte Zufallsvariablen sind und die einer vorgegebenen Wahrscheinlichkeitsverteilung folgen. Damit lassen sich Funktionen mit Wahrscheinlichkeiten modellieren, deren Werte aus einem Mangel an Information nicht vollständig festgelegt werden können. Einen Gaußprozess konstruiert man aus Funktionen der Erwartungswerte, Varianzen und Kovarianzen und beschreibt damit die Funktionswerte als ein Kontinuum aus im Allgemeinen korrelierten Zufallsvariablen in Form einer unendlichdimensionalen Normalverteilung. Die Verteilung eines Gaußprozesses kann man sich als eine Wahrscheinlichkeitsverteilung für Funktionen vorstellen. Eine Stichprobe davon ergibt eine zufällige Funktion mit bestimmten bevorzugten Eigenschaften seiner Kurvenform.

Anwendungen

Angewendet werden Gaußprozesse zur mathematischen Modellierung des Verhaltens von nicht-deterministischen Systemen auf der Basis von stochastischen Größen oder Beobachtungen. Gaußprozesse eignen sich zur Signalanalyse und -synthese, bilden ein mächtiges Werkzeug bei der Interpolation, Extrapolation oder Glättung beliebig-dimensionaler diskreter Messpunkte (Gaußprozess-Regression bzw. Kriging-Verfahren) und finden Anwendung in Klassifizierungsproblemen. Gaußprozesse, die mit Kernel-Methoden verwandt sind,^[1] können wie ein überwachtes Maschinenlernverfahren zur abstrakten Modellierung anhand von Trainingsbeispielen verwendet werden. Dieser bayessche Ansatz des maschinellen Lernens bietet den Vorteil, dass häufig kein iteratives Training wie bei neuronalen Netzen notwendig ist. Stattdessen können Gaußprozesse sehr effizient mit linearer Algebra aus statistischen Größen der Beispiele abgeleitet werden und sind dabei mathematisch klar interpretierbar und gut kontrollierbar. Außerdem wird bei Interpolationen und Vorhersagen für jeden einzelnen Ausgabewert ein zugehöriges Vertrauensintervall berechnet, das den eigenen Vorhersagefehler präzise schätzt, während die Fehlerfortpflanzung bei bekannter Varianz der Eingabewerte korrekt berücksichtigt wird.

Mathematische Beschreibung

Definition

Ein Gaußprozess ist ein spezieller stochastischer Prozess $(X_{t})_{t\in T}$ auf einer beliebigen Indexmenge $T$ , wenn seine endlichdimensionalen Verteilungen mehrdimensionale Normalverteilungen (auch Gaußverteilungen) sind. Es soll also für alle $n\in \mathbb {N}$ und alle Indizes $t_{1},t_{2},\dotsc ,t_{n}\in T$ die multivariate Verteilung von $(X_{t_{1}},X_{t_{2}},\dotsc ,X_{t_{n}})$ durch eine $n$ -dimensionale Normalverteilung gegeben sein.

Begriff: Obwohl der Begriff Gaußprozess auf zeitliche oder sequenzielle Vorgänge hindeutet, besteht diese Einschränkung nicht. Im verallgemeinerten Sinn kann Prozess auch als Kontinuum verstanden werden.

Notation

Analog zur ein- und mehrdimensionalen Gaußverteilung ist ein Gaußprozess über seine ersten beiden Momente vollständig und eindeutig bestimmt. Bei der mehrdimensionalen Gaußverteilung sind dies der Erwartungswertvektor ${\vec {\mu }}$ und die Kovarianzmatrix $\Sigma$ . Beim Gaußprozess treten an deren Stelle eine Erwartungswertfunktion

m(t):=\mathbb {E} (X_{t}),\quad t\in T

und eine Kovarianzfunktion

k(t,t'):=\operatorname {Cov} (X_{t},X_{t'}):=\mathbb {E} \left[(X_{t}-m(t))\cdot (X_{t'}-m(t'))\right],\quad t,t'\in T

.

Diese Funktionen können im einfachsten eindimensionalen Fall als Vektor mit kontinuierlichen Zeilen bzw. als Matrix mit kontinuierlichen Zeilen und Spalten aufgefasst werden. Folgende Tabelle vergleicht die Notationen von eindimensionalen und mehrdimensionalen Gaußverteilungen mit der von Gaußprozessen. In manchen Fällen ist die Angabe einer Wahrscheinlichkeitsdichtefunktion möglich. Das Tilde-Symbol $\sim$ kann gelesen werden als „Ist verteilt als“.

Art der Verteilung	Notation	Größen	Wahrscheinlichkeitsdichtefunktion
Eindimensionale Gaußverteilung	$X\sim {\mathcal {N}}(\mu ,\sigma ^{2})$	$X,\mu ,\sigma \in \mathbb {R}$	$p(x)={\frac {1}{\sigma {\sqrt {2\pi }}}}\exp {\bigl \lbrace }-{\tfrac {1}{2}}(x-\mu )^{2}/{\sigma ^{2}}{\bigr \rbrace }$
Mehrdimensionale Gaußverteilung	${\vec {X}}\sim {\mathcal {N}}_{n}({\vec {\mu }},\Sigma )$	${\vec {X}},{\vec {\mu }}\in \mathbb {R} ^{n};\Sigma \in \mathbb {R} ^{n\times n}$	$p({\vec {x}})={\frac {1}{(2\pi )^{\frac {n}{2}}\|\Sigma \|^{\frac {1}{2}}}}\exp {\bigl \lbrace }-{\tfrac {1}{2}}({\vec {x}}-{\vec {\mu }})^{T}\Sigma ^{-1}({\vec {x}}-{\vec {\mu }}){\bigr \rbrace }$
Gaußprozess-Verteilung	$(X_{t})_{t\in T}\sim {\mathcal {GP}}(m,k)$	$m\colon T\to \mathbb {R}$ $k\colon T\times T\to \mathbb {R}$	(keine analytische Darstellung)

Die Wahrscheinlichkeitsdichtefunktion eines Gaußprozesses lässt sich nicht analytisch darstellen, da es keine entsprechende Notation für Operationen mit kontinuierlichen Matrizen gibt. Das erweckt den Eindruck, dass man mit Verteilungen von Gaußprozessen nicht wie mit endlichdimensionalen Normalverteilungen rechnen kann. Jedoch ist die wesentliche Eigenschaft von Gaußprozessen in der Anwendung weniger die Unendlichkeit der Dimensionen, sondern vielmehr die Zuordnung der Dimensionen zu den Koordinaten einer Funktion. In praktischen Anwendungen hat man es immer nur mit endlich vielen Stützstellen zu tun und kann daher alle Berechnungen wie im endlichdimensionalen Fall durchführen. Der Grenzwert für unendlich viele Dimensionen wird dabei nur in einem Zwischenschritt benötigt, nämlich dann, wenn Werte an neuen interpolierten Stützstellen geschätzt werden sollen. In diesem Zwischenschritt wird der Gaußprozess, d. h. die Erwartungswertfunktion und Kovarianzfunktion, durch geeignete analytische Ausdrücke dargestellt bzw. approximiert. Dabei erfolgt die Zuordnung zu den Stützstellen über die parametrisierten Koordinaten $t$ im analytischen Ausdruck. Im endlichdimensionalen Fall mit diskreten Stützstellen werden die zugehörigen Koordinaten $t_{i}$ den Dimensionen über ihre Indizes zugeordnet.

Beispiel eines Gaußprozesses

Als ein einfaches Beispiel sei ein Gaußprozess

(X_{t})_{t\in T}\sim {\mathcal {GP}}(m(t),k(t,t'))

mit einer skalaren Variable $t$ (Zeit) durch die Erwartungswertfunktion

m(t)=5\,{\text{Volt}}

und Kovarianzfunktion

k(t,t')={\begin{cases}(1\,{\text{Volt}})^{2}&t=t'\\0&t\neq t'\end{cases}}

gegeben. Dieser Gaußprozess beschreibt ein endloses zeitliches elektrisches Signal mit gaußschem weißen Rauschen mit einer Standardabweichung von einem Volt um eine mittlere Spannung von 5 Volt.

Definitionen spezieller Eigenschaften

Ein Gaußprozess heißt zentriert, wenn sein Erwartungswert konstant Null ist, also wenn $m(t):=\mathbb {E} (X_{t})=0$ für alle $t\in T$ .

Eine Kovarianzfunktion $k(t,t'):=\operatorname {Cov} (X_{t},X_{t'})$ heißt stationär wenn sie translationsinvariant ist und durch eine relative Funktion $k(t,t')=k(t-t')$ beschrieben werden kann.^[2]

Ein Gaußprozess heißt stationär (oder translationsinvariant), wenn seine Kovarianzfunktion stationär und sein Erwartungswert konstant ist.^[3]

Ein Kovarianzfunktion heißt radial, wenn $k(t,t')=k(\|t-t'\|)$ radialsymmetrisch ist mit der Euklidischen Norm $\|\cdot \|$ . Stationäre Gaußprozesse mit dieser Eigenschaft können Systeme mit isotropen Modell-Eigenschaften beschreiben.

Liste gängiger Gaußprozesse und Kovarianzfunktionen

Konstant: $m(t)=0$ und $k(t,t')=\sigma ^{2}$

Entspricht einem konstanten Wert aus einer Gaußverteilung mit Standardabweichung

\sigma

.

Offset: $m(t)=c$ und $k(t,t')=0$

Entspricht einem konstanten Wert, der durch

c

fest vorgegeben ist.

Gaußsches Weißes Rauschen: $k(t,t')=\sigma ^{2}\delta _{t,t'}$

(

\sigma

: Standardabweichung,

\delta

: Kronecker-Delta)

Rational quadratisch: $k(r)=(1+r^{2})^{-\alpha },\quad \alpha \geq 0$
Gamma-Exponentiell: $k(r)=\exp \left(-\left({\frac {r}{\ell }}\right)^{\gamma }\right)$
Ornstein-Uhlenbeck:^[4] $k(r)=\exp \left(-{\frac {r}{\ell }}\right)$

Entspricht einem einfachen Gauß-Markov-Prozess und beschreibt stetige, nicht-differenzierbare Funktionen, außerdem weißes Rauschen, nachdem es einen RC-Tiefpass-Filter durchlaufen hat.

Quadratisch exponentiell: $k(r)=\exp {\Big (}-{\frac {r^{2}}{2\ell ^{2}}}{\Big )}$

Beschreibt glatte unendlich oft differenzierbare Funktionen.

Matérn: ^[5]

k_{\nu =p+1/2}(r)=\exp \left(-{\frac {{\sqrt {2\nu }}r}{\ell }}\right){\frac {\Gamma (p+1)}{\Gamma (2p+1)}}\sum _{i=0}^{p}{\frac {(p+i)!}{i!(p-i)!}}\left({\frac {{\sqrt {8\nu }}r}{\ell }}\right)^{p-i}

Sehr universell verwendbare Gaußprozesse zur Beschreibung der meisten typischen Messkurven. Die Funktionen des Gaußprozesses sind

n

-mal stetig differenzierbar, wenn

\nu >n

. Kovarianzfunktionen mit

\nu =1/2

,

3/2

,

5/2

usw. entsprechen weißem Rauschen, welches 1, 2 oder 3 RC-Tiefpass-Filter durchlaufen hat bzw. entsprechend oft mit der Funktion

\exp \left(-|x|\right)

gefaltet wurde. Gängige Spezialfälle sind:

k_{\nu =3/2}(r)=\left(1+{\frac {{\sqrt {3}}r}{\ell }}\right)\exp \left(-{\frac {{\sqrt {3}}r}{\ell }}\right)

k_{\nu =5/2}(r)=\left(1+{\frac {{\sqrt {5}}r}{\ell }}+{\frac {5r^{2}}{3\ell ^{2}}}\right)\exp \left(-{\frac {{\sqrt {5}}r}{\ell }}\right)

k_{\nu =1/2}(r)

entspricht der Ornstein-Uhlenbeck-Kovarianzfunktion und

k_{\nu \rightarrow \infty }(r)

der quadratisch exponentiellen.

Periodisch: $k(r)=\exp \left(-{\frac {2\sin ^{2}\left(\pi {\frac {r}{T}}\right)}{\ell ^{2}}}\right)$

Funktionen von diesem Gaußprozess sind sowohl periodisch mit der Periodendauer

T

als auch glatt (quadratisch exponentiell). Wird das Quadrat um den Sinus durch den Betrag ersetzt, ergeben sich nicht-glatte periodische Funktionen.

Polynomial: $k(t,t')=\left(t^{\top }t'+\sigma _{0}^{2}\right)^{p}$

Wächst nach außen stark an und ist meist eine schlechte Wahl bei Regressionsproblemen, kann aber bei hochdimensionalen Klassifizierungsproblemen nützlich sein. Sie ist positiv semidefinit und erzeugt nicht notwendigerweise invertierbare Kovarianzmatrizen.^[6]

Brownsche Brücke: $m(t)=0$ und $k(t,t')=\min(t,t')-tt'$
Wiener-Prozess: $m(t)=0$ und $k(t,t')=\min(t,t')$

Entspricht der Brownschen Bewegung bzw. dem Integral über gaußsches weißes Rauschen.

Bemerkungen:

$r:=\|t-t'\|$ ist die Distanz bei stationären und radialen Kovarianzfunktionen $k(t,t')=k(r)$
$\ell$ ist die charakteristische Längenskala der Kovarianzfunktion, bei der die Korrelation auf etwa $e^{-1}$ abgefallen ist.
Die meisten stationären Kovarianzfunktionen $k(r)$ werden auf $k(0)=1$ normiert notiert und sind somit gleichbedeutend zu Korrelationsfunktionen. Für den Gebrauch als Kovarianzfunktion werden sie mit einer Varianz $\sigma ^{2}$ multipliziert, was den Variablen eine Skalierung und/oder physikalische Einheit zuordnet.
Kovarianzfunktionen dürfen nicht beliebige Funktionen $k(r)$ oder $k(t,t')$ sein, da sichergestellt sein muss, dass sie positiv definit sind.^[7] Positiv semidefinite Funktionen sind ebenfalls gültige Kovarianzfunktionen, wobei zu beachten ist, dass diese nicht notwendigerweise invertierbare Kovarianzmatrizen ergeben und daher meistens mit einer positiv definiten Funktion kombiniert werden.

Rechenoperationen mit Gaußprozessen

Mit Gaußprozessen (oder Normalverteilungen) können verschiedene stochastische Rechenoperationen durchgeführt werden mit denen unterschiedliche Funktionen mit normalverteilten Fehlern miteinander in Verbindung gebracht oder aus einander extrahiert werden können. Liegen Kreuzkorrelationen zwischen den Funktionen vor, wird zusätzlich vorausgesetzt, dass sie auch im Verbund normalverteilt sind. In der Signalverarbeitung werden mit den Operationen z. B. zeitliche Signale und deren Messunsicherheiten behandelt. Die Verteilungen dieser Funktionen werden in den folgenden Operationen in der Vektor- und Matrixschreibweise für endlich viele Stützstellen $y\sim {\mathcal {N}}\left(\mu ,\Sigma \right)$ dargestellt, was analog auf beliebige Erwartungswertfunktionen $m(t)$ und Kovarianzfunktionen $k(t,t')$ anwendbar ist. Die normalverteilten Vektoren ( $y_{1}$ , $y_{2}$ etc.) werden entsprechend als Funktionen beschrieben.

Lineare Transformation

Addition: unkorrelierte Funktionen

Wird die Summe von zwei unabhängigen (und insbesondere unkorrelierten) Funktionen gebildet, dann addieren sich deren Erwartungswertfunktionen und deren Kovarianzfunktionen:

y_{1}+y_{2}\sim {\mathcal {N}}\left(\mu _{1},\Sigma _{1}\right)+{\mathcal {N}}\left(\mu _{2},\Sigma _{2}\right)={\mathcal {N}}\left(\mu _{1}+\mu _{2},\Sigma _{1}+\Sigma _{2}\right)

Die zugehörigen Wahrscheinlichkeitsdichtefunktionen erfahren dadurch eine Faltung.

Addition: korrelierte Funktionen

Korrelierte Funktionen können im Extremfall identisch sein oder sich nur durch konstante Faktoren unterschieden. Die Summe entspricht dann einer Multiplikation mit den addierten Faktoren. Sind beide Funktionen identisch, ergibt sich $y+y=2y\sim {\mathcal {N}}\left(2\mu ,4\Sigma \right)$ .

Differenz: unkorrelierte Funktionen

Wird die Differenz von zwei unabhängigen Funktionen gebildet, dann subtrahieren sich deren Erwartungswertfunktionen und es addieren sich deren Kovarianzfunktionen:

y_{1}-y_{2}\sim {\mathcal {N}}\left(\mu _{1},\Sigma _{1}\right)-{\mathcal {N}}\left(\mu _{2},\Sigma _{2}\right)={\mathcal {N}}\left(\mu _{1}-\mu _{2},\Sigma _{1}+\Sigma _{2}\right)

Subtraktion eines korrelierten Anteils

Wenn die Funktion y₂ einen additiven Anteil der Funktion y₁ eines anderen Gaußprozesses beschreibt, dann bewirkt die Subtraktion dieses Anteils die Subtraktion der Erwartungswertfunktion und der Kovarianzfunktion:

y_{1}-y_{2}\sim {\mathcal {N}}\left(\mu _{1},\Sigma _{1}\right)\setminus {\mathcal {N}}\left(\mu _{2},\Sigma _{2}\right)={\mathcal {N}}\left(\mu _{1}-\mu _{2},\Sigma _{1}-\Sigma _{2}\right)

Der Rückstrich-Operator $\setminus$ wurde hier symbolisch verwendet im Sinne von „ohne den enthaltenen Anteil“.

Multiplikation

Die folgende Multiplikation mit einer beliebigen Matrix $F$ enthält auch die Spezialfälle des Produkts mit einer konstanten Funktion (Diagonalmatrix $F$ ) oder mit einem Skalar ( $F=c\cdot \mathbb {I}$ ):

Fy\sim F\cdot {\mathcal {N}}\left(\mu ,\Sigma \right)={\mathcal {N}}\left(F\mu ,F\Sigma F^{\top }\right)

Hier sei darauf hingewiesen, dass ein Produkt zweier Gaußprozesse miteinander keinen weiteren Gaußprozess ergäbe, da die resultierende Wahrscheinlichkeitsverteilung die Eigenschaft der Gaußförmigkeit verloren hätte.

Allgemeine lineare Transformation

Alle bisher gezeigten Operationen sind Spezialfälle der allgemeinen linearen Transformation:

A\cdot {\mathcal {N}}\left(\mu _{1},\Sigma _{1}\right)+B\cdot {\mathcal {N}}\left(\mu _{2},\Sigma _{2}\right)={\mathcal {N}}\left(A\mu _{1}+B\mu _{2},A\Sigma _{1}A^{\top }+B\Sigma _{2}B^{\top }+A\Sigma _{12}B^{\top }+B\Sigma _{12}^{\top }A^{\top }\right)

Dieser Zusammenhang^[8] beschreibt die Summe $A\cdot y_{1}+B\cdot y_{2}$ mit den konstanten Matrizen $A$ und $B$ und den Stützstellenvektoren $y_{1}$ und $y_{2}$ zweier Gaußprozesse mit $y_{1}\sim {\mathcal {N}}\left(\mu _{1},\Sigma _{1}\right)$ und $y_{2}\sim {\mathcal {N}}\left(\mu _{2},\Sigma _{2}\right)$ . Bei partiell korrelierten Funktionen $y_{1}$ und $y_{2}$ muss die Kreuzkovarianzmatrix $\Sigma _{12}$ gegeben sein und es wird vorausgesetzt, dass die Funktionen auch im Verbund normalverteilt sind. Die Summe $A\cdot y_{1}+B\cdot y_{2}$ ist dann zu $y_{1}$ mit der Kreuzkovarianzmatrix $A\Sigma _{1}+B\Sigma _{12}$ korreliert und zu $y_{2}$ mit $A\Sigma _{12}+B\Sigma _{2}$ .^[9] Eine Kreuzkovarianzmatrix $\Sigma _{XY}$ zwischen zwei Funktionen $X$ und $Y$ kann mit deren Kovarianzmatrizen $\Sigma _{X}$ und $\Sigma _{Y}$ in eine Kreuzkorrelationsmatrix $C_{XY}$ umgerechnet werden über den Zusammenhang $\left[C_{XY}\right]_{ij}=\left[\Sigma _{XY}\right]_{ij}/{\sqrt {\left[\Sigma _{X}\right]_{ii}\left[\Sigma _{Y}\right]_{jj}}}$ . Bei zwei teilkorrelierten Gaußprozessen ist zu beachten, dass spezielle Abhängigkeiten vorliegen können, bei denen die Summe keine Normalverteilung ergibt und die Gleichung dadurch ihre Gültigkeit verliert, obwohl beide Eingangsgrößen normalverteilt sind.

Fusion

Wenn zwei verschiedene und unabhängige Gaußprozesse vorliegen, welche dieselbe gesuchte Funktion mit zueinander unkorrelierten Fehlern beschreiben, dann kann eine Vereinigung oder Fusion^[10] (auch Sensordatenfusion) der beiden Teilinformationen gebildet werden, um eine Reduktion des Fehlers bzw. der Varianz zu erreichen. Beispielsweise wird in der Signalverarbeitung derselbe Kurvenverlauf mit zweierlei Sensoren gemessen (etwa die Trajektorie eines Flugzeugs durch einen Inertialsensor und unabhängig davon durch eine GNSS-Positionsbestimmung), die zwei verschiedene voneinander unabhängige Rausch- oder Fehlersignale aufaddieren. Die vereinte oder fusionierte Verteilung

\Sigma _{\text{Fusion}}=\left(\Sigma _{1}^{-1}+\Sigma _{2}^{-1}\right)^{-1}

\mu _{\text{Fusion}}=\Sigma _{\text{Fusion}}\Sigma _{1}^{-1}\mu _{1}+\Sigma _{\text{Fusion}}\Sigma _{2}^{-1}\mu _{2}

der beiden Gaußprozesse entspricht dem Überlapp bzw. dem auf Eins renormierten Produkt der beiden Wahrscheinlichkeitsdichtefunktionen und beschreibt den wahrscheinlichsten Gaußprozess unter Berücksichtigung beider Teilinformationen (siehe auch Inverse Varianzgewichtung). Die Ausdrücke können so umgeformt werden,^[11] dass insgesamt nur eine Matrixinversion durchgeführt werden muss:

\mu _{\text{Fusion}}=\Sigma _{2}\left(\Sigma _{1}+\Sigma _{2}\right)^{-1}\mu _{1}+\Sigma _{1}\left(\Sigma _{1}+\Sigma _{2}\right)^{-1}\mu _{2}=\mu _{1}-\Sigma _{1}\left(\Sigma _{1}+\Sigma _{2}\right)^{-1}\left(\mu _{1}-\mu _{2}\right)

\Sigma _{\text{Fusion}}=\Sigma _{1}\left(\Sigma _{1}+\Sigma _{2}\right)^{-1}\Sigma _{2}=\Sigma _{1}-\Sigma _{1}\left(\Sigma _{1}+\Sigma _{2}\right)^{-1}\Sigma _{1}

Voraussetzung für die Gültigkeit der Formel sind Funktionenpaare mit zueinander vollständig unkorrelierten und unabhängigen Fehlern. Liegt jedoch eine partielle Korrelation vor mit der Kreuzkovarianz $\Sigma _{12}$ , dann gilt die erweiterte und verallgemeinerte Formel, die sogenannte Bar-Shalom-Campo-Fusion,^[12] bei der effektiv der korrelierte Anteil vorübergehend subtrahiert und nach der Fusion wieder hinzugefügt wird:

\mu _{\text{Fusion}}=\mu _{1}-(\Sigma _{1}-\Sigma _{12})(\Sigma _{1}+\Sigma _{2}-\Sigma _{12}-\Sigma _{21})^{-1}(\mu _{1}-\mu _{2})

\Sigma _{\text{Fusion}}=\Sigma _{1}-(\Sigma _{1}-\Sigma _{12})(\Sigma _{1}+\Sigma _{2}-\Sigma _{12}-\Sigma _{21})^{-1}(\Sigma _{1}-\Sigma _{21})

Zerlegung

Eine gegebene Funktion $y_{\text{sum}}$ kann näherungsweise in ihre additiven Komponenten zerlegt werden, wenn die A-Priori-Verteilungen der gesamten Funktion und der Bestandteile gegeben sind. Gemäß der Additionsregel setzt sich der Gaußprozess der gesamten Funktion

\mu _{\text{sum}}=\mu _{1}+\ldots +\mu _{n}

\Sigma _{\text{sum}}=\Sigma _{1}+\ldots +\Sigma _{n}

aus den A-Priori-Gaußprozessen der Anteile zusammen. Die einzelnen Komponenten $y_{i}$ können dann durch die A-posteriori-Gaußprozesse

\mu _{{\text{post,}}i}=\mu _{i}+\Sigma _{i}\Sigma _{\text{sum}}^{-1}\left(y_{\text{sum}}-\mu _{\text{sum}}\right)

\Sigma _{{\text{post,}}i}=\Sigma _{i}-\Sigma _{i}\Sigma _{\text{sum}}^{-1}\Sigma _{i}^{\top }

geschätzt werden, die mit den Kreuzkovarianzen

\Sigma _{{\text{post,}}i,j}=-\Sigma _{i}\Sigma _{\text{sum}}^{-1}\Sigma _{j}^{\top }

untereinander korreliert sind. Abgesehen von sehr speziellen Fällen ist diese Zerlegung mehrdeutig. Die Komponenten sind daher gekoppelte Wahrscheinlichkeitsverteilungen möglicher Lösungen um die jeweils wahrscheinlichste Lösung (siehe auch Beispiel: Signalzerlegung).

Die Zerlegung basiert auf den Gleichungen zur Fusion im vorigen Abschnitt, welche auf die speziellen Verteilungen ${\mathcal {N}}\left(\mu _{\text{sum}},\Sigma _{\text{sum}}\right)$ und ${\mathcal {N}}\left(\mu _{i},\Sigma _{i}\right)$ angewendet werden. Das Dichteprodukt bzw. der Überlapp extrahiert dabei die entsprechende Komponente.^[13]

Gaußprozess-Regression

Einleitung

Gaußprozesse können zur Interpolation, Extrapolation oder Glättung von diskreten Messdaten einer Abbildung $\mathbb {R} ^{n}\to \mathbb {R}$ verwendet werden. Diese Anwendung von Gaußprozessen nennt man Gaußprozess-Regression.^[14] Oft wird die Methode aus historischen Gründen besonders in der räumlichen Domäne als Kriging-Verfahren bezeichnet. Sie eignet sich insbesondere für Probleme, für die keine spezielle Modellfunktion bekannt ist. Ihre Eigenschaft als Maschinenlernverfahren ermöglicht eine automatische Modellbildung auf der Basis von Beobachtungen. Dabei erfasst ein Gaußprozess das typische Verhalten des Systems, womit die für das Problem optimale Interpolation abgeleitet werden kann. Als Ergebnis erhält man eine Wahrscheinlichkeitsverteilung von möglichen Interpolationsfunktionen sowie die Lösung mit der höchsten Wahrscheinlichkeit.

Überblick über die einzelnen Schritte

Die Berechnung einer Gaußprozess-Regression kann durch folgende Schritte durchgeführt werden:

A-priori-Erwartungswertfunktion: Liegt ein gleichbleibender Trend in den Messwerten vor, wird eine A-priori-Erwartungswertfunktion zum Ausgleich des Trends gebildet.
A-priori-Kovarianzfunktion: Die Kovarianzfunktion wird nach bestimmten qualitativen Eigenschaften des Systems ausgewählt oder aus Kovarianzfunktionen unterschiedlicher Eigenschaften nach bestimmten Regeln zusammengesetzt.
Feinabstimmung der Parameter: um quantitativ korrekte Kovarianzen zu erhalten, wird die gewählte Kovarianzfunktion auf die vorhandenen Messwerte gezielt oder durch ein Optimierungsverfahren angepasst bis die Kovarianzfunktion die empirischen Kovarianzen wiedergibt.
Bedingte Verteilung: Durch Berücksichtigung von bekannten Messwerten wird aus dem A-priori-Gaußprozess der bedingte A-posteriori-Gaußprozess für neue Stützstellen mit noch unbekannten Werten berechnet.
Interpretation: Aus dem A-posteriori-Gaußprozess wird schließlich die Erwartungswertfunktion als die bestmögliche Interpolation abgelesen und gegebenenfalls die Diagonale der Kovarianzfunktion als die ortsabhängige Varianz.

Schritt 1: A-priori-Erwartungswertfunktion

Ein Gaußprozess ist durch eine Erwartungswertfunktion und eine Kovarianzfunktion vollständig definiert. Die Erwartungswertfunktion ist die A-priori-Schätzung des Regressionsproblems und beschreibt einen im Voraus bekannten Offset oder Trend der Daten. Die Funktion lässt sich oft durch ein einfaches Polynom beschreiben, das zur Kovarianzfunktion passend geschätzt werden kann, und in sehr vielen Fällen auch durch einen konstanten Mittelwert. Bei asymmetrischen nicht-gaußförmigen Verteilungen mit nur positiven Werten kann mitunter auch ein Mittelwert von Null die besten Ergebnissen liefern.

Schritt 2: A-priori-Kovarianzfunktion

In praktischen Anwendungen muss aus endlich vielen diskreten Messwerten oder endlich vielen Beispielkurven ein Gaußprozess bestimmt werden. In Analogie zur eindimensionalen Gaußverteilung, die über den Mittelwert und die Standardabweichung diskreter Messwerte vollständig bestimmt ist, würde man zur Berechnung eines Gaußprozesses mehrere einzelne, jedoch vollständige Funktionen $f_{i}(t)$ erwarten, um damit die Erwartungswertfunktion

m(t)={\frac {1}{N}}\sum _{i=1}^{N}f_{i}(t)

und die (empirische) Kovarianzfunktion

k(t,t')={\frac {1}{N-1}}\sum _{i=1}^{N}\left[f_{i}(t)-m(t)\right]\cdot \left[f_{i}(t')-m(t')\right]

zu berechnen.

Regressionsproblem und stationäre Kovarianz

Meist liegt jedoch keine solche Verteilung exemplarischer Funktionen vor. Beim Regressionsproblem sind stattdessen nur diskrete Stützstellen einer einzelnen Funktion bekannt, die interpoliert oder geglättet werden soll. Auch in einem solchen Fall kann ein Gaußprozess ermittelt werden. Dazu wird anstatt dieser einen Funktion eine Schar aus vielen zueinander verschobenen Kopien der Funktion betrachtet. Diese Verteilung lässt sich nun mithilfe einer Kovarianzfunktion beschreiben. Meist kann sie als relative Funktion dieser Verschiebung durch $k(t,t')=k(t'-t)$ ausgedrückt werden. Sie heißt dann stationäre Kovarianzfunktion und gilt gleichermaßen für alle Orte der Funktion und beschreibt die überall gleiche (also stationäre) Korrelation eines jeden Punktes zu seiner Nachbarschaft, sowie die Korrelation benachbarter Punkte untereinander.

Die Kovarianzfunktion wird analytisch dargestellt und heuristisch bestimmt oder in der Literatur nachgeschlagen. Die freien Parameter der analytischen Kovarianzfunktionen werden an die Messwerte angepasst. Sehr viele physikalische Systeme weisen eine ähnliche Form der stationären Kovarianzfunktion auf, so dass mit wenigen tabellierten analytischen Kovarianzfunktionen die meisten Anwendungen beschrieben werden können. So gibt es beispielsweise Kovarianzfunktionen für abstrakte Eigenschaften wie Glattheit, Rauigkeit (fehlende Differenzierbarkeit), Periodizität oder Rauschen, die nach bestimmten Vorschriften kombiniert und angepasst werden können, um die Eigenschaften der Messwerte nachzubilden.

Beispiele stationärer Kovarianz

Die folgende Tabelle zeigt Beispiele von Kovarianzfunktionen mit solchen abstrakten Eigenschaften. Die Beispiel-Kurven sind zufällige Stichproben des jeweiligen Gaußprozesses und repräsentieren typische Kurvenverläufe. Sie wurden mit der jeweiligen Kovarianzmatrix $\Sigma _{ij}=k(t_{i},t_{j})$ und einem Zufallsgenerator für mehrdimensionale Normalverteilungen als korrelierter Zufallsvektor erzeugt. Die stationären Kovarianzfunktionen $k(t,t')$ werden hier als eindimensionale Funktionen $k(r)$ mit $r:=|t-t'|$ abgekürzt.

Eigenschaft	Beispiele stationärer Kovarianzfunktionen	Zufallsfunktionen $f(t)$
Konstant	$k(r)=1$
Glatt	$k(r)=\exp \left(-r^{2}/5\right)$
Rau	$k(r)=\exp \left(-r/15\right)$
Periodisch	$k(r)=\exp \left(-\left\|\sin \left(0{,}4\pi r\right)\right\|/2{,}5\right)$
Rauschen	${\begin{aligned}k(r)={\begin{cases}0{,}2:&r=0\\0:&r\neq 0\end{cases}}\end{aligned}}$
Gemischt (periodisch, glatt und verrauscht)	${\begin{aligned}k(r)=&\,\exp \left(-\sin ^{2}({\tfrac {\pi }{2}}r)/4\right.\\&\left.-r^{2}/40\right)+{\begin{cases}0{,}005:&r=0\\0:&r\neq 0\end{cases}}\end{aligned}}$

Konstruktion neuer Kovarianzfunktionen

Die Eigenschaften können nach bestimmten Rechenvorschriften kombiniert werden. Das grundsätzliche Ziel bei der Konstruktion einer Kovarianzfunktion ist, die wahren Kovarianzen möglichst gut wiederzugeben, während gleichzeitig die Bedingung der positiven Definitheit erfüllt wird. Die gezeigten Beispiele, außer die Konstante, besitzen letztere Eigenschaft und auch die Additionen und Multiplikationen solcher Funktionen bleiben positiv definit. Die konstante Kovarianzfunktion ist nur positiv semidefinit und muss mit mindestens einer positiv definiten Funktion kombiniert werden. Die unterste Kovarianzfunktion in der Tabelle zeigt eine mögliche Mischung verschiedener Eigenschaften. Die Funktionen in diesem Beispiel sind über eine bestimmte Distanz hinweg periodisch, weisen ein relativ glattes Verhalten auf und sind mit einem bestimmten Messrauschen überlagert.

Bei gemischten Eigenschaften gilt: ^[15]

Bei additiven Effekten werden die Kovarianzen addiert, wie zum Beispiel bei der Überlagerung von Messrauschen.
Bei sich gegenseitig verstärkenden oder abschwächenden Effekten werden die Kovarianzen multipliziert, wie zum Beispiel beim langsamen Abklingen der Periodizität.

Mehrdimensionale Funktionen

Was hier mit eindimensionalen Funktionen gezeigt ist, lässt sich analog auch auf mehrdimensionale Systeme übertragen, indem lediglich der Abstand $r$ durch eine entsprechende n-dimensionale Abstandsnorm ersetzt wird. Die Stützpunkte in den höheren Dimensionen werden in einer beliebigen Reihenfolge abgewickelt und mit Vektoren dargestellt, so dass sie genauso wie im eindimensionalen Fall verarbeitet werden können. Die beiden folgenden Abbildungen zeigen zwei Beispiele mit zweidimensionalen Gaußprozessen und unterschiedlichen stationären und radialen Kovarianzfunktionen. In der rechten Abbildung ist jeweils eine zufällige Stichprobe des Gaußprozesses dargestellt.

Nicht-stationäre Kovarianzfunktionen

Gaußprozesse können auch nicht-stationäre Eigenschaften der Kovarianzfunktion besitzen, also relative Kovarianzfunktionen, die sich als Funktion des Ortes ändern. In der Literatur wird beschrieben, wie nicht-stationäre Kovarianzfunktionen konstruiert werden können, so dass auch hier die positive Definitheit sichergestellt wird. Eine einfach Möglichkeit ist z. B. eine Interpolation unterschiedlicher Kovarianzfunktionen über den Ort mit der inversen Distanzwichtung.

Schritt 3: Feinabstimmung der Parameter

Die qualitativ konstruierten Kovarianzfunktionen enthalten Parameter, sogenannte Hyperparameter, die an das System angepasst (kalibriert) werden müssen, um quantitativ korrekte Ergebnisse erzielen zu können. Dies kann durch direktes Wissen über das System erfolgen, z. B. über den bekannten Wert der Standardabweichung des Messrauschens oder die A-priori-Standardabweichung des Gesamtsystems (sigma prior, entspricht quadriert den Diagonalelementen der Kovarianzmatrix).

Die Parameter können aber auch automatisch angepasst werden. Dazu verwendet man die Randwahrscheinlichkeit, also die Wahrscheinlichkeitsdichte für eine gegebene Messkurve als ein Maß für die Übereinstimmung zwischen dem vermuteten Gaußprozess und einer vorhandenen Messkurve. Die Parameter werden dann so optimiert, dass diese Übereinstimmung maximal wird. Da die Exponentialfunktion streng monoton ist, genügt es, den Exponenten der Wahrscheinlichkeitsdichtefunktion zu maximieren, die sogenannte Log-Marginal-Likelihood-Funktion^[16]

\log p(\mathbf {y} )=-{\frac {1}{2}}\mathbf {y} ^{\top }\Sigma ^{-1}\mathbf {y} -{\frac {1}{2}}\log |\Sigma |-{\frac {n}{2}}\log(2\pi )

mit dem Messwert-Vektor $\mathbf {y}$ der Länge $n$ und der von Hyperparametern abhängigen Kovarianzmatrix $\Sigma$ . Mathematisch bewirkt die Maximierung der Randwahrscheinlickeit eine optimale Abwägung zwischen der Genauigkeit (Minimierung der Residuen) und der Einfachheit der Theorie. Eine einfache Theorie zeichnet sich durch große Nebendiagonalelemente aus, wodurch eine hohe Korrelation im System beschrieben wird. Das bedeutet, dass wenige Freiheitsgrade im System vorhanden sind und somit die Theorie in gewisser Weise mit wenigen Regeln auskommt, um alle Zusammenhänge zu erklären. Sind diese Regeln zu einfach gewählt, würden die Messungen nicht hinreichend gut wiedergegeben werden und die residuellen Fehler wachsen zu stark an. Bei einer maximalen Randwahrscheinlichkeit ist das Gleichgewicht einer optimalen Theorie gefunden, sofern hinreichend viele Messdaten für eine gute Konditionierung zur Verfügung standen. Diese implizite Eigenschaft der Maximum-Likelihood-Methode kann auch als Ockhams Sparsamkeitsprinzip verstanden werden.^[17]

Schritt 4: Bedingter Gaußprozess bei bekannten Stützpunkten

Ist der Gaußprozess eines Systems wie oben bestimmt worden, sind also Erwartungswertfunktion und Kovarianzfunktion bekannt, kann mit dem Gaußprozess eine Vorhersage beliebiger interpolierter Zwischenwerte berechnet werden, wenn nur wenige Stützstellen der gesuchten Funktion durch Messwerte bekannt sind. Die Vorhersage erfolgt durch die bedingte Wahrscheinlichkeit einer mehrdimensionalen Gaußverteilung bei einer gegebenen Teilinformation. Die Dimensionen der mehrdimensionalen Gaußverteilung

{X}={\binom {{X}_{\text{U}}}{{X}_{\text{B}}}}\sim {\mathcal {N}}\left({\binom {{\mu }_{\text{U}}}{{\mu }_{\text{B}}}},{\begin{pmatrix}{\Sigma }_{\text{UU}}&{\Sigma }_{\text{UB}}\\{\Sigma }_{\text{BU}}&{\Sigma }_{\text{BB}}\end{pmatrix}}\right)

werden dabei unterteilt in unbekannte Werte, die vorhergesagt werden sollen (Index U für unbekannt) und in bekannte Messwerte (Index B für bekannt). Vektoren zerfallen dadurch in zwei Teile. Die Kovarianzmatrix wird entsprechend in vier Blöcke unterteilt: Kovarianzen innerhalb der unbekannten Werte (UU), innerhalb der bekannten Messwerte (BB) und Kovarianzen zwischen den unbekannten und bekannten Werten (UB und BU). Die Werte der Kovarianzmatrix werden an diskreten Stellen der Kovarianzfunktion abgelesen und der Erwartungswertvektor an entsprechenden Stellen der Erwartungswertfunktion: $\Sigma _{ij}=k(t_{i},t_{j})$ bzw. $\mu _{i}=m(t_{i})$

Durch die Berücksichtigung der bekannten Messwerte $X_{\text{B}}$ verändert sich die Verteilung zur bedingten bzw. A-posteriori-Normalverteilung

X_{\text{U}}\mid X_{\text{B}}\sim {\mathcal {N}}\left(\mu _{\text{U}}+\Sigma _{\text{UB}}\Sigma _{\text{BB}}^{-1}(X_{\text{B}}-\mu _{\text{B}}),\Sigma _{\text{UU}}-\Sigma _{\text{UB}}\Sigma _{\text{BB}}^{-1}\Sigma _{\text{BU}}\right)

,

wobei $X_{\text{U}}$ die gesuchten unbekannten Variablen sind. Die Notation $\mid X_{\text{B}}$ bedeutet „bedingt durch $X_{\text{B}}$ “.

Der erste Parameter der resultierenden Gaußverteilung beschreibt den neuen gesuchten Erwartungswertvektor, der jetzt den wahrscheinlichsten Funktionswerten der Interpolation entspricht. Zusätzlich wird im zweiten Parameter die vollständige vorhergesagte neue Kovarianzmatrix gegeben. Diese enthält insbesondere die Vertrauensintervalle der vorhergesagten Erwartungswerte, gegeben durch die Wurzel der Hauptdiagonalelemente.

Messrauschen und andere Störsignale

Weißes Messrauschen der Varianz $\sigma _{\text{noise}}^{2}$ kann als Teil des A-Priori-Kovarianzmodells modelliert werden, indem der Diagonale von $\Sigma _{\text{BB}}$ entsprechende Terme hinzugefügt werden. Wird mit derselben Kovarianzfunktion auch die Matrix $\Sigma _{\text{UU}}$ gebildet, würden auch die vorhergesagte Verteilung ein weißes Rauschen der Varianz $\sigma _{\text{noise}}^{2}$ beschreiben. Um eine Vorhersage eines unverrauschten Signals zu erhalten, werden in der A-posteriori-Verteilung

X_{\text{U}}\mid X_{\text{B}}\sim {\mathcal {N}}\left(\mu _{\text{U}}+\Sigma _{\text{UB}}\left[\Sigma _{\text{BB}}+\mathbb {I} \sigma _{\text{noise}}^{2}\right]^{-1}(X_{\text{B}}-\mu _{\text{B}}),\Sigma _{\text{UU}}-\Sigma _{\text{UB}}\left[\Sigma _{\text{BB}}+\mathbb {I} \sigma _{\text{noise}}^{2}\right]^{-1}\Sigma _{\text{BU}}\right)

bei $\Sigma _{\text{UU}}$ und gegebenenfalls in $\Sigma _{\text{UB}}$ und $\Sigma _{\text{BU}}$ die entsprechenden Terme weggelassen. Dadurch wird das Messrauschen so gut wie möglich weggemittelt, was auch im vorhergesagten Vertrauensintervall korrekt berücksichtigt wird. Auf die gleiche Weise kann jegliches unerwünschte additive Störsignal von den Messdaten entfernt werden (siehe auch Rechenoperation Zerlegung), sofern es sich mit einer Kovarianzfunktion beschreiben lässt und sich vom Nutzsignal hinreichend gut unterscheidet. Dazu wird anstelle der Diagonalmatrix $\mathbb {I} \sigma _{\text{noise}}^{2}$ die entsprechende Kovarianzmatrix der Störung $\Sigma _{\text{noise}}$ eingesetzt. Messungen mit Störsignalen benötigen also zwei Kovarianzmodelle: $k(t,t')$ für das zu schätzende Nutzsignal und $k(t,t')+k_{\text{noise}}(t,t')$ für das Rohsignal.

Herleitung der bedingten Verteilung

Die Herleitung kann über die Bayes-Formel erfolgen, indem die beiden Wahrscheinlichkeitsdichten für bekannte und unbekannte Stützstellen sowie die Verbundwahrscheinlichkeitsdichte eingesetzt werden. Die resultierende bedingte A-posteriori-Normalverteilung entspricht dem Überlapp oder Schnittbild der Gaußverteilung mit dem durch die bekannten Werte aufgespannten Untervektorraum.

Bei verrauschten Messwerten, die selbst eine mehrdimensionale Normalverteilung darstellen, erhält man den Überlapp zur A-Priori-Verteilung durch die Multiplikation der beiden Wahrscheinlichkeitsdichten. Das Produkt der Wahrscheinlichkeitsdichten zweier mehrdimensionaler Normalverteilungen entspricht der Rechenoperationen Fusion, mit der die Verteilung bei unterdrücktem Störsignal hergeleitet werden kann.

A-posteriori Gaußprozess

In der vollständigen Darstellung als Gaußprozess ergibt sich aus dem A-priori-Gaußprozess

(X_{t})_{t\in T}\sim {\mathcal {GP}}(m,k)

und den $n$ bekannten Messwerten $\mathbf {x} =(x_{1},x_{2},\ldots ,x_{n})$ an den Koordinaten $\mathbf {t} =(t_{1},t_{2},\ldots ,t_{n})$ eine neue Verteilung, gegeben durch den bedingten A-posteriori-Gaußprozess

(X_{t}\mid \mathbf {t} ,\mathbf {x} )\sim {\mathcal {GP}}\left(m_{\mathrm {post} },k_{\mathrm {post} }\right)

mit

m_{\mathrm {post} }(t)=m(t)+\mathbf {k} ^{\top }(t,\mathbf {t} )K(\mathbf {t} ,\mathbf {t} )^{-1}(\mathbf {x} -m(\mathbf {t} ))

k_{\mathrm {post} }(t,t')=k(t,t')-\mathbf {k} ^{\top }(t,\mathbf {t} )K(\mathbf {t} ,\mathbf {t} )^{-1}\mathbf {k} (\mathbf {t} ,t')

.

$K$ ist dabei eine Kovarianzmatrix, die sich durch die Auswertung der Kovarianzfunktion $k$ an den diskreten Zeilen $t_{i}$ und Spalten $t_{j}$ ergibt. Außerdem wurde $\mathbf {k}$ entsprechend als Vektor von Funktionen gebildet, indem $k$ nur an diskreten Zeilen oder diskreten Spalten ausgewertet wurde.

In praktischen numerischen Berechnungen mit endlichen Zahlen von Stützstellen wird nur mit der Gleichung der bedingten mehrdimensionalen Normalverteilung gearbeitet. Die Notation des A-posteriori-Gaußprozesses dient hier nur dem theoretischen Verständnis, um den Grenzwert zum Kontinuum in Form von Funktionen zu beschreiben und damit die Zuordnung der Werte zu den Koordinaten darzustellen.

Schritt 5: Interpretation

Aus dem A-priori-Gaußprozess erhält man mit den Messwerten einen A-posteriori-Gaußprozess, der die bekannte Teilinformation berücksichtigt. Dieses Ergebnis der Gaußprozess-Regression repräsentiert nicht nur eine Lösung, sondern die Gesamtheit aller möglichen und mit unterschiedlichen Wahrscheinlichkeiten gewichteten Lösungsfunktionen der Interpolation. Die damit ausgedrückte Unentschiedenheit ist keine Schwäche der Methode. Sie wird dem Problem genau gerecht, da bei einer nicht vollständig bekannten Theorie oder bei verrauschten Messwerten die Lösung prinzipiell nicht eindeutig bestimmbar ist. Meist interessiert man sich jedoch speziell für diejenige Lösung mit der zumindest höchsten Wahrscheinlichkeit. Diese ist durch die Erwartungswertfunktion $m_{\mathrm {post} }(t)$ im ersten Parameter des A-posteriori-Gaußprozesses gegeben. Aus der bedingten Kovarianzfunktion im zweiten Parameter lässt sich die Streuung um diese Lösung ablesen. Die Diagonale $k_{\mathrm {post} }(t,t)$ der Kovarianzfunktion gibt eine Funktion mit den Varianzen der vorhergesagten wahrscheinlichsten Funktion wieder. Das Vertrauensintervall ist dann durch die Grenzen $m_{\mathrm {post} }(t)\pm {\sqrt {k_{\mathrm {post} }(t,t)}}$ gegeben.

Beispiele

A-priori- und A-posteriori-Gaußprozesse
A-priori-Gaußprozess, dargestellt durch damit erzeugte Zufallskurven.
A-priori-Gaußprozess, dargestellt durch die Erwartungswertfunktion und die Fläche des Vertrauensintervalls.
A-posteriori-Gaußprozess bei Kenntnis von drei Stützpunkten, dargestellt durch Zufallskurven.
A-posteriori-Gaußprozess, dargestellt durch die Erwartungswertfunktion und Fläche des Vertrauensintervalls.
A-posteriori-Gaußprozess bei angenommenem Messrauschen. Die Interpolationen treffen die Punkte nicht mehr exakt.
A-posteriori-Gaußprozess bei angenommenem Messrauschen. Der Erwartungswert wird glatter und das Vertrauensintervall bleibt größer Null.
A-posteriori-Gaußprozess der Interpolation einer Lücke, dargestellt durch die Erwartungswertfunktion und Fläche des Vertrauensintervalls
A-posteriori-Gaußprozess der Interpolation einer Lücke, dargestellt durch animierte Zufallsfluktuationen gemäß der Verteilung.

Der Python-Code der Beispiele findet sich auf der jeweiligen Bildbeschreibungsseite.

Sonderfälle

Unterbestimmte Messwerte

In manchen Fällen von bedingten Gaußprozessen sind Gruppen von linear zusammenhängenden Messwerten vollständig unbestimmt, z. B. bei indirekten Messwerten, die aus unterbestimmten Gleichungen folgen, etwa mit einer nicht invertierbaren positiv semidefiniten Matrix der Form $A^{\top }\Sigma ^{-1}A$ . Die Stützstellen lassen sich dann nicht einfach in bekannte und unbekannte Werte aufteilen und die zugehörige Kovarianzmatrix wäre aufgrund unendlicher Unsicherheiten singulär. Das entspräche einer Normalverteilung, die in bestimmte Raumrichtungen quer zu den Koordinatenachsen unendlich ausgedehnt ist. Um die Beziehungen zwischen den unbestimmten Variablen zu berücksichtigen, muss in einem solchen Fall mit der inversen Matrix $\Sigma _{\text{2}}^{-1}$ , der sogenannten Präzisionsmatrix, gerechnet werden. Diese kann vollständig unbestimmte Messwerte beschreiben, was durch Nullen in der Diagonale ausgedrückt wird. Für eine solche singuläre Verteilung ${\mathcal {N}}\left(\mu _{\text{2}},\Sigma _{\text{2}}\right)$ mit teilweise unbekannten Messwerten $\mu _{\text{2}}$ und singulären Messunsicherheiten $\Sigma _{\text{2}}$ wird die gesuchte A-posteriori-Verteilung durch den Überlapp zum A-priori-Gaußprozess-Modell ${\mathcal {N}}\left(\mu _{\text{1}},\Sigma _{\text{1}}\right)$ berechnet, indem die Wahrscheinlichkeitsdichten multipliziert werden. Die Vereinigung der beiden Normalverteilungen

\Sigma _{\text{Fusion}}=\left(\mathbb {I} +\Sigma _{\text{1}}\Sigma _{\text{2}}^{-1}\right)^{-1}\Sigma _{\text{1}}

\mu _{\text{Fusion}}=\left(\mathbb {I} +\Sigma _{\text{1}}\Sigma _{\text{2}}^{-1}\right)^{-1}\mu _{\text{1}}+\Sigma _{\text{Fusion}}\Sigma _{\text{2}}^{-1}\mu _{\text{2}}

erhält man durch die Operation Fusion nach Umformung, so dass die singuläre der beiden Matrizen invers bleibt. Im Ergebnis ergibt sich immer eine endliche Verteilung, da die endliche Matrix dominiert. Sind beide endlich, lässt sich die Gleichung in die Form des A-posteriori-Gaußprozesses bringen wie im Abschnitt zur bedingten Verteilung.

Linearkombination zu einem Gaußprozess

Aus gegebenen Basisfunktionen $\varphi _{j}(t)$ soll eine Linearkombination gebildet werden, die mit der Verteilung ${\mathcal {N}}(\mu ,\Sigma )$ eines zugehörigen Gaußprozesses ${\mathcal {GP}}(m,k)$ maximalen Überlapp hat. Oder es sollen Messwerte $\mu$ approximiert werden, während das darin enthaltene Störsignal ${\mathcal {N}}(0,\Sigma )$ möglichst ignoriert wird. In beiden Fällen können die gesuchten Koeffizienten mit der verallgemeinerten Kleinste-Quadrate-Schätzung

c=\left(A^{\top }\Sigma ^{-1}A\right)^{-1}A^{\top }\Sigma ^{-1}\mu

\Sigma _{c}=\left(A^{\top }\Sigma ^{-1}A\right)^{-1}

berechnet werden. Dabei enthält die Matrix $A_{ij}=\varphi _{j}(t_{i})$ die Funktionswerte der Basisfunktionen $\varphi _{j}(t)$ an den Stützstellen $t_{i}$ . Die resultierenden Koeffizienten c mit der zugehörigen Kovarianzmatrix $\Sigma _{c}$ beschreiben diejenige Linearkombination mit der größtmöglichen Wahrscheinlichkeitsdichte in der Verteilung ${\mathcal {N}}(\mu ,\Sigma )$ . Die Linearkombination approximiert dabei die Erwartungswertfunktion oder die Messwerte $\mu$ auf eine solche Weise, dass die Residuen bestmöglich durch die Kovarianzmatrix $\Sigma$ beschrieben werden. Die Methode wird beispielsweise in der Programmbibliothek Scikit-learn genutzt, um eine polynomiale Erwartungswertfunktion eines Gaußprozesses empirisch zu schätzen.

Approximation eines empirischen Gaußprozesses

Ein aus Beispielfunktionen $f_{p}(t)$ empirisch bestimmter Gaußprozess

m(t)={\frac {1}{N}}\sum _{p=1}^{N}f_{p}(t)

k(t,t')={\frac {1}{N-1}}\sum _{p=1}^{N}\left[f_{p}(t)-m(t)\right]\cdot \left[f_{p}(t')-m(t')\right]

mit wenigen stark ausgeprägten Freiheitsgraden kann mittels einer Eigenwertzerlegung oder der Singulärwertzerlegung

\Sigma =VSV^{\top }

der Kovarianzmatrix $\Sigma _{ij}=k(t_{i},t_{j})$ approximiert und vereinfacht werden. Dazu wählt man die $n$ größten Eigenwerte bzw. Singulärwerte $\lambda _{p}=\sigma _{p}^{2}$ aus der Diagonalmatrix $S$ . Die zugehörigen Spalten $v_{p}$ von $V$ sind die Hauptkomponenten des Gaußprozesses (siehe Hauptkomponentenanalyse). Stellt man die Spalten als Funktionen $v_{p}(t)$ dar, dann wird der ursprüngliche Gaußprozess durch die Mittelwertfunktion $m(t)$ und die Kovarianzfunktion

k(t,t')\approx \sum _{p=1}^{n}\sigma _{p}^{2}v_{p}(t)v_{p}(t')

approximiert. Dieser Gaußprozess beschreibt ausschließlich Funktionen der Linearkombination

f(t)=m(t)+\sum _{p}c_{p}v_{p}(t)

,

wobei jeder Koeffizient $c_{p}$ als unabhängige Zufallsvariable der Varianz $\sigma _{p}^{2}=\lambda _{p}$ um den Mittelwert Null gestreut wird.

Eine solche Vereinfachung ist positiv semidefinit und ihr fehlen meist die Eigenschaften zur Beschreibung kleinskaliger Variationen. Diese Eigenschaften können der Kovarianzfunktion in Form einer an die Residuen angepassten stationären Kovarianzfunktion hinzugefügt werden:

k(t,t')\approx \sum _{p=1}^{n}\sigma _{p}^{2}v_{p}(t)v_{p}(t')+k_{\text{stat}}(t'-t)

Gaußprozesse mit linearen Nebenbedingungen

Im Falle vieler interessanter Anwendungen ist bereits im Vorhinein Wissen über das Verhalten des betrachteten Systems vorhanden. Man betrachte zum Beispiel den Fall, in dem der Gaußprozess ein Magnetfeld beschreiben soll; hier gehorcht dann das echte Magnetfeld den Maxwell-Gleichungen und es wäre vorteilhaft, dieses Wissen auch in den Gaußprozess zu inkludieren, da dies höchstwahrscheinlich dessen Vorhersagekraft verbessern würde.

Es gibt bereits eine Methode, um lineare Nebenbedingungen in den Formalismus des Gaußprozesses miteinzubeziehen:^[18]

Betrachte die (vektorwertige) Funktion $f(x)$ , die bekanntermaßen der linearen Nebenbedingung (d. h. ${\mathcal {F}}_{X}$ ist ein linearer Operator)

{\mathcal {F}}_{X}(f(x))=0

gehorcht. Dann kann die Nebenbedingung ${\mathcal {F}}_{X}$ erfüllt werden, indem man $f(x)={\mathcal {G}}_{X}(g(x))$ wählt (wobei es sich bei $g(x)\sim {\mathcal {GP}}(\mu _{g},K_{g})$ um einen Gaußprozess handelt) und anschließend ${\mathcal {G}}_{X}$ bestimmt, sodass

{\mathcal {F}}_{X}({\mathcal {G}}_{X}(g))=0\qquad \forall g.

Mit gegebenem ${\mathcal {G}}_{X}$ und unter Verwendung der Tatsache, dass Gaußprozesse abgeschlossen unter linearen Transformationen sind, kann der Gaußprozess für $f$ , der der Nebenbedingung ${\mathcal {F}}_{X}$ gehorcht, geschrieben werden als

f(x)={\mathcal {G}}_{X}g\sim {\mathcal {GP}}({\mathcal {G}}_{X}\mu _{g},{\mathcal {G}}_{X}K_{g}{\mathcal {G}}_{X'}^{T}).

Somit können lineare Nebenbedingungen im Mittelwert und der Kovarianzfunktion des Gaußprozesses berücksichtigt werden.

Anwendungsbeispiele

Beispiel: Trend-Vorhersage

In einem hypothetischen Anwendungsbeispiel aus der Marktforschung soll die zukünftige Nachfrage zum Thema „Snowboard“ vorhergesagt werden. Dazu soll eine Extrapolation der Anzahl von Google-Suchanfragen^[19] zu diesem Begriff berechnet werden.

In den vergangenen Daten erkennt man eine periodische, jedoch nicht sinusförmige Jahreszeitabhängigkeit, die durch den Winter auf der Nordhalbkugel zu erklären ist. Außerdem nahm der Trend über das letzte Jahrzehnt kontinuierlich ab. Zusätzlich erkennt man eine wiederkehrende Erhöhung der Suchanfragen während der olympischen Spiele alle vier Jahre. Die Kovarianzfunktion wurde daher mit einem langsamen Trend sowie einer ein- und vierjährigen Periode modelliert:

k(r)=0{,}8\exp \left(-{\tfrac {1}{2}}\left|\sin(\pi r)\right|-|r/25|^{2}-2{,}5\right)+(0{,}2-0{,}01)\exp \left(-\left|\sin \left({\tfrac {1}{4}}\pi r\right)\right|/0{,}2\right)+0{,}01\exp \left(-r/45\right)

Der Trend scheint außerdem eine deutliche Asymmetrie aufzuweisen. Das kann der Fall sein, wenn sich die zugrundeliegenden Zufallseffekte nicht addieren, sondern gegenseitig verstärken, was eine Log-Normal-Verteilung zur Folge hat. Der Logarithmus solcher Werte beschreibt jedoch eine Normalverteilung, worauf die Gaußprozess-Regression angewendet werden kann.

Die Abbildung zeigt eine Extrapolation der Kurve (rechts der gestrichelten Linie). Da die Ergebnisse hier mit einer Exponentialfunktion aus der logarithmischen Darstellung zurücktransformiert wurden, sind die vorhergesagten Vertrauensintervalle entsprechend asymmetrisch (graue Fläche). Die Extrapolation zeigt plausibel die saisonalen Verläufe und auch die Erhöhung der Suchanfragen bei den Olympischen Spielen alle vier Jahre. Das Beispiel mit gemischten Eigenschaften demonstriert sehr gut die vielfältigen Modellierungsmöglichkeiten der Gaußprozess-Regression, die in einem Interpolationsverfahren vereinheitlicht sind.

Python Quellcode der Beispielrechnung

Beispiel: Sensorkalibrierung

In einem Anwendungsbeispiel aus der Industrie sollen mithilfe von Gaußprozessen Sensoren kalibriert werden.^[20]^[21] Aufgrund von Toleranzen bei der Herstellung zeigen die Kennlinien $f(x)$ der Sensoren große individuelle Unterschiede. Das verursacht hohe Kosten bei der Kalibrierung, da für jeden Sensor eine vollständige Kennlinie gemessen werden müsste. Der Aufwand kann jedoch minimiert werden, indem das genaue Verhalten der Streuung durch einen Gaußprozess erlernt wird. Dazu werden von $N$ zufällig ausgewählten repräsentativen Sensoren die vollständigen Kennlinien $f_{i}(x)$ gemessen und damit der Gaußprozess ${\mathcal {GP}}(m,k)$ der Streuung durch

m(x)={\frac {1}{N}}\sum _{i=1}^{N}f_{i}(x)

k(x,x')={\frac {1}{N-1}}\sum _{i=1}^{N}\left[f_{i}(x)-m(x)\right]\cdot \left[f_{i}(x')-m(x')\right]

berechnet. Im gezeigten Beispiel sind 15 repräsentative Kennlinien gegeben. Der daraus resultierende Gaußprozess ist durch die Mittelwertfunktion $m(x)$ und das Vertrauensintervall $m(x)\pm {\sqrt {k(x,x)}}$ dargestellt.

Mit dem bedingten Gaußprozess ${\mathcal {GP}}(m_{\text{post}},k_{\text{post}})$ mit

m_{\mathrm {post} }(x)=m(x)+\mathbf {k} ^{\top }(x,\mathbf {x} )K(\mathbf {x} ,\mathbf {x} )^{-1}(\mathbf {y} -m(\mathbf {x} ))

k_{\mathrm {post} }(x,x')=k(x,x')-\mathbf {k} ^{\top }(x,\mathbf {x} )K(\mathbf {x} ,\mathbf {x} )^{-1}\mathbf {k} (\mathbf {x} ,x')

kann nun für jeden neuen Sensor mit wenigen einzelnen Messwerten $\mathbf {y}$ an den Koordinaten $\mathbf {x}$ das vollständige Kennfeld rekonstruiert werden. Die Anzahl von Messwerten muss dabei mindestens der Anzahl der Freiheitsgrade der Toleranzen entsprechen, die einen unabhängigen linearen Einfluss auf die Form der Kennlinie haben.

Im dargestellten Beispiel genügt ein einzelner Messwert noch nicht, um die Kennlinie eindeutig und präzise zu bestimmen. Das Vertrauensintervall zeigt den Bereich der Kurve, der noch nicht ausreichend genau ist. Mit einem weiteren Messwert in diesem Bereich kann schließlich die verbleibende Unsicherheit vollständig eliminiert werden. Die Exemplarschwankungen der sehr unterschiedlich wirkenden Sensoren in diesem Beispiel scheinen also durch die Toleranzen von nur zwei relevanten inneren Freiheitsgraden verursacht zu werden.

Python Quellcode der Beispielrechnung

Beispiel: Signalzerlegung

In einem Anwendungsbeispiel für die Signalverarbeitung soll ein zeitliches Signal in seine Bestandteile zerlegt werden. Über das System sei bekannt, dass das Signal aus drei Komponenten besteht, die den drei Kovarianzfunktionen

k_{1}(r)=2{,}7^{2}\exp(-r^{2})

k_{2}(r)=2{,}7^{2}\exp(-0{,}4|\sin(r/2{,}5)|)

k_{3}(r)=0{,}6^{2}\delta _{r}

folgen. Das Summensignal folgt dann nach der Additionsregel der Kovarianzfunktion

k_{\text{sum}}(r)=k_{1}(r)+k_{2}(r)+k_{3}(r)

.

Die folgenden beiden Abbildungen zeigen drei Zufallssignale, die zur Demonstration mit diesen Kovarianzfunktionen erzeugt und addiert wurden. In der Summe der Signale kann man mit bloßem Auge kaum das darin verborgene periodische Signal erkennen, da dessen Spektralbereich mit dem der beiden anderen Komponenten überlappt.

Einzelsignale: Drei zufällig erzeugte Signale, die bestimmten Gaußprozessen folgen.
Summe: Die Summe der drei Signale.

Mithilfe der Operation Zerlegung kann die Summe $y_{\text{sum}}$ wieder in die drei Komponenten

y_{1}=\Sigma _{1}\Sigma _{\text{sum}}^{-1}y_{\text{sum}}+3

y_{2}=\Sigma _{2}\Sigma _{\text{sum}}^{-1}y_{\text{sum}}-3

y_{3}=\Sigma _{3}\Sigma _{\text{sum}}^{-1}y_{\text{sum}}

zerlegt werden, wobei $(\Sigma _{x})_{ij}=k_{x}(|t_{j}-t_{i}|)$ . Die Schätzung der wahrscheinlichsten Zerlegung zeigt, wie gut die Trennung in diesem Fall möglich ist und wie nah die Signale an den ursprünglichen Signalen liegen. Die geschätzten Unsicherheiten unter Berücksichtigung der Kreuzkorrelationen sind in der Animation durch Zufallsfluktuationen dargestellt.

Zerlegung: Wahrscheinlichste Zerlegung bei Kenntnis der jeweiligen Kovarianzfunktionen. Die ursprünglichen Signale sind gestrichelt dargestellt.
Unsicherheit: Geschätzte Unsicherheiten dargestellt durch animierte Zufallsfluktuationen entsprechend der (Kreuz-)Kovarianzmatrizen.

Das Beispiel zeigt, wie mit diesem Verfahren sehr verschiedenartige Signale in einem Schritt getrennt werden können. Andere Filterverfahren wie gleitende Mittelung, Fourierfilterung, Polynomregression oder Splineapproximation sind dagegen auf spezielle Signaleigenschaften optimiert und liefern weder genaue Fehlerschätzungen noch Kreuzkorrelationen.

Sind die Gaußprozesse der Einzelkomponenten für ein gegebenes Signal nicht genau bekannt, dann kann in manchen Fällen eine Hypothesenprüfung mithilfe der Log-Marginal-Likelihood-Funktion durchgeführt werden, sofern hinreichend viele Daten für eine gute Konditionierung der Funktion zur Verfügung stehen. Über deren Maximierung können die Parameter der vermuteten Kovarianzfunktionen an die Messdaten angepasst werden.

Python Quellcode der Beispielrechnung

Literatur

C. E. Rasmussen: Gaussian Processes in Machine Learning. In: Olivier Bousquet (Hrsg.): Advanced Lectures on Machine Learning. ML 2003. (= Lecture Notes in Computer Science. vol. 3176). Springer, Berlin/Heidelberg 2004. doi:10.1007/978-3-540-28650-9_4 (cs.ubc.ca, pdf)
C. E. Rasmussen, C. K. I. Williams: Gaussian Processes for Machine Learning. MIT Press, 2006, ISBN 0-262-18253-X. (gaussianprocess.org, pdf)
R. M. Dudley: Real Analysis and Probability. Wadsworth and Brooks/Cole, 1989.
B. Simon: Functional Integration and Quantum Physics. Academic Press, 1979.
M. L. Stein: Interpolation of Spatial Data: Some Theory for Kriging. Springer, 1999.

Weblinks

Lehrmaterial

Gaussian Processes Web Site (Lehrbuch, Tutorials, Code etc.)
Interaktive Demo zur Gaußprozess-Regression
The Kernel Cookbook (Anleitung zur Konstruktion von Kovarianzfunktionen)

Software

GPy – Ein Gaussian processes Framework in Python
Scikit Learn Gaussian Process – Gaußprozess-Modul der Maschinenlern-Bibliothek Scikit-learn für Python
ooDACE – Eine flexible Matlab Toolbox.
GPstuff – Gaussian process toolbox for Matlab and Octave
Gaussian process Library geschrieben in C++11

Einzelnachweise

↑ Motonobu Kanagawa, Philipp Hennig, Dino Sejdinovic, Bharath K Sriperumbudur: Gaussian Processes and Kernel Methods: A Review on Connections and Equivalences. 2018, doi:10.48550/ARXIV.1807.02582.
↑ C. E. Rasmussen, C. K. I. Williams: Gaussian Processes for Machine Learning, Chapter 4.1 Preliminaries
↑ Topics in Probability: Gaussian Analysis, Math 7880-1, Spring 2015, University of Utah, Chapter 6 "Gaussian Processes", siehe Definition 1.7 für Stationarität und Lemma 1.8 zur Translationsinvarianz.
↑ C. E. Rasmussen, C. K. I. Williams: Gaussian Processes for Machine Learning. MIT Press, 2006, ISBN 0-262-18253-X, Kapitel 4.2 Examples of Covariance Functions, Seite 85
↑ C. E. Rasmussen, C. K. I. Williams: Gaussian Processes for Machine Learning. MIT Press, 2006, ISBN 0-262-18253-X, Kapitel 4.2 Examples of Covariance Functions, Seite 84.
↑ C. E. Rasmussen, C. K. I. Williams: Gaussian Processes for Machine Learning MIT Press, 2006, ISBN 0-262-18253-X, Kapitel 4.2.2 Dot Product Covariance Functions. S. 89 und Table 4.1, S. 94.
↑ C. E. Rasmussen, C. K. I. Williams: Gaussian Processes for Machine Learning. MIT Press, 2006, ISBN 0-262-18253-X, Kapitel 4 Covariance Functions, valide Kovarianzfunktionen sind zum Beispiel in Table 4.1 auf Seite 94 als ND aufgelistet.
↑ Die Herleitung der allgemeinen linearen Transformation erfolgt aus der Gleichung $F\cdot {\mathcal {N}}\left(\mu ,\Sigma \right)={\mathcal {N}}\left(F\mu ,F\Sigma F^{\top }\right)$ , indem die Matrix F als [A B] gewählt wird, $\mu$ als Vektor ( $\mu _{1}$ $\mu _{2}$ ) und $\Sigma$ aus entsprechenden vier Blöcken.
↑ Die Herleitung erfolgt mit der Kovarianz-Regel für Multiplikation ${\text{cov}}(Ax,By)=A{\text{cov}}(x,y)B^{\top }$ und Assoziativität ${\text{cov}}(x,y+z)={\text{cov}}(x,y)+{\text{cov}}(x,z)$ .
↑ Benjamin Noack, Joris Sijs, Uwe D. Hanebeck: Fusion Strategies for Unequal State Vectors in Distributed Kalman Filtering. In: IFAC Proceedings Volumes (= 19th IFAC World Congress). Band 47, Nr. 3, 1. Januar 2014, ISSN 1474-6670, S. 3262–3267, doi:10.3182/20140824-6-ZA-1003.02491 (sciencedirect.com).
↑ Bei der Umformung wird z. B. mit 1 = Σ₁/Σ₁ multipliziert oder 0 = Σ₁-Σ₁ addiert und die inversen Matrizen entsprechend gekürzt.
↑ Yaakov Bar-Shalom, Leon Campo: The Effect of the Common Process Noise on the Two-Sensor Fused-Track Covariance. In: IEEE Transactions on Aerospace and Electronic Systems. AES-22, Nr. 6, November 1986, ISSN 0018-9251, S. 803–805, doi:10.1109/TAES.1986.310815 (ieee.org).
↑ Die Strategie entspricht dem A-posteriori-Gaußprozess mit Messunsicherheiten, siehe Kapitel zur Gaußprozess-Regression im Lehrbuch C. E. Rasmussen, C. K. I. Williams: Gaussian Processes for Machine Learning, Chapter 2 Regression. Auch der Kalman-Filter nutzt die Datenfusion zur Trennung von Signalen und Messunsicherheiten.
↑ Als Referenz für das Kapitel "Gaußprozess-Regression" dient im Wesentlichen das Lehrbuch C. E. Rasmussen, C. K. I. Williams: Gaussian Processes for Machine Learning, Chapter 2 Regression
↑ C. E. Rasmussen, C. K. I. Williams: Gaussian Processes for Machine Learning, Kapitel 4.2.4 Making New Kernels from Old. S. 94.
↑ C. E. Rasmussen, C. K. I. Williams: Gaussian Processes for Machine Learning, Kapitel 5.2 Bayesian Model Selection. S. 108.
↑ Siehe "occam’s razor" im Lehrbuch Rasmussen Seite 110.
↑ Carl Jidling, Niklas Wahlström, Adrian Wills, Thomas B. Schön: Linearly constrained Gaussian processes. In: arXiv:1703.00787 [stat]. 19. September 2017, arxiv:1703.00787.
↑ Die Daten sind erhältlich bei Google-Trends zum Suchbegriff „Snowboard“.
↑ Mit stationären Gaußprozessen: Tao Chen u. a.: Calibration of Spectroscopic Sensors with Gaussian Process and Variable Selection. IFAC Proceedings Volumes (2007), Volume 40, Nr. 5, doi:10.3182/20070606-3-MX-2915.00141
↑ R. Honicky: Automatic calibration of sensor-phones using gaussian processes. EECS Department, UC Berkeley, Tech. Rep. UCB/EECS-2007-34 (2007), (eecs.berkeley.edu, pdf)

[1] Motonobu Kanagawa, Philipp Hennig, Dino Sejdinovic, Bharath K Sriperumbudur: Gaussian Processes and Kernel Methods: A Review on Connections and Equivalences. 2018, doi:10.48550/ARXIV.1807.02582.

[2] C. E. Rasmussen, C. K. I. Williams: Gaussian Processes for Machine Learning, Chapter 4.1 Preliminaries

[3] Topics in Probability: Gaussian Analysis, Math 7880-1, Spring 2015, University of Utah, Chapter 6 "Gaussian Processes", siehe Definition 1.7 für Stationarität und Lemma 1.8 zur Translationsinvarianz.

[4] C. E. Rasmussen, C. K. I. Williams: Gaussian Processes for Machine Learning. MIT Press, 2006, ISBN 0-262-18253-X, Kapitel 4.2 Examples of Covariance Functions, Seite 85

[5] C. E. Rasmussen, C. K. I. Williams: Gaussian Processes for Machine Learning. MIT Press, 2006, ISBN 0-262-18253-X, Kapitel 4.2 Examples of Covariance Functions, Seite 84.

[6] C. E. Rasmussen, C. K. I. Williams: Gaussian Processes for Machine Learning MIT Press, 2006, ISBN 0-262-18253-X, Kapitel 4.2.2 Dot Product Covariance Functions. S. 89 und Table 4.1, S. 94.

[7] C. E. Rasmussen, C. K. I. Williams: Gaussian Processes for Machine Learning. MIT Press, 2006, ISBN 0-262-18253-X, Kapitel 4 Covariance Functions, valide Kovarianzfunktionen sind zum Beispiel in Table 4.1 auf Seite 94 als ND aufgelistet.

[8] Die Herleitung der allgemeinen linearen Transformation erfolgt aus der Gleichung $F\cdot {\mathcal {N}}\left(\mu ,\Sigma \right)={\mathcal {N}}\left(F\mu ,F\Sigma F^{\top }\right)$ , indem die Matrix F als [A B] gewählt wird, $\mu$ als Vektor ( $\mu _{1}$ $\mu _{2}$ ) und $\Sigma$ aus entsprechenden vier Blöcken.

[9] Die Herleitung erfolgt mit der Kovarianz-Regel für Multiplikation ${\text{cov}}(Ax,By)=A{\text{cov}}(x,y)B^{\top }$ und Assoziativität ${\text{cov}}(x,y+z)={\text{cov}}(x,y)+{\text{cov}}(x,z)$ .

[10] Benjamin Noack, Joris Sijs, Uwe D. Hanebeck: Fusion Strategies for Unequal State Vectors in Distributed Kalman Filtering. In: IFAC Proceedings Volumes (= 19th IFAC World Congress). Band 47, Nr. 3, 1. Januar 2014, ISSN 1474-6670, S. 3262–3267, doi:10.3182/20140824-6-ZA-1003.02491 (sciencedirect.com).

[11] Bei der Umformung wird z. B. mit 1 = Σ₁/Σ₁ multipliziert oder 0 = Σ₁-Σ₁ addiert und die inversen Matrizen entsprechend gekürzt.

[12] Yaakov Bar-Shalom, Leon Campo: The Effect of the Common Process Noise on the Two-Sensor Fused-Track Covariance. In: IEEE Transactions on Aerospace and Electronic Systems. AES-22, Nr. 6, November 1986, ISSN 0018-9251, S. 803–805, doi:10.1109/TAES.1986.310815 (ieee.org).

[13] Die Strategie entspricht dem A-posteriori-Gaußprozess mit Messunsicherheiten, siehe Kapitel zur Gaußprozess-Regression im Lehrbuch C. E. Rasmussen, C. K. I. Williams: Gaussian Processes for Machine Learning, Chapter 2 Regression. Auch der Kalman-Filter nutzt die Datenfusion zur Trennung von Signalen und Messunsicherheiten.

[14] Als Referenz für das Kapitel "Gaußprozess-Regression" dient im Wesentlichen das Lehrbuch C. E. Rasmussen, C. K. I. Williams: Gaussian Processes for Machine Learning, Chapter 2 Regression

[15] C. E. Rasmussen, C. K. I. Williams: Gaussian Processes for Machine Learning, Kapitel 4.2.4 Making New Kernels from Old. S. 94.

[16] C. E. Rasmussen, C. K. I. Williams: Gaussian Processes for Machine Learning, Kapitel 5.2 Bayesian Model Selection. S. 108.

[17] Siehe "occam’s razor" im Lehrbuch Rasmussen Seite 110.

[18] Carl Jidling, Niklas Wahlström, Adrian Wills, Thomas B. Schön: Linearly constrained Gaussian processes. In: arXiv:1703.00787 [stat]. 19. September 2017, arxiv:1703.00787.

[19] Die Daten sind erhältlich bei Google-Trends zum Suchbegriff „Snowboard“.

[20] Mit stationären Gaußprozessen: Tao Chen u. a.: Calibration of Spectroscopic Sensors with Gaussian Process and Variable Selection. IFAC Proceedings Volumes (2007), Volume 40, Nr. 5, doi:10.3182/20070606-3-MX-2915.00141

[21] R. Honicky: Automatic calibration of sensor-phones using gaussian processes. EECS Department, UC Berkeley, Tech. Rep. UCB/EECS-2007-34 (2007), (eecs.berkeley.edu, pdf)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]