Fundamentals of Statistics contains material of various lectures and courses of H. Lohninger on statistics, data analysis and chemometrics......click here for more.


Interpolation

Unter Interpolation versteht man die Abschätzung eines y-Werts für einen gegebenen x-Wert, wenn zwei oder mehrere benachbarte Punkte P1 und P2 bekannt sind. Dabei verbindet man die bekannten Punkte mit einer Funktion eines bestimmten Typs und berechnet den unbekannten y-Wert für den interessierenden x-Wert mit Hilfe dieser Funktion. Im einfachsten (und vielleicht auch häufigsten) Fall wird die Interpolationsfunktion eine Gerade sein. Genauso sind aber auch Polynome n-ter Ordnung oder andere Funktionen denkbar.

Bei linearer Interpolation errechnet sich der unbekannte y-Wert yu aus dem x-Wert xu wie folgt:

yu = y1 + (xu-x1)/(x2-x1)*(y2-y1)

Setzt man zur Interpolation Polynome höherer Ordnung ein, so benötigt man entsprechend mehr Referenzpunkte, da sonst die Interpolationsfunktion nicht eindeutig definiert ist. Generell gilt, dass man für ein Polynom n-ter Ordnung n+1 Punkte benötigt. Allerdings reagieren Polynome höherer Ordnung sehr stark auf kleine Abweichungen der Referenzpunkte, so dass die interpolierten Werte sehr schnell unbrauchbar werden. In vielen Fällen ist dann eine stückweise lineare Interpolation besser.

Hinweis: Manche Autoren unterscheiden außerdem zwischen Interpolation und Approximation. Der Unterschied besteht darin, dass bei Interpolation die bekannten Datenpunkte auf der Kurve liegen müssen, während bei Approximation die errechnete Kurve auch zwischen den bekannten Datenpunkten liegen kann (wie bei einer Regression). Allerdings sind auch für diese Unterscheidung die Grenzen fließend (vgl. z.B. geglättete Splines).

 

Das folgende Beispiel zeigt eine typische Interpolation, bei der aus einer Tabelle Zwischenwerte entnommen werden müssen:
Angenommen, Sie führen einen Dean-Dixon-Ausreisser-Test für 23 Datenwerte auf einem Signifikanzniveau von 5% durch. Wenn Sie in der entsprechenden Tabelle nachsehen, finden Sie für N=23 keinen entsprechenden Eintrag der kritischen Grenze. Es gibt nur Werte für N=20 (0.450) und N=25 (0.406). Um nun die kritische Grenze für N=23 abzuschätzen, wenden wir eine lineare Interpolation an. Damit ergibt sich für die kritische Grenze:

rcrit,23 = 0.450 + (23-20)/(25-20)*(0.406-0.450) = 0.424

Welchen Fehler macht man nun bei der linearen Interpolation? Betrachtet man die Folge der kritíschen Werte so kann man diese näherungsweise durch eine hyperbolische Funktion darstellen. Berechnet man eine hyperbolische Regression mit den Datenpunkten in der Umgebung von N=23, so findet man eine Differenz des kritischen Werts bei N=23 von 0.0019. Der mit linearer Interpolation geschätzte Wert ist also um 0.0019 Einheiten zu groß - was aber wenig Bedeutung hat, da sich die kritischen Werte bei N=22 und N=24 um deutlich mehr unterscheiden als um 0.0019.

 

 

Interpolation bei großen Abständen zwischen den Referenzpunkten

Vorsicht ist bei der Interpolation angebracht, wenn der Abstand zu den benachbarten Referenzpunkten zu groß wird. In diesem Fall kann der Fehler bei der Interpolation so stark ansteigen, dass der interpolierte Wert nicht mehr brauchbar ist. Hier kann nur eine Approximation über einen größeren Wertebereich helfen, was allerdings voraussetzt, dass man den Zusammenhang zwischen unabhängiger und abhängiger Variable zumindest seiner Natur nach kennt (Typ der Funktion). In den meisten Fällen wird man eine passende Funktion mit Hilfe der linearen Regression parametrisieren.