Übung Schätzung von Siedepunkten chemischer Strukturen
Um quantitative
Struktur-Eigenschafts-Beziehungen (engl. quantitative structure property
relationships, QSPR) aufzustellen, berechnet man viele numerische
Deskriptoren. Auch in der Chemie werden bei der Untersuchung chemischer
Strukturen viele numerische Deskriptoren berechnet. Diese Deskriptoren
können einfache Gegebenheiten darstellen, wie die Zahl der Kohlenstoffatome in
der Struktur, oder anspruchsvollere Eigenschaften beschreiben, wie die
Deskriptoren, die aus graphentheoretischen Berechnungen abgeleitet werden.
Nachdem diese Deskriptoren berechnet wurden, erhält man eine Matrix, die
diese Zahlen und eine zusätzliche Spalte mit der zu modellierenden
chemisch/physikalischen Eigenschaft (z.B. dem Siedepunkt) enthält. Man kann dann
versuchen, einen passenden Satz an Variablen zu finden und ein multivariates
Regressionsmodell anzusetzen.
Verwenden Sie den Datensatz BOILPTS und gehen Sie zum
, um den Siedepunkt anhand der
gegebenen Strukturdeskriptoren zu modellieren. Versuchen Sie, verschiedene
Deskriptoren zu kombinieren, um eine optimale Kombination zu finden (ein
Hinweis: Das resultierende Modell sollte eine Standardabweichung der
Residuen von unter 8, ein Bestimmtheitsmaß von ca. 0,97 und
einen F-Wert von ungefähr 2300 aufweisen). Versuchen Sie, die
folgenden Fragen zu beantworten:
- Wie rechtfertigen Sie Ihre Auswahl der Variablen?
- Sind die MLR-Ergebnisse mit denen der PCR vergleichbar?
- Haben Sie eine Idee, wie man die verbliebene Nichtlinearität meistern
kann?
|