Abstract
Die pulmonale Hypertonie (PH), auch Lungenhochdruck genannt, ist eine fortschreitende Lungenerkrankung, die durch eine verminderte Flexibilität der Lungenarteriengekennzeichnet ist und zu Rechtsherzversagen und Tod führen kann. Angesichts der
unspezifischen Symptome der Krankheit und ihrer relativ hohen weltweiten Prävalenz
von 1% besteht ein dringender Bedarf an zuverlässigen diagnostischen und prognostischen Methoden. Während bestehende Nachweismethoden entweder invasiv sind oder
sich auf Biomarker stützen, denen es an adäquaten diagnostischen und prognostischen
Fähigkeiten mangelt, haben frühere Studien das Potenzial von Metabolomdaten aus der
Massenspektrometrie (MS) untersucht. In dieser Arbeit wird die Verwendung von Metabolomdaten, die durch NMR erhoben werden, als alternativer Ansatz für die Prognose
untersucht, indem eine explorative Analyse durchgeführt und die Leistung verschiedener maschineller Lernmethoden sowohl für die Klassifizierung als auch für die Regression bewertet wird. Anfängliche Versuche mit Dimensionalitätsreduktion waren nicht
aufschlussreich, aber die Analysen durch Kaplan-Meier- und Cox-PH-Modelle identifizierten eine beträchtliche Anzahl von Messwerten, die mit dem Überleben zusammenhängen. Modelle des maschinellen Lernens erzielten mäßige Erfolge bei der Vorhersage
des Dreijahres-Überlebens (f1-Score von 0,75), aber die daraus resultierenden KaplanMeier- und Cox-PH-Modelle waren in der Testgruppe statistisch nicht signifikant, wie
der Dreijahres-Log-Rank-Test (p-Wert von 0,054) und die Konfidenzintervalle, die sich
mit dem Base-Hazard überschneiden, zeigen. Die Regressionsmodelle führten stets zu
schlechten Ergebnissen, was wahrscheinlich darauf zurückzuführen ist, dass die begrenzten Daten für die Komplexität der Regressionsaufgaben nicht ausreichten. Um dem Bedürfnis nach Interpretierbarkeit im medizinischen Bereich nachzukommen, wurden in
dieser Arbeit auch genetische Programmierung und NSGA-II eingesetzt, die zu Ergebnissen führten, die mit anderen Modellen des maschinellen Lernens wie SVM, RF und
XGBoost vergleichbar sind, aber auch interpretierbare mathematische Formeln liefern.
Einige Modelle, die NMR-Daten verwenden, zeigten in Kaplan-Meier- und Cox-PHAnalysen eine größere Trennschärfe als COMPERA2 und FPHR4p in der Testgruppe.
Dies könnte jedoch auf Probleme bei der Datenpartitionierung zurückzuführen sein, da
die Korrelationen zwischen Ziel- und Eingangsmerkmalen je nach dem bei der Datenpartitionierung verwendeten Zufalls-Seed sehr variabel waren. Während diese Variabilität
auf eine Heterogenität der Population hindeuten könnte, konnten Clustering-Ansätze
und explorative Analysen diese Hypothese nicht bestätigen. Weitere Forschungsarbeiten sind erforderlich, um diese Ergebnisse zu validieren.
| Datum der Bewilligung | 2024 |
|---|---|
| Originalsprache | Englisch (Amerika) |
| Betreuer/-in | Ulrich Bodenhofer (Betreuer*in) |
Studiengang
- Data Science und Engineering
Zitieren
- Standard