Zur Hauptnavigation wechseln Zur Suche wechseln Zum Hauptinhalt wechseln

Assessing the Viability of NMR Metabolomics Data for the Prognosis of Pulmonary Hypertension

  • Sebastian Pritz

    Studienabschlussarbeit: Masterarbeit

    Abstract

    Die pulmonale Hypertonie (PH), auch Lungenhochdruck genannt, ist eine fortschreitende Lungenerkrankung, die durch eine verminderte Flexibilität der Lungenarterien
    gekennzeichnet ist und zu Rechtsherzversagen und Tod führen kann. Angesichts der
    unspezifischen Symptome der Krankheit und ihrer relativ hohen weltweiten Prävalenz
    von 1% besteht ein dringender Bedarf an zuverlässigen diagnostischen und prognostischen Methoden. Während bestehende Nachweismethoden entweder invasiv sind oder
    sich auf Biomarker stützen, denen es an adäquaten diagnostischen und prognostischen
    Fähigkeiten mangelt, haben frühere Studien das Potenzial von Metabolomdaten aus der
    Massenspektrometrie (MS) untersucht. In dieser Arbeit wird die Verwendung von Metabolomdaten, die durch NMR erhoben werden, als alternativer Ansatz für die Prognose
    untersucht, indem eine explorative Analyse durchgeführt und die Leistung verschiedener maschineller Lernmethoden sowohl für die Klassifizierung als auch für die Regression bewertet wird. Anfängliche Versuche mit Dimensionalitätsreduktion waren nicht
    aufschlussreich, aber die Analysen durch Kaplan-Meier- und Cox-PH-Modelle identifizierten eine beträchtliche Anzahl von Messwerten, die mit dem Überleben zusammenhängen. Modelle des maschinellen Lernens erzielten mäßige Erfolge bei der Vorhersage
    des Dreijahres-Überlebens (f1-Score von 0,75), aber die daraus resultierenden KaplanMeier- und Cox-PH-Modelle waren in der Testgruppe statistisch nicht signifikant, wie
    der Dreijahres-Log-Rank-Test (p-Wert von 0,054) und die Konfidenzintervalle, die sich
    mit dem Base-Hazard überschneiden, zeigen. Die Regressionsmodelle führten stets zu
    schlechten Ergebnissen, was wahrscheinlich darauf zurückzuführen ist, dass die begrenzten Daten für die Komplexität der Regressionsaufgaben nicht ausreichten. Um dem Bedürfnis nach Interpretierbarkeit im medizinischen Bereich nachzukommen, wurden in
    dieser Arbeit auch genetische Programmierung und NSGA-II eingesetzt, die zu Ergebnissen führten, die mit anderen Modellen des maschinellen Lernens wie SVM, RF und
    XGBoost vergleichbar sind, aber auch interpretierbare mathematische Formeln liefern.
    Einige Modelle, die NMR-Daten verwenden, zeigten in Kaplan-Meier- und Cox-PHAnalysen eine größere Trennschärfe als COMPERA2 und FPHR4p in der Testgruppe.
    Dies könnte jedoch auf Probleme bei der Datenpartitionierung zurückzuführen sein, da
    die Korrelationen zwischen Ziel- und Eingangsmerkmalen je nach dem bei der Datenpartitionierung verwendeten Zufalls-Seed sehr variabel waren. Während diese Variabilität
    auf eine Heterogenität der Population hindeuten könnte, konnten Clustering-Ansätze
    und explorative Analysen diese Hypothese nicht bestätigen. Weitere Forschungsarbeiten sind erforderlich, um diese Ergebnisse zu validieren.
    Datum der Bewilligung2024
    OriginalspracheEnglisch (Amerika)
    Betreuer/-inUlrich Bodenhofer (Betreuer*in)

    Studiengang

    • Data Science und Engineering

    Zitieren

    '