Extending MS Amanda to Process DIA Data and Apply Rescoring with Machine Learning

  • Severin Johannes Pichler

    Studienabschlussarbeit: Masterarbeit

    Abstract

    Die Massenspektrometrie-basierte Proteomik stützt sich besonders auf die genaue Identifizierung von Peptiden, da sie wichtige Einblicke in biologische Prozesse liefert und
    Anwendungen wie die frühzeitige Diagnose von Krankheiten und die Arzneimittelentwicklung unterstützt. Während data-dependent acquisition (DDA) Experimente hierfür
    etablierte Werkzeuge wie MS Amanda bieten, stellt die Identifizierung von Peptiden in
    komplexeren data-independent acquisition (DIA) Daten eine größere Herausforderung
    dar. In dieser Arbeit wird untersucht, inwieweit MS Amanda durch Anpassungen und
    die Integration von maschinellen Lernverfahren zur Nachbewertung der Suchergebnisse
    für die Analyse von DIA Daten geeignet gemacht werden kann.
    Um die Identifizierung mehreren Peptide pro Spektrum zu ermöglichen, wurde MS
    Amanda um einen iterativen Prozess erweitert. In diesem Prozess wurden in jeder
    Iteration die bereits zugeordneten Ionen aus dem Spektrum entfernt, um die Identifizierung weiterer Peptide zu ermöglichen. Zusätzlich wurden die maschinellen Modelle
    von MS2PIP, DeepLC und Mokapot, welche in MS2Rescore verwendet werden, auf DIA
    Daten neu trainiert, um die Genauigkeit der Peptid-Zuordnungen zu verbessern. Eine
    Reihe verschiedener maschineller Lernalgorithmen (CatBoost, SVM, neuronale Netze)
    wurden verwendet, um die optimale Modellkombination zur Steigerung der PeptidIdentifikationsrate zu finden.
    Obwohl MS Amanda die Fähigkeit zeigte, Peptide mit ihren entsprechenden Spektren zu
    verbinden, blieb ihre Gesamtleistung bei der Peptid-Identifizierung hinter den modernen
    Programmen wie Dia-NN und Spectronaut zurück. Selbst nach dem Rescoring der peptide spectrum matchs (PSMs) mit sowohl Standard- als auch spezialisierten Modellen
    blieb die Anzahl der eindeutigen Peptid-Identifizierungen geringer.
    Datum der Bewilligung2024
    OriginalspracheEnglisch (Amerika)
    Betreuer/-inViktoria Dorfer (Betreuer*in)

    Studiengang

    • Data Science und Engineering

    Zitieren

    '