Abstract
Die Massenspektrometrie-basierte Proteomik stützt sich besonders auf die genaue Identifizierung von Peptiden, da sie wichtige Einblicke in biologische Prozesse liefert undAnwendungen wie die frühzeitige Diagnose von Krankheiten und die Arzneimittelentwicklung unterstützt. Während data-dependent acquisition (DDA) Experimente hierfür
etablierte Werkzeuge wie MS Amanda bieten, stellt die Identifizierung von Peptiden in
komplexeren data-independent acquisition (DIA) Daten eine größere Herausforderung
dar. In dieser Arbeit wird untersucht, inwieweit MS Amanda durch Anpassungen und
die Integration von maschinellen Lernverfahren zur Nachbewertung der Suchergebnisse
für die Analyse von DIA Daten geeignet gemacht werden kann.
Um die Identifizierung mehreren Peptide pro Spektrum zu ermöglichen, wurde MS
Amanda um einen iterativen Prozess erweitert. In diesem Prozess wurden in jeder
Iteration die bereits zugeordneten Ionen aus dem Spektrum entfernt, um die Identifizierung weiterer Peptide zu ermöglichen. Zusätzlich wurden die maschinellen Modelle
von MS2PIP, DeepLC und Mokapot, welche in MS2Rescore verwendet werden, auf DIA
Daten neu trainiert, um die Genauigkeit der Peptid-Zuordnungen zu verbessern. Eine
Reihe verschiedener maschineller Lernalgorithmen (CatBoost, SVM, neuronale Netze)
wurden verwendet, um die optimale Modellkombination zur Steigerung der PeptidIdentifikationsrate zu finden.
Obwohl MS Amanda die Fähigkeit zeigte, Peptide mit ihren entsprechenden Spektren zu
verbinden, blieb ihre Gesamtleistung bei der Peptid-Identifizierung hinter den modernen
Programmen wie Dia-NN und Spectronaut zurück. Selbst nach dem Rescoring der peptide spectrum matchs (PSMs) mit sowohl Standard- als auch spezialisierten Modellen
blieb die Anzahl der eindeutigen Peptid-Identifizierungen geringer.
| Datum der Bewilligung | 2024 |
|---|---|
| Originalsprache | Englisch (Amerika) |
| Betreuer/-in | Viktoria Dorfer (Betreuer*in) |
Studiengang
- Data Science und Engineering