Machine-Learning-basierte Klassifizierung von Phishing-Webseiten

  • Gerhard Kasess

Studienabschlussarbeit: Masterarbeit

Abstract

Die Masterarbeit beschäftigt sich mit der automatisierten Erkennung von PhishingWebseiten mithilfe von maschinellen Lernverfahren. Ziel der Arbeit ist die Entwicklung
eines Deep-Learning-Modells, das Webseiten anhand ihrer Merkmale präzise klassifiziert, um Sicherheitsrisiken durch Phishing zu minimieren.
In der bisherigen Forschung existieren diverse Ansätze zur Erkennung von PhishingWebseiten, wie listenbasierte Methoden, die Klassifikation anhand der URL sowie die
Analyse von Merkmalen aus Webseiten und externen Quellen. Besonders vielversprechend sind inhaltsbasierte Ansätze, die neben der URL auch die Eigenschaften der
Webseite selbst berücksichtigen. Diese Masterarbeit verfolgt einen solchen inhaltsbasierten Ansatz und kombiniert die Klassifikation, basierend auf der URL, der Struktur
des Document Object Models (DOM) und des Textinhalts der Webseite. Dadurch wird
eine umfassende Bewertung sowohl der strukturellen als auch der semantischen Eigenschaften der Webseiten ermöglicht.
Für das Training des Modells werden öffentliche Datensätze verwendet, die sowohl
die URL als auch den HTML-Code der Webseiten enthalten. Diese Daten werden vorverarbeitet und die ausgewählten Merkmale extrahiert. Zur Tokenisierung kommt der
TikToken-Tokenizer zum Einsatz. Anschließend wird ein Deep-Learning-Modell trainiert, das aus einem Convolutional Neural Network und einem Long Short-Term Memory besteht. Diese Netzwerkarchitekturen erzeugen für jede Merkmalskategorie einen
Vektor. Diese werden anschließend in einem neuronalen Netz zur Klassifikation zusammengeführt.
Das entwickelte Modell erreicht eine Klassifikationsgenauigkeit von 97,6 % auf dem
Testdatensatz. Zusätzlich wird ein Evaluierungsdatensatz zur Überprüfung des Modells
für den produktiven Einsatz erstellt, der aktuelle Webseiten aus den Jahren 2023 und
2024 sowie interne Webseiten umfasst. Auf diesem Evaluierungsdatensatz erzielt das
Modell eine Genauigkeit von 83,1 %. Durch die Anpassung des Schwellenwerts kann
diese Genauigkeit auf Kosten der Klassifizierbarkeit weiter gesteigert werden, wodurch
das Modell auch für den produktiven Einsatz geeignet ist.
Die Arbeit zeigt, dass die Kombination von strukturellen und semantischen Merkmalen der Webseiten mit Deep-Learning-Modellen zu einer Verbesserung in der Erkennung
von Phishing-Webseiten führen kann. Die Ergebnisse tragen zur Entwicklung robuster
und effizienter Werkzeuge zur Phishing-Erkennung bei und bieten eine Grundlage für
zukünftige Forschungen und Anwendungen in diesem Bereich.
Datum der Bewilligung2024
OriginalspracheDeutsch (Österreich)
Betreuer/-inEckehard Hermann (Betreuer*in)

Zitieren

'