Machine-Learning-basierte Klassifizierung von Phishing-Webseiten

  • Gerhard Kasess

    Studienabschlussarbeit: Masterarbeit

    Abstract

    Die Masterarbeit beschäftigt sich mit der automatisierten Erkennung von PhishingWebseiten mithilfe von maschinellen Lernverfahren. Ziel der Arbeit ist die Entwicklung
    eines Deep-Learning-Modells, das Webseiten anhand ihrer Merkmale präzise klassifiziert, um Sicherheitsrisiken durch Phishing zu minimieren.
    In der bisherigen Forschung existieren diverse Ansätze zur Erkennung von PhishingWebseiten, wie listenbasierte Methoden, die Klassifikation anhand der URL sowie die
    Analyse von Merkmalen aus Webseiten und externen Quellen. Besonders vielversprechend sind inhaltsbasierte Ansätze, die neben der URL auch die Eigenschaften der
    Webseite selbst berücksichtigen. Diese Masterarbeit verfolgt einen solchen inhaltsbasierten Ansatz und kombiniert die Klassifikation, basierend auf der URL, der Struktur
    des Document Object Models (DOM) und des Textinhalts der Webseite. Dadurch wird
    eine umfassende Bewertung sowohl der strukturellen als auch der semantischen Eigenschaften der Webseiten ermöglicht.
    Für das Training des Modells werden öffentliche Datensätze verwendet, die sowohl
    die URL als auch den HTML-Code der Webseiten enthalten. Diese Daten werden vorverarbeitet und die ausgewählten Merkmale extrahiert. Zur Tokenisierung kommt der
    TikToken-Tokenizer zum Einsatz. Anschließend wird ein Deep-Learning-Modell trainiert, das aus einem Convolutional Neural Network und einem Long Short-Term Memory besteht. Diese Netzwerkarchitekturen erzeugen für jede Merkmalskategorie einen
    Vektor. Diese werden anschließend in einem neuronalen Netz zur Klassifikation zusammengeführt.
    Das entwickelte Modell erreicht eine Klassifikationsgenauigkeit von 97,6 % auf dem
    Testdatensatz. Zusätzlich wird ein Evaluierungsdatensatz zur Überprüfung des Modells
    für den produktiven Einsatz erstellt, der aktuelle Webseiten aus den Jahren 2023 und
    2024 sowie interne Webseiten umfasst. Auf diesem Evaluierungsdatensatz erzielt das
    Modell eine Genauigkeit von 83,1 %. Durch die Anpassung des Schwellenwerts kann
    diese Genauigkeit auf Kosten der Klassifizierbarkeit weiter gesteigert werden, wodurch
    das Modell auch für den produktiven Einsatz geeignet ist.
    Die Arbeit zeigt, dass die Kombination von strukturellen und semantischen Merkmalen der Webseiten mit Deep-Learning-Modellen zu einer Verbesserung in der Erkennung
    von Phishing-Webseiten führen kann. Die Ergebnisse tragen zur Entwicklung robuster
    und effizienter Werkzeuge zur Phishing-Erkennung bei und bieten eine Grundlage für
    zukünftige Forschungen und Anwendungen in diesem Bereich.
    Datum der Bewilligung2024
    OriginalspracheDeutsch (Österreich)
    Betreuer/-inEckehard Hermann (Betreuer*in)

    Studiengang

    • Sichere Informationssysteme

    Zitieren

    '