Disambiguating Unknown Entities in News Articles

  • Jakob Sebastian Lammel

    Studienabschlussarbeit: Masterarbeit

    Abstract

    Entity Linking (EL) ist eine bekannte Technik, die Mentions von Entitäten in Dokumenten mit einem Wissensgraphen verknüpft. Es gibt jedoch zahlreiche Mentions ohne
    entsprechende Einträge, die in vielen Computerlinguistischen Anwendungen übersehen
    werden, obwohl sie wertvolle Informationen enthalten. Dieses Problem tritt insbesondere im Nachrichtenwesen auf, wo viele Mentions aufgrund der mangelnden Relevanz oder
    des neuartigen Charakters der Entitäten keine Einträge in Wissensgraphen haben.
    Bestehende Ansätze neigen dazu, sowohl verknüpfte als auch nicht verknüpfte Mentions gleichzeitig zu behandeln, was die Nutzung moderner EL-Techniken verhindert.
    Diese Arbeit präsentiert eine neuartige Methode, die sich ausschließlich auf die Disambiguierung von nicht verknüpften Mentions in Nachrichtenartikeln konzentriert.
    Der vorgeschlagene Ansatz verwendet einen agglomerativen Clustering-Algorithmus,
    um diese Mentions zu gruppieren. Die für das Clustering erforderlichen Ähnlichkeiten
    werden aus drei Faktoren abgeleitet: semantische Ähnlichkeit des Kontexts, Ähnlichkeit
    der im Dokument vorhandenen Entitäten sowie textuelle Ähnlichkeit des Mentions.
    Um die praktische Anwendbarkeit zu gewährleisten werden in dieser Arbeit moderne Datenbanksysteme, insbesondere Vektor- und Graphdatenbanken, untersucht und
    evaluiert. Anschließend wird der Ansatz an einem Datensatz getestet, der eine Million Nachrichtenartikel aus deutschsprachigen und englischsprachigen Nachrichtenquellen
    enthält.
    Datum der Bewilligung2024
    OriginalspracheEnglisch (Amerika)
    Betreuer/-inErik Pitzer (Betreuer*in)

    Zitieren

    '