Abstract
Entity Linking (EL) ist eine bekannte Technik, die Mentions von Entitäten in Dokumenten mit einem Wissensgraphen verknüpft. Es gibt jedoch zahlreiche Mentions ohneentsprechende Einträge, die in vielen Computerlinguistischen Anwendungen übersehen
werden, obwohl sie wertvolle Informationen enthalten. Dieses Problem tritt insbesondere im Nachrichtenwesen auf, wo viele Mentions aufgrund der mangelnden Relevanz oder
des neuartigen Charakters der Entitäten keine Einträge in Wissensgraphen haben.
Bestehende Ansätze neigen dazu, sowohl verknüpfte als auch nicht verknüpfte Mentions gleichzeitig zu behandeln, was die Nutzung moderner EL-Techniken verhindert.
Diese Arbeit präsentiert eine neuartige Methode, die sich ausschließlich auf die Disambiguierung von nicht verknüpften Mentions in Nachrichtenartikeln konzentriert.
Der vorgeschlagene Ansatz verwendet einen agglomerativen Clustering-Algorithmus,
um diese Mentions zu gruppieren. Die für das Clustering erforderlichen Ähnlichkeiten
werden aus drei Faktoren abgeleitet: semantische Ähnlichkeit des Kontexts, Ähnlichkeit
der im Dokument vorhandenen Entitäten sowie textuelle Ähnlichkeit des Mentions.
Um die praktische Anwendbarkeit zu gewährleisten werden in dieser Arbeit moderne Datenbanksysteme, insbesondere Vektor- und Graphdatenbanken, untersucht und
evaluiert. Anschließend wird der Ansatz an einem Datensatz getestet, der eine Million Nachrichtenartikel aus deutschsprachigen und englischsprachigen Nachrichtenquellen
enthält.
Datum der Bewilligung | 2024 |
---|---|
Originalsprache | Englisch (Amerika) |
Betreuer/-in | Erik Pitzer (Betreuer*in) |