Abstract
Im Rahmen dieser Arbeit wurde der Prozess zum Erstellen von Voice Deepfakes beleuchtet. Dabei wurde mithilfe von künstlicher Intelligenz die Stimme von Menschengefälscht. Dafür wurde ein Hauptaugenmerk auf das Imitieren von Stimme in deutschen
Dialekten gelegt. So wurden prototyphaft Deepfakes erstellt, die einen ausgewählten
Dialekt und die Stimme einer Zielperson imitieren, um diesen Prozess darzustellen.
Für das prototyphafte Erstellen von Deepfakes in einem deutschen Dialekt wurden
mehrere Datasets erstellt. Dabei sind Label für den ausgewählten Dialekt entstanden.
Diese Label wurden von Sprechern des ausgewählten Dialekts vertont. Das Ziel war es
Deepfakes zu erstellen, die einen dieser Sprecher imitieren sollen. Da auch Datasets anderer Sprechers*innen das Erstellen von Deepfakes einer Zielperson unterstützt, wurde
auch dieser Prozess zum Erstellen eines Datasets in einem Zieldialekt erläutert.
Es wurden Text-to-speech-Systeme (TTS-Systeme) in dieser Arbeit benutzt. Prototyphaft wurden mehrere Modelle zum Imitieren des Dialekts und zum Imitieren der
Zielperson erstellt. Daraus entstanden mehrere Modelle, die auf unterschiedliche Arten
antrainiert wurden. Mit diesen TTS-Systemen wurden Deepfakes erstellt und evaluiert um herauszufinden, wie Deepfakes für einen deutschen Dialekt ressourceneffizient
antrainiert werden können. Ein Teil dieser Arbeit betrachtet, inwiefern existierende
Rohdaten einer Hochsprache und vorgefertigte Komponenten eines TTS-Systems für
eine Hochsprache für das Erstellen von Deepfakes in einem Dialekt verwendet werden
können. Dabei wurden auch Komponenten und Datasets von Hochsprachen für verschiedene Zwecke zum Imitieren eines Sprechers im Dialekt eingesetzt. Einige Komponenten
wurden für das Fälschen von Stimme in einem Dialekt auch speziell angepasst.
Datum der Bewilligung | 2024 |
---|---|
Originalsprache | Deutsch (Österreich) |
Betreuer/-in | Harald Lampesberger (Betreuer*in) |