Abstract
Diese Masterarbeit analysiert den Einsatz von Computer-Vision- und Large-LanguageModellen zur Automatisierung der Produktion von Lernvideos. Die Motivation liegt inder steigenden Bedeutung digitaler Lernmethoden und der Herausforderung, die Erstellung von Lernvideos effizienter zu gestalten. Ziel der Arbeit ist es, erste Einblicke in
die Nutzung von OpenAIs GPT-Modellen zur Analyse von Softwaredokumentationen
zu gewinnen. Die Arbeit gliedert sich in einen Abschnitt zur Verständniserfassung und
einen zur Klickpositionsbestimmung. Mit einem Large-Language-Model wird die Dokumentation eingelesen und das Verständnis analysiert. Es sollen Einblicke in die automatische Erstellung von Skripten für Lernvideos gewährt werden. Dazu wird OpenAIs
GPT-Modellen (4 Turbo und 4o) ein Abschnitt aus der Firmendokumentation übergeben und es werden zwei Fragen zu dieser Dokumentation gestellt. Firmenspezifische
Angestellte beantworten daraufhin weitere Fragen zu den gegebenen Antworten, um das
Verständnis und die Genauigkeit der Antworten zu überprüfen. Das Vision-Modell von
OpenAI wird verwendet, um auf Bildern die Positionen von Text und Texteingabefeldern
zu identifizieren und entsprechende Klickpositionen für die Interaktion zu bestimmen.
Insgesamt wurden zehn Prompts an sechzig Bildern getestet, um die Genauigkeit der
Klickpositionsbestimmung zu evaluieren. Dreißig Bilder wurden verwendet, um Text in
Buttons zu bestimmen, und dreißig Bilder wurden verwendet, um Texteingabefelder zu
bestimmen. Dabei zeigt sich, dass die Komplexität und Länge der Prompts die Genauigkeit der Ergebnisse kaum beeinflussen. Ein erster Vergleich mit PyTesseract zeigt, dass
das Vision-Modell Schwierigkeiten aufweist, die Bounding Boxes der Wörter präzise zu
bestimmen. Eine minimale Erhöhung der Genauigkeit zeigt sich bei der Verwendung von
Matplotlib im Prompt zur Überprüfung der Bildkoordinaten. Zwei identische Prompts
wurden auf Rohbilder und binarisierten Bildern angewandt. Der Vergleich zeigt, dass ein
Prompt auf binarisierten Bildern besser funktioniert als auf Rohbildern. Die mittleren
und medianen Abweichungen scheinen je nach Prompt minimale Unterschiede aufzuweisen. Die Distanzen vom vorhergesagten bis zu erwarteten Koordinaten folgen keiner
Normalverteilung. Einen signifikanten Unterschied weisen die Gruppen im Median auf.
Der verantwortliche Prompt (auf Rohbildern) enthält Anweisungen, Ecken ähnlich wie
Bounding Boxes, um den Text zu erstellen. Die Fehler scheinen auf die Bestimmung der
Y-Koordinate zurückzuführen zu sein, da diese häufiger nicht getroffen wird als die XKoordinate. Bei allen verfehlten Klickpositionen für Texte in Buttons liegen die X- und
Y-Koordinaten häufiger gemeinsam außerhalb des Intervalls als nur die X-Koordinate.
Die verfehlten Klickpositionen bei den Texteingabefeldern scheinen sich nicht allzu stark
zu unterscheiden. Die Arbeit trägt zur Automatisierung der Lernvideoproduktion bei
und zeigt erste Schritte auf, um Zeit und Ressourcen zu sparen. Sie stellt fest, dass das GPT-Modell von OpenAi zur Automatisierung der Lernvideoproduktion eingesetzt
werden. Trotz der erzielten Fortschritte sind jedoch weitere Verbesserungen und Optimierungen notwendig, um die Genauigkeit und Effizienz der automatisierten Prozesse
zu steigern.
Datum der Bewilligung | 2024 |
---|---|
Originalsprache | Deutsch (Österreich) |
Betreuer/-in | Andreas Stöckl (Betreuer*in), Elias Ramoser (Betreuer*in) & Christof Feischl (Betreuer*in) |