Beitrag zur Automatisierung in der Lernvideo-Produktion - GPT-gestütztes Softwaredokumentationsverständnis und Klickpositionsanalyse

  • Milan Vasilic

    Studienabschlussarbeit: Masterarbeit

    Abstract

    Diese Masterarbeit analysiert den Einsatz von Computer-Vision- und Large-LanguageModellen zur Automatisierung der Produktion von Lernvideos. Die Motivation liegt in
    der steigenden Bedeutung digitaler Lernmethoden und der Herausforderung, die Erstellung von Lernvideos effizienter zu gestalten. Ziel der Arbeit ist es, erste Einblicke in
    die Nutzung von OpenAIs GPT-Modellen zur Analyse von Softwaredokumentationen
    zu gewinnen. Die Arbeit gliedert sich in einen Abschnitt zur Verständniserfassung und
    einen zur Klickpositionsbestimmung. Mit einem Large-Language-Model wird die Dokumentation eingelesen und das Verständnis analysiert. Es sollen Einblicke in die automatische Erstellung von Skripten für Lernvideos gewährt werden. Dazu wird OpenAIs
    GPT-Modellen (4 Turbo und 4o) ein Abschnitt aus der Firmendokumentation übergeben und es werden zwei Fragen zu dieser Dokumentation gestellt. Firmenspezifische
    Angestellte beantworten daraufhin weitere Fragen zu den gegebenen Antworten, um das
    Verständnis und die Genauigkeit der Antworten zu überprüfen. Das Vision-Modell von
    OpenAI wird verwendet, um auf Bildern die Positionen von Text und Texteingabefeldern
    zu identifizieren und entsprechende Klickpositionen für die Interaktion zu bestimmen.
    Insgesamt wurden zehn Prompts an sechzig Bildern getestet, um die Genauigkeit der
    Klickpositionsbestimmung zu evaluieren. Dreißig Bilder wurden verwendet, um Text in
    Buttons zu bestimmen, und dreißig Bilder wurden verwendet, um Texteingabefelder zu
    bestimmen. Dabei zeigt sich, dass die Komplexität und Länge der Prompts die Genauigkeit der Ergebnisse kaum beeinflussen. Ein erster Vergleich mit PyTesseract zeigt, dass
    das Vision-Modell Schwierigkeiten aufweist, die Bounding Boxes der Wörter präzise zu
    bestimmen. Eine minimale Erhöhung der Genauigkeit zeigt sich bei der Verwendung von
    Matplotlib im Prompt zur Überprüfung der Bildkoordinaten. Zwei identische Prompts
    wurden auf Rohbilder und binarisierten Bildern angewandt. Der Vergleich zeigt, dass ein
    Prompt auf binarisierten Bildern besser funktioniert als auf Rohbildern. Die mittleren
    und medianen Abweichungen scheinen je nach Prompt minimale Unterschiede aufzuweisen. Die Distanzen vom vorhergesagten bis zu erwarteten Koordinaten folgen keiner
    Normalverteilung. Einen signifikanten Unterschied weisen die Gruppen im Median auf.
    Der verantwortliche Prompt (auf Rohbildern) enthält Anweisungen, Ecken ähnlich wie
    Bounding Boxes, um den Text zu erstellen. Die Fehler scheinen auf die Bestimmung der
    Y-Koordinate zurückzuführen zu sein, da diese häufiger nicht getroffen wird als die XKoordinate. Bei allen verfehlten Klickpositionen für Texte in Buttons liegen die X- und
    Y-Koordinaten häufiger gemeinsam außerhalb des Intervalls als nur die X-Koordinate.
    Die verfehlten Klickpositionen bei den Texteingabefeldern scheinen sich nicht allzu stark
    zu unterscheiden. Die Arbeit trägt zur Automatisierung der Lernvideoproduktion bei
    und zeigt erste Schritte auf, um Zeit und Ressourcen zu sparen. Sie stellt fest, dass das GPT-Modell von OpenAi zur Automatisierung der Lernvideoproduktion eingesetzt
    werden. Trotz der erzielten Fortschritte sind jedoch weitere Verbesserungen und Optimierungen notwendig, um die Genauigkeit und Effizienz der automatisierten Prozesse
    zu steigern.
    Datum der Bewilligung2024
    OriginalspracheDeutsch (Österreich)
    Betreuer/-inAndreas Stöckl (Betreuer*in), Elias Ramoser (Betreuer*in) & Christof Feischl (Betreuer*in)

    Zitieren

    '