Exploring Active Learning Approaches for Improved and Sustainable Object Detection in Ecological Datasets

  • Joel Esengo Nitu

    Studienabschlussarbeit: Masterarbeit

    Abstract

    Diese Masterarbeit untersucht Active Learning Ansätze und deren Potenzial zur Reduzierung der Umweltbelastung, die mit dem Training von KI-Modellen verbunden ist.
    Zunächst identifizieren wir eine Wissenslücke bezüglich nachhaltiger KI-Praktiken bei
    Entwicklern durch eine Benutzerstudie. Dies betont die Notwendigkeit, die wirtschaftlichen und ökologischen Auswirkungen des KI-Trainings besser zu verstehen. Trotz umfangreicher Forschung fehlt es an gezieltem Fokus auf Nachhaltigkeit in der KI. Künftige
    Forschungen sollten daher auf die Entwicklung nachhaltiger KI abzielen, um umfassendere Frameworks zur Bewertung und Reduzierung der Umweltauswirkungen bereitzustellen. In dieser Masterarbeit wird ein Baseline-Modell als Referenz verwendet, wobei
    der komplette Datensatz von 8000 Bildern verwendet wird um dies zu trainieren. Im
    Gegensatz dazu verwenden die untersuchten Active Learning Ansätze Methoden wie zufälliges Sampling, das Datenpunkte zufällig auswählt, sowie einen Asnatz, der sich auf
    die am wenigsten sicheren Vorhersagen des Models konzentriert. Darüber hinaus priorisiert das dichtegewichtete Sampling repräsentative Datenpunkte basierend auf einer
    Kombination aus Merkmalsdichte und Unsicherheit, während das Diversitätssampling
    eine breite visuelle Vielfalt sicherstellt, indem es Bilder aus allen Bereichen des Merkmalsraums auswählt. Diese Methoden zielen darauf ab, die Anzahl der verwendeten
    Bilder auf die Hälfte zu reduzieren, was zu insgesamt 4000 Bildern für das Modelltraining führt. Darüber hinaus bieten die im Rahmen dieser Masterarbeit erstellten
    Teildatensätze wertvolle Ressourcen zum Vergleich von Objekterkennungsmodellen bei
    zwei gängigen Aufgaben in der Wildtierschutzforschung. Die Ergebnisse zeigen, dass
    nicht alle Active Learning-Ansätze gleichermaßen für beide Szenarien geeignet sind.
    Während Diversitätssampling und Unsicherheits-Sampling besonders effektiv für vielfältigere Datensätze sind, schneiden andere Ansätze wie zufälliges Sampling und dichtegewichtetes Sampling relativ besser bei Datensätzen mit höherer Merkmalsähnlichkeit ab, im Vergleich zu ihrer Leistung bei vielfältigeren Datensätzen. Es gibt zudem
    einen Kompromiss zwischen Leistung und Effizienz. Diversitätssampling bietet hohe
    Leistung, ist jedoch weniger effizient als zufälliges Sampling, das ressourcenschonender,
    aber weniger leistungsfähig ist. Die Ergebnisse dieser Masterarbeit zeigen auch, dass
    das Baseline-Modell in Bezug auf Nachhaltigkeit und Effizienz den höchsten Energieverbrauch und die höchsten CO2
    -Emissionen aufweist, während das zufällige Sampling
    am energieeffizientesten und umweltfreundlichsten ist. Das Baseline-Modell konvergiert
    zudem schneller und zuverlässiger als jegliche Active Learning Modelle. Diese Ergebnisse betonen die Notwendigkeit, Sampling-Strategien sorgfältig auszuwählen, um Leistung
    und Ressourcennutzung auszubalancieren, und heben die Bedeutung der Optimierung
    dieser Strategien für nachhaltiges und effizientes Modelltraining hervor.
    Datum der Bewilligung2024
    OriginalspracheEnglisch (Amerika)
    Betreuer/-inDavid Christian Schedl (Betreuer*in)

    Zitieren

    '