Abstract
Diese Masterarbeit untersucht Active Learning Ansätze und deren Potenzial zur Reduzierung der Umweltbelastung, die mit dem Training von KI-Modellen verbunden ist.Zunächst identifizieren wir eine Wissenslücke bezüglich nachhaltiger KI-Praktiken bei
Entwicklern durch eine Benutzerstudie. Dies betont die Notwendigkeit, die wirtschaftlichen und ökologischen Auswirkungen des KI-Trainings besser zu verstehen. Trotz umfangreicher Forschung fehlt es an gezieltem Fokus auf Nachhaltigkeit in der KI. Künftige
Forschungen sollten daher auf die Entwicklung nachhaltiger KI abzielen, um umfassendere Frameworks zur Bewertung und Reduzierung der Umweltauswirkungen bereitzustellen. In dieser Masterarbeit wird ein Baseline-Modell als Referenz verwendet, wobei
der komplette Datensatz von 8000 Bildern verwendet wird um dies zu trainieren. Im
Gegensatz dazu verwenden die untersuchten Active Learning Ansätze Methoden wie zufälliges Sampling, das Datenpunkte zufällig auswählt, sowie einen Asnatz, der sich auf
die am wenigsten sicheren Vorhersagen des Models konzentriert. Darüber hinaus priorisiert das dichtegewichtete Sampling repräsentative Datenpunkte basierend auf einer
Kombination aus Merkmalsdichte und Unsicherheit, während das Diversitätssampling
eine breite visuelle Vielfalt sicherstellt, indem es Bilder aus allen Bereichen des Merkmalsraums auswählt. Diese Methoden zielen darauf ab, die Anzahl der verwendeten
Bilder auf die Hälfte zu reduzieren, was zu insgesamt 4000 Bildern für das Modelltraining führt. Darüber hinaus bieten die im Rahmen dieser Masterarbeit erstellten
Teildatensätze wertvolle Ressourcen zum Vergleich von Objekterkennungsmodellen bei
zwei gängigen Aufgaben in der Wildtierschutzforschung. Die Ergebnisse zeigen, dass
nicht alle Active Learning-Ansätze gleichermaßen für beide Szenarien geeignet sind.
Während Diversitätssampling und Unsicherheits-Sampling besonders effektiv für vielfältigere Datensätze sind, schneiden andere Ansätze wie zufälliges Sampling und dichtegewichtetes Sampling relativ besser bei Datensätzen mit höherer Merkmalsähnlichkeit ab, im Vergleich zu ihrer Leistung bei vielfältigeren Datensätzen. Es gibt zudem
einen Kompromiss zwischen Leistung und Effizienz. Diversitätssampling bietet hohe
Leistung, ist jedoch weniger effizient als zufälliges Sampling, das ressourcenschonender,
aber weniger leistungsfähig ist. Die Ergebnisse dieser Masterarbeit zeigen auch, dass
das Baseline-Modell in Bezug auf Nachhaltigkeit und Effizienz den höchsten Energieverbrauch und die höchsten CO2
-Emissionen aufweist, während das zufällige Sampling
am energieeffizientesten und umweltfreundlichsten ist. Das Baseline-Modell konvergiert
zudem schneller und zuverlässiger als jegliche Active Learning Modelle. Diese Ergebnisse betonen die Notwendigkeit, Sampling-Strategien sorgfältig auszuwählen, um Leistung
und Ressourcennutzung auszubalancieren, und heben die Bedeutung der Optimierung
dieser Strategien für nachhaltiges und effizientes Modelltraining hervor.
Datum der Bewilligung | 2024 |
---|---|
Originalsprache | Englisch (Amerika) |
Betreuer/-in | David Christian Schedl (Betreuer*in) |