Alexandra Strohmeier
Ehemalige HSLU Applied Data Science Studentin
Warum der Regenwald für unsere Zukunft so wichtig ist
Die Folgen eines zerstörten und bedrohten Amazonasregenwaldes sind nicht nur für die Menschen und Tiere, die dort leben dramatisch, sondern auch für alle Menschen weltweit. Grund: Das Abholzen des Regenwaldes beschleunigt den Klimawandel. Verheerend: Nirgendwo sonst wird mehr Holz abgeholzt als im Amazonasregenwald (Laurence, et al., 2002). Dabei beinhaltet das Amazonasbecken etwa 60 Prozent des weltweit verbleibenden Regenwaldes – schrumpft dieser durch menschliche Hand, leidet darunter auch die biologische Vielfalt. Die logische Folge: Das regionale und globale Klima kommt aus dem Gleichgewicht.
Die Zahlen sprechen eine klare Sprache: Laut neuesten Studien stösst der Regenwald aktuell mehr CO2 aus, als es bindet. Eigentlich sind die tropischen Regenwälder dafür bekannt, CO2 zu absorbieren und gelten als wichtiger Faktor im Kampf gegen den Klimawandel. Ein Beispiel: Der brasilianische Teil des Amazonasgebiets hat zwischen 2010 und 2019 rund 18 Prozent mehr CO2 freigegeben, als im selben Gebiet gespeichert wurde. Das Amazonas-Becken gab demnach rund 16,6 Milliarden Tonnen CO2 in die Umwelt ab, nahm aber nur rund 13,9 Tonnen auf“ (Thome, 2021, S.1).
Impressionen der Abholzung und Brandrodung des Amazonasregenwaldes
Künstliche Intelligenz als Kristallkugel und Schutzschild in einem
Künstliche Intelligenz kann einen Mehrwert schaffen, indem sie uns dabei hilft, Risikogebiete im Amazonasregenwald frühzeitig zu erkennen, um proaktiv dem Abholzen entgegenzuwirken. Und dies ist genau das, womit ich mich in meiner Masterarbeit beschäftigt habe. Ich habe A.I.-Modelle entwickelt, die eine Art Vermittler-Rolle einnehmen können, um damit nicht nur Risikogebiete zu identifizieren, sondern auch potenzielle schwerwiegende Zerstörungen sichtbar zu machen, also vorherzusagen – etwa für politische Akteure, die präventive Massnahmen ergreifen und die Gebiete schützen können.
Meine konkrete Forschungsfrage lautete: „Wie gut lassen sich Entwaldungsrisikogebiete mit Hilfe von A.I. vorhersagen und wie gross sind respektive Beiträge von strukturierten und nicht strukturierten Daten in der gesamten Leistung?“
Um diese Frage zu beantworten, habe ich diverse Deep-Learning-Algorithmen genutzt. Deep Learning wiederum basiert auf einem künstlichen neuronalen Netzwerk, das es einem Computer ermöglicht, aus historischen Daten zu lernen. Voraussetzung dafür ist, dass man den Computer mit Daten „füttert“. In dem Fall waren es Satellitenbilder von Sentinel2, einem Erdbeobachtungssatelliten aus dem Copernicus-Programm der Europäischen Union, sowie strukturierte Daten, die die Dimensionen Population, sozio-ökonomische Faktoren, Kriminalität und Landnutzung abdeckten.
Abholzung voraussagen dank Mixed-Data Neural Networks
Da künstliche neuronale Netzwerke viele Daten benötigen, um eine zuverlässige Klassifizierung zu gewährleisten, habe ich ein grösstmögliches Untersuchungsgebiet gewählt (komplettes brasilianisches Amazonasbecken).
Die Abholzungsdaten beschaffte ich mit Hilfe von PRODES (Programa Despoluição de Bacias Hidrográficas), einem Projekt der brasilianischen Regierung. Im nächsten Schritt verwendete ich für das Modellieren Mixed-Data Neural Networks – eine zusammenhängende Kombination mehrerer neuronaler Netzwerke. Als Eingabedimensionen können sowohl Satellitenbilder als auch strukturierte Daten gleichzeitig zum Einsatz kommen, sodass das Kombinieren verschiedener Datenquellen und Datentypen eine bessere Klassifikation ermöglicht.
In der wissenschaftlichen Literatur gibt es bereits einige Beispiele, in denen sich mit Hilfe von Deep-Learning-Modellen das Abholzen des Amazonasregenwalds erkennen lässt. Der grosse Unterschied zu meinem Projekt besteht darin, dass ich Risikogebiete erkannt und nicht nur die Abholzung an sich in den Mittelpunkt gestellt habe. In meinem Projekt habe ich also Gebiete untersucht, in denen die Abholzung noch nicht erfolgt ist, sondern welche potenziell abgeholzt werden könnten.
Vorgehen: Alle guten Dinge sind drei (Modelle)
Die künstlichen neuronalen Netzwerke, die ich in der vorliegenden Arbeit erstellt habe, sollten also abholzungsgefährdete Gebiete erkennen. Hierbei war es zunächst nebensächlich, ob diese in einem für Abholzung legalen oder illegalen Bereich lagen. Wie bin ich nun konkret vorgegangen?
Ich habe mit zwei verschiedenen Modellen – nämlich CNN (Convolutional Neural Network) und MLP (Multilayer Perceptron Neural Network) zunächst die Risikogebiete ausfindig gemacht.
1. Modell: Mit dem MLP habe ich die strukturierten Daten verarbeitet und anhand dieser vorhergesagt, welche Gebiete abholzungsgefährdet sind.
2. Modell: Dahingegen nutzte ich das CNN, um anhand von visuellen Indikatoren wie Satellitenbildern die Abholzungsgefährdung vorherzusagen. Eine Besonderheit hierbei ist, dass diese Bilder einen NDVI-Index aufweisen, der die Vegetation misst. Also aufzeigt, wie viel Bäume in diesem oder jenem Gebiet wachsen.
3. Modell: Schliesslich habe ich in einem dritten Modell die ersten beiden Modelle zu einem kombiniert. Mit diesem so genannten Multi-Input-Modell, das verschiedene Datentypen verarbeiten kann, wollte ich eine höhere Genauigkeit und bessere Klassifikation erzielen.
Die Abholzungsdaten von PRODES habe ich für das Labeling verwendet. Beim Labeling geht es darum, Risikogebiete zu definieren, indem man das Untersuchungsgebiet in ein Raster unterteilt, in welchem die verwendeten strukturierten und unstrukturierten Daten liegen. Das Raster enthält einzelne Quader, welche der Grösse der einzelnen Satellitenbilder entsprechen. Bei einem Risikogebiet handelt es sich dann um einen Quader, in welchem das Modell das Risiko für eine Abholzung vorhersagt.
Kein Projekt ohne Hürden und Herausforderungen
Das Vorbereiten der Daten für das strukturierte Modell stellte eine grössere Hürde dar, als ich zuvor angenommen hatte. Die Herausforderung lag darin, die oben erwähnten Datensätze, die auch alle eine Geokomponente beinhalten, einzulesen und in ein relationales Format zu überführen.
Hierzu habe ich die Daten in Geopandas-Dataframes umgewandelt. Dies ermöglichte es mir, die Datensätze anhand der Geografie (der Quader) zu aggregieren und zusammenzuführen. Das Tückische: Für einige der relevanten Datenpunkte, wie beispielsweise Konflikte, gab es nicht in jedem Quadranten im Raster einen Datenpunkt. Daher habe ich für diese Fälle mit einer anderen Methodik gearbeitet. Für Konflikte, Strassen, Flughäfen und so weiter habe ich die Distanzen berücksichtigt und für jeden Quadranten die Distanz zum nächsten Datenpunkt berechnet.
Die Label „Risikogebiet“ und „kein Risikogebiet“ wurden entsprechend der Abholzungsdaten vergeben. Hierzu habe ich berechnet, wie viel Quadratkilometer in den unterschiedlichen Quadranten abgeholzt wurden. Wenn in einem Quadranten eine Abholzung vorlag, habe ich das Label 1 (Risikogebiet), und falls keine Abholzung vorlag, das Label 0 vergeben.
Resultate: AI blickt in die Zukunft
Nach der Datenpräparation habe ich die Daten in ein Trainings- und Testdatenset unterteilt. Der Trainingsdatensatz enthielt 33‘449 Quadranten und der Testdatensatz 11‘148 Quadranten.
Die Modellierung der strukturierten Daten mithilfe eines MLPs erreichte eine Genauigkeit von 75,2% im Trainingsdatensatz sowie 74,9% im Testdatensatz. Dahingegen erzielte das visuelle Modell mit Satellitenbildern eine Genauigkeit von 85% im Trainingsdatensatz und 79% im Testdatensatz. Daran konnte ich sehen, dass das unstrukturierte Modell bessere Resultate erzielen kann. Im Verlauf der Experimente hat sich ebenfalls gezeigt, dass die unstrukturierten Modelle häufig Overfitting-Probleme aufweisen. Overfitting ist ein Phänomen, bei dem sich ein Machine-Learning-Modell zu sehr an die ihm bekannten Trainingsdaten anpasst und daher schlecht auf neue, unbekannte Daten reagiert. Um Overfitting zu vermeiden, kann man beispielsweise grosse Trainingsdatenmengen verwenden.
Die besten Ergebnisse konnte ich dank einer Resnet50-Architektur erreichen. Dabei handelt es sich um ein 50-Schichten-tiefes Modell, mit dem man verschachtelte neuronale Netzwerke trainieren kann. In anderen Worten: Ich habe der Resnet50-Architektur die Aufgabe gegeben, Satellitenbilder zu erkennen. Da leistete sie sehr gute Arbeit und erzielte schnell Ergebnisse.
Mixed-Data Neural Network: Besondere Architektur für genauere Ergebnisse
Nachdem ich die einzelnen Modellierungen validiert und getestet hatte, kombinierte ich diese in einem Mixed-Data Modell. Für diese so genannten Mixed-Data Neural Networks sind besondere Datenpräparationsschritte notwendig. So musste ich zum Beispiel spezielle Data-Generator-Funktionen in Keras implementieren, welche es ermöglichen, beide Datentypen einzulesen. Bei Keras handelt es sich um eine Open-Source-Bibliothek für Deep Learning in Python. Keras erleichtert es, neuronale Netze zu erstellen und zu trainieren sowie spezielle Funktionen wie Data Generatoren zu implementieren, die wiederum Daten in das Modell einlesen können.
Für das Mixed-Data Neural Network mit der besten Leistung habe ich folgende Netzwerkarchitektur verwendet:
Abbildung links: Netzwerkarchitektur (Ausschnitt) Mixed-Data Neural Network
Klicken Sie hier für eine grosse Ansicht (PDF)
Was hat es mit dieser Architektur genau auf sich?
Sie enthält das ResNet50-Modell vom CNN und wird mit dem MLP kombiniert. Ferner werden Regularisierungen eingeführt. Die Ergebnisse des Modells zeigen einen guten Linienverlauf ohne Overfit. Beide Linien gewinnen über Zeit an Accuracy. Der Loss sinkt stetig. Die Accuracy beträgt 79,37% im Test und 79,38% im Training.
Um die Leistung eines Modells in Bezug auf die Genauigkeit, die Sensitivität und die Spezifität zu verstehen, habe ich mit einer Confusion Matrix gearbeitet. Sie ist ein gutes Werkzeug, um Klassifikationsmodelle zu beurteilen. Genauer gesagt zeigt sie die Anzahl der richtig und falsch klassifizierten Beispiele an, sodass ich entscheiden kann, ob ich das Modell verbessern muss oder ob es für die gegebene Aufgabe geeignet ist.
Die obige Confusion Matrix zeigt, dass 6.562 Werte „True Negatives“ und 2.287 „True Positives“ sind. Dabei werden lediglich 454 „False Negatives“ aufgeführt und 1.845 „False Positives“. Für mich zeigt sich anhand dieses kombinierten Mixed-Data-Modells ganz klar, dass es bessere Ergebnisse als die isolierten MLP- und CNN-Modelle liefert.
In der folgenden Visualisierung sind die vorhergesagten Label den wahren Labeln gegenübergestellt. Es zeigt sich, dass das Mixed-Data Neural Network die Risikogebiete grösstenteils erkennt. Lediglich im Nordwesten ist die Dichte an erkannten Risikogebieten niedriger als bei den wahren Labeln. Hier ist noch Luft nach oben.
Fazit: AI kann den Amazonasregenwald retten (helfen)
Im Vergleich zu den strukturierten Modellen wie beispielsweise MLP schneiden die visuellen Modelle wie CNN besser ab. Dies kann man darauf zurückführen, dass bereits erprobte Netzwerkarchitekturen wie ResNet50 verwendet wurden. Was mich aber besonders erfreut hat, ist, dass das Kombinieren der verschiedenen Modelle die beachtlichsten Werte erreicht hat und dadurch auch Overfitting kein Problem mehr war.
Auf einen Blick: Die erreichte Genauigkeit im Mixed-Data-Modell betrug im Training 89% und im Testdatensatz 79%. Damit kann ich meine Hypothese bestätigen, dass das Kombinieren von strukturierten und unstrukturierten Daten die Vorhersage verbessern kann. Mithilfe von künstlicher Intelligenz kann es uns also gelingen, Risikogebiete im Amazonasbecken zu prognostizieren und diese vor Abholzung und Zerstörung zu schützen.
Ausblick: Luft nach oben
Alles schön und gut, könnte man schlussfolgern. Nach meiner Masterarbeit blicke ich jedoch über den Tellerrand hinaus und fasse meine Erkenntnisse wie folgt zusammen: Die Modellierung hat natürlich ihre Grenzen. Und auch die Datenlabelingmethode ist nicht fehlerfrei, im Gegenteil. Wenn es darum geht, auf Basis von unstrukturierten Daten Muster auf den Satellitenbildern zu erkennen, die zu einer Abholzung führen könnten, kann CNN beispielsweise eventuell bessere Ergebnisse erzielen. Des Weiteren wäre es interessant herauszufinden, inwiefern sich eine andere Labelmethodik auf die Modellgüte auswirken würde.
In diesem Fall war es für das Modell schwierig, die Abholzung vorherzusagen, da diese auf dem mit einer Abholzung gelabelten Quader noch nicht zu sehen war. Mich würde es aber brennend interessieren, wie sich die Modelle verändern würden, würden die Bilder derart gelabelt sein, dass man die Abholzung in den einzelnen Bildern erkennen könnte. Zudem kämen wir einen grossen Schritt voran, wenn wir in Zukunft zwischen legaler und illegaler Abholzung unterscheiden könnten, um so letztere klassifizieren zu können. Und, last but not least, ist es sicherlich wichtig, weitere strukturierte Daten aufzunehmen und zu inkludieren, um andere Einflussfaktoren als die bereits bekannten zu finden, die den Amazonasregenwald gefährden.
Ich habe mir schon viele Gedanken gemacht, wie es mit dem Projekt weitergeht. Im ersten Schritt würde ich sehr gerne das Projekt veröffentlichen und auch den Quellcode als Open Source Projekt zugänglich machen. Es bleibt spannend, mehr dazu zu einem späteren Zeitpunkt.
Wir danken Alexandra Strohmeier herzlich für die interessanten Einblicke in dieses faszinierende und wichtige Projekt!
Applied Data Science Berufsbilder, Research und Projekt Portraits
Programm Information | Kontakt | Info-Events
Besuchen Sie eine unserer Info-Veranstaltungen und erfahren Sie mehr Details in einem persönlichen Gespräch mit der Studiengangsleitung.
Kontaktieren Sie uns sehr gerne für eine individuelle Beratung:
Tel.: +41 41 228 41 30 / E-Mail: master.ids@hslu.ch
Mehr Informationen finden Sie hier:
- Studienaufbau und Module
- Zulassung und Anmeldeprozess
- Berufsbilder und Studieninsights
- Beruf und Studium
- Generalistisches Ausbildungsprofil
- FAQ
Interessantes zum Thema Abholzung des Amazonas