Multimodal Learning for Earth Observation: Automating Satellite Image Captioning with Geo-FMs

Chiarabini, Luca und Espinoza Molina, Daniela und Zappacosta, Antony und Kuzu, Ridvan Salih und Camero, Andres (2025) Multimodal Learning for Earth Observation: Automating Satellite Image Captioning with Geo-FMs. Helmholtz AI Conference 2025, 2025-06-03 - 2025-06-05, Karlsruhe.

PDF
580kB

Kurzfassung

The automatic generation of captions for satellite images can enhance the accessibility and interpretability of Earth Observation (EO) data. In this study, we compare two approaches to image captioning: TerraMind, a model developed within the FAST-EO project specifically for satellite imagery, and BLIP-2, a generic multimodal model trained on RGB images. The dataset used, SmallMinesDS, consists of annotated satellite images from five districts in Ghana, where unregulated small-scale gold mining threatens cocoa farmlands. Our evaluation focuses on caption accuracy, specificity, and adaptability to EO imagery, highlighting the strengths and limitations of each approach in the context of environmental monitoring.

elib-URL des Eintrags:

https://elib.dlr.de/215040/

Dokumentart:

Konferenzbeitrag (Poster)

Titel:

Multimodal Learning for Earth Observation: Automating Satellite Image Captioning with Geo-FMs

Autoren:

Autoren	Institution oder E-Mail-Adresse	Autoren-ORCID-iD	ORCID Put Code
Chiarabini, Luca	luca.chiarabini (at) dlr.de	NICHT SPEZIFIZIERT	NICHT SPEZIFIZIERT
Espinoza Molina, Daniela	Daniela.EspinozaMolina (at) dlr.de	NICHT SPEZIFIZIERT	NICHT SPEZIFIZIERT
Zappacosta, Antony	antony.zappacosta (at) dlr.de	NICHT SPEZIFIZIERT	NICHT SPEZIFIZIERT
Kuzu, Ridvan Salih	Ridvan.Kuzu (at) dlr.de	https://orcid.org/0000-0002-1816-181X	NICHT SPEZIFIZIERT
Camero, Andres	Andres.CameroUnzueta (at) dlr.de	https://orcid.org/0000-0002-8152-9381	NICHT SPEZIFIZIERT

Datum:

3 Juni 2025

Referierte Publikation:

Nein

Open Access:

Gold Open Access:

Nein

In SCOPUS:

Nein

In ISI Web of Science:

Nein

Status:

veröffentlicht

Stichwörter:

Satellite image captioning, Earth Observation (EO), TerraMind, Multimodal models, AI

Veranstaltungstitel:

Helmholtz AI Conference 2025

Veranstaltungsort:

Karlsruhe

Veranstaltungsart:

nationale Konferenz

Veranstaltungsbeginn:

3 Juni 2025

Veranstaltungsende:

5 Juni 2025

HGF - Forschungsbereich:

Luftfahrt, Raumfahrt und Verkehr

HGF - Programm:

Raumfahrt

HGF - Programmthema:

Erdbeobachtung

DLR - Schwerpunkt:

Raumfahrt

DLR - Forschungsgebiet:

R EO - Erdbeobachtung

DLR - Teilgebiet (Projekt, Vorhaben):

R - Künstliche Intelligenz, R - Optische Fernerkundung, R - Maschinelles Lernen, R - Fernerkundung u. Geoforschung

Standort:

Oberpfaffenhofen

Institute & Einrichtungen:

Institut für Methodik der Fernerkundung > EO Data Science

Hinterlegt von:

Chiarabini, Luca

Hinterlegt am:

09 Jul 2025 13:53

Letzte Änderung:

09 Jul 2025 13:53

Nur für Mitarbeiter des Archivs: Kontrollseite des Eintrags