elib
DLR-Header
DLR-Logo -> http://www.dlr.de
DLR Portal Home | Impressum | Datenschutz | Kontakt | English
Schriftgröße: [-] Text [+]

Exploring Transformer and Multilabel Classification for Remote Sensing Image Captioning

Kandala, Hitesh und Saha, Sudipan und Banerjee, Biplab und Zhu, Xiao Xiang (2022) Exploring Transformer and Multilabel Classification for Remote Sensing Image Captioning. IEEE Geoscience and Remote Sensing Letters, 19, Seite 6514905. IEEE - Institute of Electrical and Electronics Engineers. doi: 10.1109/LGRS.2022.3198234. ISSN 1545-598X.

[img] PDF - Verlagsversion (veröffentlichte Fassung)
1MB

Offizielle URL: https://ieeexplore.ieee.org/document/9855519

Kurzfassung

High-resolution remote sensing images are now available with the progress of remote sensing technology. With respect to popular remote sensing tasks, such as scene classification, image captioning provides comprehensible information about such images by summarizing the image content in human-readable text. Most existing remote sensing image captioning methods are based on deep learning-based encoder–decoder frameworks, using convolutional neural network or recurrent neural network as the backbone of such frameworks. Such frameworks show a limited capability to analyze sequential data and cope with the lack of captioned remote sensing training images. Recently introduced Transformer architecture exploits self-attention to obtain superior performance for sequence-analysis tasks. Inspired by this, in this work, we employ a Transformer as an encoder–decoder for remote sensing image captioning. Moreover, to deal with the limited training data, an auxiliary decoder is used that further helps the encoder in the training process. The auxiliary decoder is trained for multilabel scene classification due to its conceptual similarity to image captioning and capability of highlighting semantic classes. To the best of our knowledge, this is the first work exploiting multilabel classification to improve remote sensing image captioning. Experimental results on the University of California (UC)-Merced caption dataset show the efficacy of the proposed method. The implementation details can be found in https://gitlab.lrz.de/ai4eo/captioningMultilabel .

elib-URL des Eintrags:https://elib.dlr.de/192680/
Dokumentart:Zeitschriftenbeitrag
Titel:Exploring Transformer and Multilabel Classification for Remote Sensing Image Captioning
Autoren:
AutorenInstitution oder E-Mail-AdresseAutoren-ORCID-iDORCID Put Code
Kandala, Hiteshhitesh_1603 (at) iitb.ac.inNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Saha, Sudipansudipan.saha (at) tum.deNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Banerjee, BiplabIndian Institute of Technology BombayNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Zhu, Xiao Xiangxiao.zhu (at) dlr.deNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Datum:August 2022
Erschienen in:IEEE Geoscience and Remote Sensing Letters
Referierte Publikation:Ja
Open Access:Ja
Gold Open Access:Nein
In SCOPUS:Ja
In ISI Web of Science:Ja
Band:19
DOI:10.1109/LGRS.2022.3198234
Seitenbereich:Seite 6514905
Verlag:IEEE - Institute of Electrical and Electronics Engineers
ISSN:1545-598X
Status:veröffentlicht
Stichwörter:Auxiliary task, image captioning, multitask learning, remote sensing, Transformer
HGF - Forschungsbereich:Luftfahrt, Raumfahrt und Verkehr
HGF - Programm:Raumfahrt
HGF - Programmthema:Erdbeobachtung
DLR - Schwerpunkt:Raumfahrt
DLR - Forschungsgebiet:R EO - Erdbeobachtung
DLR - Teilgebiet (Projekt, Vorhaben):R - Künstliche Intelligenz
Standort: Oberpfaffenhofen
Institute & Einrichtungen:Institut für Methodik der Fernerkundung > EO Data Science
Hinterlegt von: Haschberger, Dr.-Ing. Peter
Hinterlegt am:20 Dez 2022 10:07
Letzte Änderung:19 Okt 2023 12:38

Nur für Mitarbeiter des Archivs: Kontrollseite des Eintrags

Blättern
Suchen
Hilfe & Kontakt
Informationen
electronic library verwendet EPrints 3.3.12
Gestaltung Webseite und Datenbank: Copyright © Deutsches Zentrum für Luft- und Raumfahrt (DLR). Alle Rechte vorbehalten.