elib
DLR-Header
DLR-Logo -> http://www.dlr.de
DLR Portal Home | Impressum | Datenschutz | Barrierefreiheit | Kontakt | English
Schriftgröße: [-] Text [+]

Fusing Convolution and Vision Transformer Encoders for Object Height Estimation from Monocular Satellite and Aerial Images

Gültekin, Furkan und Koz, Alper und Bahmanyar, Reza und Azimi, Seyedmajid und Lütfi Süzen, Mehmet (2025) Fusing Convolution and Vision Transformer Encoders for Object Height Estimation from Monocular Satellite and Aerial Images. In: Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops, Seiten 3709-3718. ICCV - 3D VAST, 2025-10-19 - 2025-11-10, Honolulu, Hawaii.

[img] PDF
1MB

Kurzfassung

Accurate height estimation from aerial and satellite imagery is crucial for large-scale 3D scene modeling, which has applications in urban planning, environmental monitoring, and disaster management. In this work, we propose integrating convolutional neural networks (CNNs) and vision transformers (ViTs) to leverage both local and global feature extraction. Our experiments show that using a combination of CNN and ViT encoders significantly improves accuracy compared to relying on either one alone, as CNNs capture fine details while ViTs enhance contextual understanding. Additionally, we incorporate a segmentation head to enhance pixel-level precision, particularly at object boundaries. Evaluated on the DFC2019 and DFC2023 datasets, our proposed fusion approach outperforms baseline methods across multiple metrics. For instance, root-mean-squared error is reduced by 5%–13%, and accuracy is improved by 4%–9% in the delta threshold metric. The results also demonstrate strong generalizability across diverse sensors, acquisition altitudes, viewing angles, and real-world scenarios. Our models are released at https://github.com/Furkangultekin/FusedHE

elib-URL des Eintrags:https://elib.dlr.de/218107/
Dokumentart:Konferenzbeitrag (Poster)
Titel:Fusing Convolution and Vision Transformer Encoders for Object Height Estimation from Monocular Satellite and Aerial Images
Autoren:
AutorenInstitution oder E-Mail-AdresseAutoren-ORCID-iDORCID Put Code
Gültekin, FurkanLocdus AINICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Koz, AlperCenter for Image Analysis, METUNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Bahmanyar, Rezareza.bahmanyar (at) dlr.deNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Azimi, SeyedmajidSeyedmajid.Azimi (at) dlr.deNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Lütfi Süzen, MehmetGeological Engineering Department, METUNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Datum:Juli 2025
Erschienen in:Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops
Referierte Publikation:Ja
Open Access:Ja
Gold Open Access:Nein
In SCOPUS:Nein
In ISI Web of Science:Nein
Seitenbereich:Seiten 3709-3718
Status:veröffentlicht
Stichwörter:Fernerkundung
Veranstaltungstitel:ICCV - 3D VAST
Veranstaltungsort:Honolulu, Hawaii
Veranstaltungsart:internationale Konferenz
Veranstaltungsbeginn:19 Oktober 2025
Veranstaltungsende:10 November 2025
Veranstalter :ICCV International Conference on Computer Vision
HGF - Forschungsbereich:Luftfahrt, Raumfahrt und Verkehr
HGF - Programm:Verkehr
HGF - Programmthema:Straßenverkehr
DLR - Schwerpunkt:Verkehr
DLR - Forschungsgebiet:V ST Straßenverkehr
DLR - Teilgebiet (Projekt, Vorhaben):V - ACT4Transformation - Automated and Connected Technologies for Mobility Transformation, V - SaiNSOR
Standort: Oberpfaffenhofen
Institute & Einrichtungen:Institut für Methodik der Fernerkundung > Photogrammetrie und Bildanalyse
Hinterlegt von: Azimi, Seyedmajid
Hinterlegt am:31 Okt 2025 12:06
Letzte Änderung:07 Nov 2025 21:36

Nur für Mitarbeiter des Archivs: Kontrollseite des Eintrags

Blättern
Suchen
Hilfe & Kontakt
Informationen
OpenAIRE Validator logo electronic library verwendet EPrints 3.3.12
Gestaltung Webseite und Datenbank: Copyright © Deutsches Zentrum für Luft- und Raumfahrt (DLR). Alle Rechte vorbehalten.