Fusing Convolution and Vision Transformer Encoders for Object Height Estimation from Monocular Satellite and Aerial Images

Gültekin, Furkan und Koz, Alper und Bahmanyar, Reza und Azimi, Seyedmajid und Lütfi Süzen, Mehmet (2026) Fusing Convolution and Vision Transformer Encoders for Object Height Estimation from Monocular Satellite and Aerial Images. In: 2025 IEEE/CVF International Conference on Computer Vision Workshops, ICCV-W 2025, Seiten 3768-3777. ICCV - 3D VAST, 2025-10-19 - 2025-10-20, Honolulu, Hawaii. doi: 10.1109/ICCVW69036.2025.00393. ISBN 979-833158988-2. ISSN 2473-9944.

PDF
1MB

Offizielle URL: https://ieeexplore.ieee.org/document/11374341

Kurzfassung

Accurate height estimation from aerial and satellite imagery is crucial for large-scale 3D scene modeling, which has applications in urban planning, environmental monitoring, and disaster management. In this work, we propose integrating convolutional neural networks (CNNs) and vision transformers (ViTs) to leverage both local and global feature extraction. Our experiments show that using a combination of CNN and ViT encoders significantly improves accuracy compared to relying on either one alone, as CNNs capture fine details while ViTs enhance contextual understanding. Additionally, we incorporate a segmentation head to enhance pixel-level precision, particularly at object boundaries. Evaluated on the DFC2019 and DFC2023 datasets, our proposed fusion approach outperforms baseline methods across multiple metrics. For instance, root-mean-squared error is reduced by 5%–13%, and accuracy is improved by 4%–9% in the delta threshold metric. The results also demonstrate strong generalizability across diverse sensors, acquisition altitudes, viewing angles, and real-world scenarios. Our models are released at https://github.com/Furkangultekin/FusedHE

elib-URL des Eintrags:

https://elib.dlr.de/218107/

Dokumentart:

Konferenzbeitrag (Poster)

Titel:

Fusing Convolution and Vision Transformer Encoders for Object Height Estimation from Monocular Satellite and Aerial Images

Autoren:

Autoren	Institution oder E-Mail-Adresse	Autoren-ORCID-iD	ORCID Put Code
Gültekin, Furkan	Locdus AI	NICHT SPEZIFIZIERT	NICHT SPEZIFIZIERT
Koz, Alper	Center for Image Analysis, METU	NICHT SPEZIFIZIERT	NICHT SPEZIFIZIERT
Bahmanyar, Reza	Reza.bahmanyar (at) dlr.de	https://orcid.org/0000-0002-6999-714X	NICHT SPEZIFIZIERT
Azimi, Seyedmajid	Seyedmajid.Azimi (at) dlr.de	NICHT SPEZIFIZIERT	NICHT SPEZIFIZIERT
Lütfi Süzen, Mehmet	Geological Engineering Department, METU	NICHT SPEZIFIZIERT	NICHT SPEZIFIZIERT

Datum:

23 Februar 2026

Erschienen in:

2025 IEEE/CVF International Conference on Computer Vision Workshops, ICCV-W 2025

Referierte Publikation:

Open Access:

Gold Open Access:

Nein

In SCOPUS:

In ISI Web of Science:

Nein

DOI:

10.1109/ICCVW69036.2025.00393

Seitenbereich:

Seiten 3768-3777

ISSN:

2473-9944

ISBN:

979-833158988-2

Status:

veröffentlicht

Stichwörter:

Fernerkundung

Veranstaltungstitel:

ICCV - 3D VAST

Veranstaltungsort:

Honolulu, Hawaii

Veranstaltungsart:

internationale Konferenz

Veranstaltungsbeginn:

19 Oktober 2025

Veranstaltungsende:

20 Oktober 2025

Veranstalter :

ICCV International Conference on Computer Vision

HGF - Forschungsbereich:

Luftfahrt, Raumfahrt und Verkehr

HGF - Programm:

Verkehr

HGF - Programmthema:

Straßenverkehr

DLR - Schwerpunkt:

Verkehr

DLR - Forschungsgebiet:

V ST Straßenverkehr

DLR - Teilgebiet (Projekt, Vorhaben):

V - ACT4Transformation - Automated and Connected Technologies for Mobility Transformation, V - SaiNSOR

Standort:

Oberpfaffenhofen

Institute & Einrichtungen:

Institut für Methodik der Fernerkundung > Photogrammetrie und Bildanalyse

Hinterlegt von:

Azimi, Seyedmajid

Hinterlegt am:

31 Okt 2025 12:06

Letzte Änderung:

29 Jun 2026 12:39

Nur für Mitarbeiter des Archivs: Kontrollseite des Eintrags