elib
DLR-Header
DLR-Logo -> http://www.dlr.de
DLR Portal Home | Impressum | Datenschutz | Kontakt | English
Schriftgröße: [-] Text [+]

Human-object interaction prediction in videos through gaze following

Ni, Zhifan und Valls Mascaró, Esteve und Ahn, Hyemin und Lee, Dongheui (2023) Human-object interaction prediction in videos through gaze following. Computer Vision and Image Understanding, 233, Seite 103741. Elsevier. doi: 10.1016/j.cviu.2023.103741. ISSN 1077-3142.

[img] PDF - Preprintversion (eingereichte Entwurfsversion)
7MB

Offizielle URL: https://www.sciencedirect.com/science/article/abs/pii/S1077314223001212

Kurzfassung

Understanding the human-object interactions (HOIs) from a video is essential to fully comprehend a visual scene. This line of research has been addressed by detecting HOIs from images and lately from videos. However, the video-based HOI anticipation task in the third-person view remains understudied. In this paper, we design a framework to detect current HOIs and anticipate future HOIs in videos. We propose to leverage human gaze information since people often fixate on an object before interacting with it. These gaze features together with the scene contexts and the visual appearances of human-object pairs are fused through a spatio-temporal transformer. To evaluate the model in the HOI anticipation task in a multi-person scenario, we propose a set of person-wise multi-label metrics. Our model is trained and validated on the VidHOI dataset, which contains videos capturing daily life and is currently the largest video HOI dataset. Experimental results in the HOI detection task show that our approach improves the baseline by a great margin of 36.3% relatively. Moreover, we conduct an extensive ablation study to demonstrate the effectiveness of our modifications and extensions to the spatio-temporal transformer. Our code is publicly available on .

elib-URL des Eintrags:https://elib.dlr.de/197480/
Dokumentart:Zeitschriftenbeitrag
Titel:Human-object interaction prediction in videos through gaze following
Autoren:
AutorenInstitution oder E-Mail-AdresseAutoren-ORCID-iDORCID Put Code
Ni, ZhifanTUMhttps://orcid.org/0000-0002-1005-7524NICHT SPEZIFIZIERT
Valls Mascaró, EsteveTU Wienhttps://orcid.org/0000-0003-4195-8672NICHT SPEZIFIZIERT
Ahn, HyeminHyemin.Ahn (at) dlr.dehttps://orcid.org/0000-0001-8081-6023NICHT SPEZIFIZIERT
Lee, DongheuiDongheui.Lee (at) dlr.dehttps://orcid.org/0000-0003-1897-7664NICHT SPEZIFIZIERT
Datum:29 Mai 2023
Erschienen in:Computer Vision and Image Understanding
Referierte Publikation:Ja
Open Access:Ja
Gold Open Access:Nein
In SCOPUS:Ja
In ISI Web of Science:Ja
Band:233
DOI:10.1016/j.cviu.2023.103741
Seitenbereich:Seite 103741
Verlag:Elsevier
ISSN:1077-3142
Status:veröffentlicht
Stichwörter:Human–object interaction
HGF - Forschungsbereich:Luftfahrt, Raumfahrt und Verkehr
HGF - Programm:Raumfahrt
HGF - Programmthema:Robotik
DLR - Schwerpunkt:Raumfahrt
DLR - Forschungsgebiet:R RO - Robotik
DLR - Teilgebiet (Projekt, Vorhaben):R - Basistechnologien [RO]
Standort: Oberpfaffenhofen
Institute & Einrichtungen:Institut für Robotik und Mechatronik (ab 2013)
Hinterlegt von: Strobl, Dr. Klaus H.
Hinterlegt am:22 Sep 2023 12:54
Letzte Änderung:25 Sep 2023 10:28

Nur für Mitarbeiter des Archivs: Kontrollseite des Eintrags

Blättern
Suchen
Hilfe & Kontakt
Informationen
electronic library verwendet EPrints 3.3.12
Gestaltung Webseite und Datenbank: Copyright © Deutsches Zentrum für Luft- und Raumfahrt (DLR). Alle Rechte vorbehalten.