Detail publikace
Vision UFormer: Long-Range Monocular Absolute Depth Estimation
Čadík Martin, doc. Ing., Ph.D. (UPGM)
Keller Yosi, prof., M.Sc., Ph.D.
Beneš Bedřich
Odhad Absolutní Hloubky, Monokulární Odhad Hloubky, Dlouhá Vzdálenost, Transformer, UNet, Postupné Trénování
V této práci představujeme nový model Vision UFormer (ViUT), který odhaduje hloubku z obrazu za použití hlubokého učení. Jeho vstupem je RGB fotografie a výstupem je odhad absolutní vzdálenosti pro každý pixel. ViUT je kombinací enkodéru založeného na architektuře Transformer a ResNet dekodéru zapojených ve stylu UNet. Model je trénován postupně na celkové množině 1M obrazů obsažených v deseti datasetech. Takto je model trénován od jednodušších relativních vzdáleností až po náročnější případy odhadu pro otevřené přírodní scény. ViUT model dosahuje srovnatelných výsledku na klasických datasetech s relativní hloubkou - např. NYUv2 a KITTI. Navíc také úspěšně predikuje absolutní hloubky v metrech. Navržený model je ověřen na široké škále otevřených přírodních scén, na kterých dosahuje zlepšení až o 23% oproti SotA přístupům. Predikce absolutních hloubek je využitelná v mnoha oblastech, mezi které patří i prezentované příklady s kompozicí obrazu, anotací vzdálenosti, do-ostřením a rekonstrukcí scén.
@article{BUT185048,
author="Tomáš {Polášek} and Martin {Čadík} and Yosi {Keller} and Bedřich {Beneš}",
title="Vision UFormer: Long-Range Monocular Absolute Depth Estimation",
journal="COMPUTERS & GRAPHICS-UK",
year="2023",
volume="111",
number="4",
pages="180--189",
doi="10.1016/j.cag.2023.02.003",
issn="0097-8493",
url="https://www.sciencedirect.com/science/article/pii/S0097849323000262"
}