Detail publikace

Vision UFormer: Long-Range Monocular Absolute Depth Estimation

POLÁŠEK, T.; ČADÍK, M.; KELLER, Y.; BENEŠ, B. Vision UFormer: Long-Range Monocular Absolute Depth Estimation. COMPUTERS & GRAPHICS-UK, 2023, vol. 111, no. 4, p. 180-189. ISSN: 0097-8493.
Název česky
Vision UFormer: Absolutní Predikce Hloubek na Dlouhé Vzdálenosti
Typ
článek v časopise
Jazyk
anglicky
Autoři
Polášek Tomáš, Ing. (UPGM)
Čadík Martin, doc. Ing., Ph.D. (UPGM)
Keller Yosi, prof., M.Sc., Ph.D.
Beneš Bedřich
URL
Klíčová slova

Odhad Absolutní Hloubky, Monokulární Odhad Hloubky, Dlouhá Vzdálenost, Transformer, UNet, Postupné Trénování

Abstrakt

V této práci představujeme nový model Vision UFormer (ViUT), který odhaduje hloubku z obrazu za použití hlubokého učení. Jeho vstupem je RGB fotografie a výstupem je odhad absolutní vzdálenosti pro každý pixel. ViUT je kombinací  enkodéru založeného na architektuře Transformer a ResNet dekodéru zapojených ve stylu UNet. Model je trénován postupně na celkové množině 1M obrazů obsažených v deseti datasetech. Takto je model trénován od jednodušších relativních vzdáleností až po náročnější případy odhadu pro otevřené přírodní scény. ViUT model dosahuje srovnatelných výsledku na klasických datasetech s relativní hloubkou - např. NYUv2 a KITTI. Navíc také úspěšně predikuje absolutní hloubky v metrech. Navržený model je ověřen na široké škále otevřených přírodních scén, na kterých dosahuje zlepšení až o 23% oproti SotA přístupům. Predikce absolutních hloubek je využitelná v mnoha oblastech, mezi které patří i prezentované příklady s kompozicí obrazu, anotací vzdálenosti, do-ostřením a rekonstrukcí scén.

Rok
2023
Strany
180–189
Časopis
COMPUTERS & GRAPHICS-UK, roč. 111, č. 4, ISSN 0097-8493
Vydavatel
Elsevier
Místo
Oxford
DOI
UT WoS
000954860700001
EID Scopus
BibTeX
@article{BUT185048,
  author="Tomáš {Polášek} and Martin {Čadík} and Yosi {Keller} and Bedřich {Beneš}",
  title="Vision UFormer: Long-Range Monocular Absolute Depth Estimation",
  journal="COMPUTERS & GRAPHICS-UK",
  year="2023",
  volume="111",
  number="4",
  pages="180--189",
  doi="10.1016/j.cag.2023.02.003",
  issn="0097-8493",
  url="https://www.sciencedirect.com/science/article/pii/S0097849323000262"
}
Nahoru