Detail publikace
Estimating Extreme 3D Image Rotations using Cascaded Attention
odhad orientace kamery, extrémní rotace, 3D rotace, cascaded attention
Odhad velkých až extrémních rotací mezi snímky je kritický pro řadu oblastí počítačového vidění. Složitá je zejména úloha, kdy mají snímky omezené nebo dokonce nepřekrývající se zorná pole. V této práci navrhujeme přístup založený na pozornosti (attention) s řadou nových algoritmických komponent. Protože se odhad rotace týká obrazových párů, zavádíme nové schéma destilace informace z obrazů pomocí dekodérů ke zlepšení kvality kódované informace, tzv. embeddingu. Zatímco současné metody počítají 4D korelační objem (4DCV) kódující vztahy mezi snímky, navrhujeme využití křížové pozornosti (cross-attention) mezi aktivačními mapami, který vede na kvalitnější ekvivalent 4DCV. V článku dále představujeme kaskádovou techniku založenou na dekodéru pro iterativní zpřesňování křížové pozornosti a odhadu rotace. Náš přístup předčí současné nejmodernější metody odhadu extrémní rotace. Kód metody zpřístupňujeme veřejnosti.
@INPROCEEDINGS{FITPUB13178, author = "Shay Dekel and Yosi Keller and Martin \v{C}ad\'{i}k", title = "Estimating Extreme 3D Image Rotations using Cascaded Attention", pages = "2588--2598", booktitle = "Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)", year = 2024, location = "Seattle, US", publisher = "IEEE Computer Society", ISBN = "979-8-3503-5301-3", doi = "10.1109/CVPR52733.2024.00250", language = "english", url = "https://www.fit.vut.cz/research/publication/13178" }