GMT: Goal-Conditioned Multimodal Transformer for 6-DOF Object Trajectory Synthesis in 3D Scenes

3DV, 2026

Huajian Zeng^*1,4 Abhishek Saroha^*1,2 Daniel Cremers^1,2 Xi Wang^1,2,3

¹TUM ²MCML ³ETH Zürich ⁴MBZUAI

Paper Video Code

Citation