Lectura de tesis de David Recasens Lafuente, "Dense 3D Reconstruction and Visual Localization in Rigid and Deforming Scenes"

David Recasens Lafuente defenderá su tesis doctoral "Dense 3D Reconstruction and Visual Localization in Rigid and Deforming Scenes" el próximo miércoles 10 de diciembre de 2025 a las 10:00 en la Sala de Juntas de la primera planta del edificio Agustín de Betancourt. La tesis ha sido dirigida por el Profesor del Departamento de Informática e Ingeniería de Sistemas Javier Civera,

 

El trabajo de David Recasens Lafuente representa una contribución al campo de la visión por computador, centrándose en la reconstrucción 3D y la localización visual en entornos dinámicos y complejos.

 

Resumen:

La visión por computador permite a las máquinas interpretar y reconstruir la estructura tridimensional de una escena, así como estimar con precisión la posición y orientación de una cámara empleando únicamente información visual. Sin embargo, aún persisten retos científicos relevantes. En esta tesis abordamos dos de ellos: (i) la generación de reconstrucciones tridimensionales densas y precisas y (ii) la estimación fiable del movimiento de la cámara en entornos deformables, como los tejidos humanos. La primera parte de la tesis se centra en la reconstrucción densa y de alta precisión. Proponemos una representación basada en gaussianas alineadas a nivel de píxel, que permite refinar de manera eficiente los mapas de profundidad multivista. El método ofrece resultados con errores a escala milimétrica, en apenas unos segundos y con un uso muy reducido de memoria. A continuación, estudiamos la reconstrucción y localización en escenas deformables, con especial atención a aplicaciones médicas. En este contexto presentamos Endo-Depth-and-Motion, un método que estima simultáneamente el movimiento de la cámara en seis grados de libertad y la geometría densa tridimensional a partir de secuencias monoculares de vídeo endoscópico. Basándose en la coherencia fotométrica sobre la profundidad estimada desde una sola vista, el método estima de forma robusta tanto la trayectoria de la cámara como la reconstrucción densa global. Dado que en aplicaciones críticas es esencial disponer de estimaciones de incertidumbre, exploramos el uso de redes bayesianas profundas capaces de predecir de forma conjunta la profundidad y su incertidumbre a partir de imágenes individuales de colonoscopia. Finalmente, desarrollamos Drunkard’s Odometry, una técnica de odometría visual basada en aprendizaje profundo que separa explícitamente el movimiento inducido por la cámara del movimiento aparente causado por deformaciones no rígidas de la escena. Esta descomposición permite obtener trayectorias precisas incluso ante deformaciones significativas, superando a métodos clásicos de odometría. Además, presentamos un conjunto de datos sintéticos a gran escala para navegación visual con deformaciones controladas, publicado de forma abierta para investigación futura en esta tarea.

 

Enlaces:

* https://davidrecasens.github.io/

* https://webdiis.unizar.es/~jcivera/

* https://ropert.i3a.es/