Reconstrução 3D a partir de várias imagens - 3D reconstruction from multiple images

Uma selfie 3D em escala 1:20 impressa pela Shapeways usando impressão baseada em gesso, criada pelo parque em miniatura Madurodam a partir de fotos 2D tiradas em seu estande de fotos Fantasitron.
Modelos 3D são gerados a partir de fotos 2D tiradas no estande de fotos 3D Fantasitron em Madurodam
Gerar e reconstruir formas 3D a partir de mapas ou silhuetas de profundidade de visualização única ou múltipla

A reconstrução 3D a partir de várias imagens é a criação de modelos tridimensionais a partir de um conjunto de imagens. É o processo inverso de obtenção de imagens 2D de cenas 3D.

A essência de uma imagem é a projeção de uma cena 3D em um plano 2D, durante o qual a profundidade é perdida. O ponto 3D correspondente a um ponto específico da imagem é restringido para estar na linha de visão. A partir de uma única imagem, é impossível determinar qual ponto dessa linha corresponde ao ponto da imagem. Se duas imagens estiverem disponíveis, a posição de um ponto 3D pode ser encontrada como a interseção dos dois raios de projeção. Este processo é conhecido como triangulação . A chave para este processo são as relações entre múltiplas vistas que transmitem a informação de que os conjuntos de pontos correspondentes devem conter alguma estrutura e que esta estrutura está relacionada com as poses e a calibração da câmera.

Nas últimas décadas, existe uma importante demanda por conteúdos 3D para computação gráfica , realidade virtual e comunicação, desencadeando uma mudança de ênfase nos requisitos. Muitos sistemas existentes para a construção de modelos 3D são construídos em torno de hardware especializado (por exemplo, rigs estéreo) resultando em um alto custo, que não pode satisfazer os requisitos de suas novas aplicações. Essa lacuna estimula o uso de recursos de imagem digital (como uma câmera). Um método inicial foi proposto por Tomasi e Kanade. Eles usaram uma abordagem de fatoração afim para extrair 3D de sequências de imagens. No entanto, a suposição de projeção ortográfica é uma limitação significativa desse sistema.

Em processamento

Um casco visual pode ser reconstruído a partir de várias silhuetas de um objeto.

A tarefa de converter várias imagens 2D em um modelo 3D consiste em uma série de etapas de processamento:

A calibração da câmera consiste em parâmetros intrínsecos e extrínsecos, sem os quais, em algum nível, nenhum arranjo de algoritmos pode funcionar. A linha pontilhada entre Calibração e determinação de profundidade representa que a calibração da câmera geralmente é necessária para determinar a profundidade.

A determinação da profundidade é a parte mais desafiadora de todo o processo, pois calcula o componente 3D que falta em qualquer imagem - profundidade. O problema de correspondência , encontrar correspondências entre duas imagens para que a posição dos elementos combinados possa ser triangulada no espaço 3D, é a questão chave aqui.

Depois de ter os mapas de profundidade múltipla, você deve combiná-los para criar uma malha final calculando a profundidade e projetando fora da câmera - registro . A calibração da câmera será usada para identificar onde as muitas malhas criadas por mapas de profundidade podem ser combinadas para desenvolver uma maior, fornecendo mais de uma visão para observação.

No estágio de Aplicação de Material, você tem uma malha 3D completa, que pode ser o objetivo final, mas normalmente você desejará aplicar a cor das fotografias originais à malha. Isso pode variar de projetar as imagens na malha aleatoriamente, através de abordagens de combinação de texturas para super resolução e, finalmente, a segmentação da malha por material, como propriedades especulares e difusas.

Descrição matemática da reconstrução

Dado um grupo de pontos 3D visualizados por N câmeras com matrizes , defina como sendo as coordenadas homogêneas da projeção do ponto na câmera. O problema de reconstrução pode ser alterado para: dado o grupo de coordenadas de pixel , encontre o conjunto correspondente de matrizes de câmera e a estrutura da cena de modo que

(1)

Geralmente, sem maiores restrições, obteremos uma reconstrução projetiva. Se e satisfazem (1), e irá satisfazer (1) com qualquer 4 × 4 matriz não singular T .

Uma reconstrução projetiva pode ser calculada por correspondência de pontos apenas sem qualquer informação a priori .

Auto-calibração

Na autocalibração ou autocalibração , o movimento da câmera e os parâmetros são recuperados primeiro, usando a rigidez. Então a estrutura pode ser facilmente calculada. Dois métodos de implementação dessa ideia são apresentados a seguir:

Equações de Kruppa

Com um mínimo de três deslocamentos, podemos obter os parâmetros internos da câmera usando um sistema de equações polinomiais de Kruppa, que são derivadas de uma interpretação geométrica da restrição de rigidez.

A matriz é desconhecida nas equações de Kruppa, denominada matriz de coeficientes de Kruppa. Com K e pelo método de fatoração de Cholesky pode-se obter facilmente os parâmetros intrínsecos:

Recentemente, Hartley propôs uma forma mais simples. Deixe ser escrito como , onde

Em seguida, as equações de Kruppa são reescritas (a derivação pode ser encontrada em)

Mendonça e Cipolla

Este método é baseado no uso de restrição de rigidez. Projete uma função de custo, que considere os parâmetros intrínsecos como argumentos e as matrizes fundamentais como parâmetros. é definida como a matriz fundamental e como matrizes de parâmetros intrínsecos.

Estratificação

Recentemente, novos métodos baseados no conceito de estratificação foram propostos. Partindo de uma estrutura projetiva, que pode ser calculada apenas a partir de correspondências, atualize esta reconstrução projetiva para uma reconstrução euclidiana, fazendo uso de todas as restrições disponíveis. Com esta ideia, o problema pode ser estratificado em diferentes seções: de acordo com a quantidade de restrições disponíveis, ele pode ser analisado em um nível diferente, projetivo, afim ou euclidiano.

A estratificação da geometria 3D

Normalmente, o mundo é percebido como um espaço euclidiano 3D . Em alguns casos, não é possível usar a estrutura euclidiana completa do espaço 3D. A mais simples sendo projetiva, depois a geometria afim que forma as camadas intermediárias e por último a geometria euclidiana. O conceito de estratificação está intimamente relacionado com a série de transformações em entidades geométricas: no estrato projetivo é uma série de transformações projetivas (uma homografia ), no estrato afim é uma série de transformações afins , e no estrato Euclidiano é uma série de Transformações euclidianas.

Suponha que uma cena fixa seja capturada por duas ou mais câmeras em perspectiva e as correspondências entre pontos visíveis em imagens diferentes já tenham sido fornecidas. No entanto, na prática, a correspondência é uma questão essencial e extremamente desafiadora na visão computacional. Aqui, supomos que os pontos 3D são observados por câmeras com matrizes de projeção. Nem as posições dos pontos nem a projeção da câmera são conhecidas. Apenas as projeções do ponto na imagem são conhecidas.

Reconstrução projetiva

A contagem simples indica que temos medidas independentes e apenas incógnitas, portanto, o problema deve ser solúvel com pontos e imagens suficientes. As equações em coordenadas homogêneas podem ser representadas:

(2)

Assim, podemos aplicar uma transformação 4 × 4 não singular H às projeções e aos pontos mundiais . Portanto, sem outras restrições, a reconstrução é apenas uma deformação projetiva desconhecida do mundo 3D.

Reconstrução afim

Consulte o espaço afim para obter informações mais detalhadas sobre como calcular a localização do avião no infinito . A maneira mais simples é explorar o conhecimento prévio, por exemplo, a informação de que as linhas na cena são paralelas ou que um ponto é um terço entre dois outros.

Também podemos usar restrições anteriores no movimento da câmera. Ao analisar diferentes imagens do mesmo ponto pode-se obter uma linha na direção do movimento. A interseção de várias linhas é o ponto no infinito na direção do movimento e uma restrição na estrutura afim.

Reconstrução euclidiana

Mapeando a reconstrução projetiva para uma que satisfaça um grupo de restrições euclidianas redundantes, podemos encontrar uma transformação projetiva H na equação (2). As equações são altamente não lineares e uma boa estimativa inicial para a estrutura é necessária. Isso pode ser obtido assumindo uma projeção linear - projeção paralela, que também permite uma fácil reconstrução por decomposição SVD.

Erro algébrico vs geométrico

Inevitavelmente, os dados medidos (ou seja, imagem ou posições do ponto mundial) são barulhentos e o ruído vem de várias fontes. Para reduzir o efeito do ruído, geralmente usamos mais equações do que o necessário e resolvemos com mínimos quadrados .

Por exemplo, em uma formulação típica de problema de espaço nulo Ax = 0 (como o algoritmo DLT), o quadrado do residual || Ax || está sendo minimizado com o método dos mínimos quadrados.

Em geral, se || Ax || pode ser considerada como uma distância entre as entidades geométricas (pontos, retas, planos, etc.), então o que está sendo minimizado é um erro geométrico , caso contrário (quando o erro carece de uma boa interpretação geométrica) é chamado de erro algébrico .

Portanto, em comparação com o erro algébrico, preferimos minimizar um erro geométrico pelas razões listadas:

  1. A quantidade que está sendo minimizada tem um significado.
  2. A solução é mais estável.
  3. A solução é constante nas transformadas euclidianas.

Todos os algoritmos lineares (DLT e outros) que vimos até agora minimizam um erro algébrico. Na verdade, não há justificativa para minimizar um erro algébrico além da facilidade de implementação, pois resulta em um problema linear. A minimização de um erro geométrico é frequentemente um problema não linear, que admite apenas soluções iterativas e requer um ponto de partida.

Normalmente, a solução linear baseada em resíduos algébricos serve como ponto de partida para uma minimização não linear de uma função de custo geométrica, que fornece à solução um “polimento” final.

Aplicações médicas

As imagens 2-D apresentam problemas de sobreposição anatômica e não revelam as anormalidades. A imagem 3-D pode ser usada para fins diagnósticos e terapêuticos.

Modelos 3-D são usados ​​para planejamento da operação, estudos morfométricos e tem maior confiabilidade em ortopedia.

Projeção de P em ambas as câmeras

Declaração do problema e princípios básicos

Para reconstruir imagens 3-D a partir de imagens 2-D tiradas por uma câmera em vários ângulos. As técnicas de imagens médicas , como tomografia computadorizada e ressonância magnética, são caras e, embora as tomografias computadorizadas sejam precisas, podem induzir altas doses de radiação, o que é um risco para pacientes com certas doenças. Os métodos baseados em ressonância magnética não são precisos. Como somos expostos a campos magnéticos poderosos durante uma varredura de ressonância magnética, este método não é adequado para pacientes com implantes metálicos ferromagnéticos. Ambos os métodos podem ser feitos apenas na posição deitada, onde a estrutura global do osso muda. Portanto, discutimos os seguintes métodos que podem ser executados em pé e requerem baixa dose de radiação.

Embora essas técnicas sejam imagens 3-D, a região de interesse é restrita a uma fatia; os dados são adquiridos para formar uma sequência de tempo.

Técnica baseada em ponto correspondente estéreo

Este método é simples e implementado identificando os pontos manualmente em radiografias multi-view. O primeiro passo é extrair os pontos correspondentes em duas imagens de raios-x. A segunda etapa é reconstruir a imagem em três dimensões usando algoritmos como a Transformada Linear Discreta (DLT). A reconstrução só é possível onde houver Pontos Correspondentes Estéreo (SCPs). A qualidade dos resultados depende da quantidade de SCPs, quanto mais SCPs, melhores são os resultados, mas é lento e impreciso. A habilidade do operador é um fator na qualidade da imagem. As técnicas baseadas em SCP não são adequadas para estruturas ósseas sem bordas identificáveis. Geralmente, as técnicas baseadas em SCP são usadas como parte de um processo que envolve outros métodos.

Método de contorno correspondente não estéreo (NCSS)

Este método usa imagens de raios-X para reconstrução 3D e para desenvolver modelos 3D com radiações de baixa dose em posições de suporte de peso.

No algoritmo NSCC, a etapa preliminar é o cálculo de uma solução inicial. Em primeiro lugar, as regiões anatômicas do objeto genérico são definidas. Em segundo lugar, é realizada a identificação manual dos contornos 2D nas radiografias. A partir de cada radiografia, os contornos 2D são gerados usando o objeto 3D da solução inicial. Os contornos 3D da superfície inicial do objeto são projetados em sua radiografia associada. A associação 2D realizada entre esses 2 pontos de ajuste é baseada em distâncias ponto a ponto e derivações de contornos, desenvolvendo uma correspondência entre os contornos 2D e os contornos 3D. A próxima etapa é a otimização da solução inicial. Por último, a deformação da solução otimizada é feita aplicando o algoritmo de Kriging à solução otimizada. Finalmente, iterando a etapa final até que a distância entre dois pontos de ajuste seja superior a um determinado valor de precisão, o objeto reconstruído é obtido.

A vantagem deste método é que pode ser usado para estruturas ósseas com forma contínua e também reduz a intervenção humana, mas são demoradas.

Técnica de renderização de superfície

A renderização de superfície visualiza um objeto 3D como um conjunto de superfícies chamadas iso-superfícies. Cada superfície possui pontos com a mesma intensidade (chamados de iso-valor). Essa técnica é geralmente aplicada a dados de alto contraste e ajuda a ilustrar estruturas separadas; por exemplo, o crânio pode ser criado a partir de fatias da cabeça ou o sistema de vasos sanguíneos a partir de fatias do corpo. Dois métodos principais são:

  • Reconstrução baseada em contorno: os iso-contornos são unidos uns aos outros para formar as iso-superfícies.
  • Reconstrução baseada em voxels: Voxels com o mesmo valor de intensidade são usados ​​para formar iso-superfícies. Os algoritmos populares são os cubos em marcha, os tetraedros em marcha e os cubos em divisão.

Outros métodos usam modelos estatísticos de forma, paramétricos ou híbridos dos dois

Veja também

Referências

  1. ^ "Soltani, AA, Huang, H., Wu, J., Kulkarni, TD, & Tenenbaum, JB Synthesizing 3D Shapes via Modeling Multi-View Depth Maps and Silhouettes With Deep Generative Networks. and Pattern Recognition (pp. 1511-1519) " . 6 de março de 2020.
  2. ^ a b C. Tomasi e T. Kanade, " Forma e movimento de fluxos de imagem sob ortografia: Uma abordagem de fatoração ", International Journal of Computer Vision, 9 (2): 137-154, 1992.
  3. ^ A. Laurentini (fevereiro de 1994). "O conceito visual do casco para a compreensão da imagem baseada na silhueta" . IEEE Transactions on Pattern Analysis and Machine Intelligence . 16 (2): 150–162. doi : 10.1109 / 34.273735 .
  4. ^ R. Mohr e E. Arbogast. Isso pode ser feito sem calibração da câmera. Pattern Recognition Letters, 12: 39-43, 1991.
  5. ^ O. Faugeras. O que pode ser visto em três dimensões com um equipamento estéreo não calibrado? Em Proceedings of the European Conference on Computer Vision, páginas 563-578, Santa Margherita L., 1992.
  6. ^ E. Kruppa. Zur Ermittlung eines Objektes aus zwei Perspektiven mit innerer Orientierung. Sitz.-Ber.Akad.Wiss., Wien, matemática. naturw. Kl., Abt. IIa., 122: 1939-1948,1913.
  7. ^ SJ Maybank e O. Faugeras. Uma teoria de autocalibração de uma câmera em movimento. International Journal of Computer Vision, 8 (2): 123-151, 1992.
  8. ^ O. Faugeras e S. Maybank. Movimento a partir de correspondências de pontos: multiplicidade de soluções . International Journal of Computer Vision, 4 (3): 225-246, junho de 1990.
  9. ^ a b R. I. Hartley. As equações de Kruppa derivam da matriz fundamental . IEEE Transactions on Pattern Analysis and Machine Intelligence, 19 (2): 133-135, fevereiro de 1997.
  10. ^ Pollefeys, Marc. Auto-calibração e reconstrução 3D métrica a partir de sequências de imagens não calibradas . Diss. Tese de doutorado, ESAT-PSI, KU Leuven, 1999.
  11. ^ R. Hartley e A. Zisserman. Geometria de múltiplas vistas em visão computacional. Cambridge University Press, 2ª edição, 2003.
  12. ^ "Pearcy MJ. 1985. Radiografia estéreo do movimento da coluna lombar. Acta Orthop Scand Suppl" .
  13. ^ "Aubin CE, Dansereau J, Parent F, Labelle H, de Guise JA. 1997. Avaliações morfométricas de reconstruções 3D personalizadas e modelos geométricos da coluna vertebral humana". Med Biol Eng Comput .
  14. ^ a b "S.Hosseinian, H.Arefi, 3D Reconstruction from multiview medical ray images- Review and assessment of existing methods" (PDF) .
  15. ^ Laporte, S; Skalli, W; de Guise, JA; Lavaste, F; Mitton, D (2003). "Um método de reconstrução biplanar baseado em contornos 2D e 3D: aplicação ao fémur distal" . Comput Methods Biomech Biomed Engin . 6 (1): 1–6. doi : 10.1080 / 1025584031000065956 . PMID  12623432 . S2CID  3206752 .
  16. ^ a b G.Scott Owen, HyperVis. ACM SIGGRAPH Education Committee, National Science Foundation (DUE-9752398), e Hypermedia and Visualization Laboratory, Georgia State University .

Leitura adicional

links externos