Em direção à compreensão completa de cenas 3D internas a partir de um único ponto de vista
Visão Computacional, Compreensão de Cenas 3D, Complementação Semântica de Scenas, Redes Neurais Convolucionais
Realizar inferências sobre cenas em 3D é uma tarefa natural para humanos. A nossa percepção visual é a habilidade de interpretar e inferir informações sobre o ambiente que nos cerca usando a luz refletida que entra em nossos olhos através da córnea e atinge a retina. Por meio do nosso sistema de visão binocular, nós podemos naturalmente realizar tarefas como identificar o tipo de ambiente no qual nos encontramos, estimar a distância dos objetos na cena e ainda identificar quais objetos são estes. Entretanto, em Visão Computacional, este é ainda um problema muito desafiador e com muito espaço para melhorias, para o qual existem inúmeras aplicações, incluindo robótica, segurança, computação assistiva, realidade aumentada e reprodução de áudio espacial imersivo.
Nesta tese, nós elegemos como foco a tarefa de Complementação Semântica de Cenas (em inglês Semantic Scene Completion), por ser uma das mais completas tarefas relacionadas à compreensão de cenas, já que visa inferir a geometria completa do campo de visão da cena e os rótulos semânticos de cada um dos voxels do espaço 3D sob análise, incluindo regiões oclusas. A entrada para esta tarefa é uma imagem RGB-D, que consiste de uma imagem RGB regular adicionada de uma quarto canal contendo um mapa de profundidade da cena. Tal imagem geralmente é obtida por meio de sensores de luz estruturada como o Microsoft Kinect, mas pode também ser obtida por câmeras estereoscópicas associadas a um algoritmo de estimação de profundidade.
Nosso objetivo norteador é melhorar os métodos atuais de Complementação Semântica de Cenas, tanto em qualidade quanto no nível de cobertura da cena. Para tanto, nesta tese, nós formulamos e avaliamos uma série de hipóteses utilizando redes convolucionais profundas.
Considerando que o estado da arte atual para este problema utiliza redes neurais totalmente convolucionais (em inglês Fully Convolutional Network - FCN), que normalmente requerem quantidades elevadas de dados para treinamento, e considerando também a dificuldade de obtenção de dados totalmente rotulados em 3D, antes de entrar no problema de Complementação Semântica em 3D propriamente dito, nós exploramos alternativas para contornar este dificuldade em um problema mais simples: segmentação semântica em 2D. Em 2D, nós exploramos o uso de Transferência de Aprendizado (\emph{Transfer Learning}) e Adaptação de Domínio (\emph{Domain Adaptation}) na tarefa de segmentação de pele. Tais conceitos foram adaptados para 3D e amplamente explorados posteriormente na tarefa de complementação semântica de cenas.
No domínio 3D, nós introduzimos e avaliamos uma maneira completamente nova de explorar a informação RGB presente na imagem RGB-D. Utilizando as bordas da imagem RGB, foi possível detectar objetos que não eram detectáveis nas soluções anteriores baseadas exclusivamente no mapa de profundidade, a exemplo de quadros planos ou TVs de tela plana colocados em paredes. Esta solução recebeu o nome de EdgeNet e atingiu resultados promissores na época de seu lançamento. Posteriormente, nós avançamos no uso dos dados RGB por meio das probabilidades a priori extraídas a partir de uma de rede segmentação semântica 2D. Os dados \emph{a priori} foram usados como guia semântico para a parte 3D da solução em uma rede FCN multi-modal com data augmentation}.
Nós completamos nossas contribuições relativas à melhoria da qualidade das inferências, combinado a técnica de Adaptação de Domínio explorada nos estágios iniciais da nossa pesquisa com a nossa rede 3D multi-modal atingindo resultados impressionantes.
Em relação à cobertura da cena, que hoje é restrita ao campo de visão limitado de sensores RGB-D convencionais, como o Microsoft Kinect, nós propusemos uma abordagem para estendê-la para 360$^{\circ}$ usando imagens RGB panorâmicas e mapas de profundidade obtidos a partir de sofisticados sensores de 360 graus ou a partir de câmeras panorâmicas de baixo custo, montadas em um configuração estereoscópica. Os resultados promissores obtidos com a abordagem proposta foram usados com sucesso em um sistema de reprodução de áudio espacial imersivo.
Nossos estudos preliminares em 2D foram publicados na 34th SIBGRAPI Conference on Graphics, Patterns and Images (SIBGRAPI 2021). Nossas contribuições no domínio 3D foram publicadas em 3 conferências de visão computacional de alto nível: International Conference on Pattern Recognition (ICPR 2020); IEEE/CVF Winter Conference on Applications of Computer Vision (WACV 2022) e Conference on Computer Vision Theory and Applications (VISAPP 2020).
O sistema de reprodução de áudio espacial imersivo usando a nossa solução 3D em 360 graus foi publicado na revista Virtual Reality Journal (VIRE).