Adaptive Embedded Coding of 3D Point Clouds Using Hierarchical Transforms and Context Modeling
nuvem de pontos, codificação incorporada, região de interesse, perceptron multicamadas
Nuvens de pontos tridimensionais (3D) tornaram-se uma representação fundamental em aplicações de realidade virtual, aumentada e mista, proporcionando experiências visuais altamente detalhadas e interativas. O grande volume de dados necessário para descrever cenas 3D levanta desafios significativos em termos de transmissão, armazenamento e renderização em tempo real. Esses desafios motivam o desenvolvimento de estratégias de compressão mais eficientes, que preservem a maior fidelidade possível ao mesmo tempo em que reduzem a taxa de bits. Este trabalho aborda tais desafios ao propor um esquema progressivo de codificação embedded para os atributos de nuvens de pontos 3D. O cerne da abordagem envolve o uso de transformadas hierárquicas — particularmente a Transformada Hierárquica Adaptativa à Região (RAHT) — combinadas ao Set Partitioning in Hierarchical Trees (SPIHT), resultando em um bit-stream progressivo único. Ao codificar os coeficientes de transformação em diferentes planos de bits, o método proposto possibilita que a transmissão seja interrompida a qualquer momento, permitindo um equilíbrio flexível entre eficiência de compressão e qualidade de reconstrução. Para aprimorar ainda mais o processo de codificação, investigamos diversas otimizações. Incorporando modelagem de contexto por meio de árvores de partição hierárquica e redes neurais, como Multi-Layer Perceptrons (MLPs), que preveem probabilidades condicionais dos coeficientes para melhorar a etapa de codificação aritmética. Também exploramos a codificação de regiões de interesse (ROI) para atribuir maior fidelidade a áreas mais relevantes da nuvem de pontos. Além disso, propomos uma melhoria preliminar de modelagem descale hyperprior, inspirada em avanços recentes na compressão de imagens, evidenciando seu potencial na compressão sem perdas (e eventualmente com perdas) de atributos de nuvens de pontos. Os resultados experimentais demonstram que o arcabouço proposto obtém desempenho competitivo em termos de taxa-distorção, ao mesmo tempo em que oferece funcionalidade totalmente embedded. Ademais, a natureza modular da abordagem — combinando RAHT, SPIHT, modelagem de contexto baseada em redes neurais e estratégias de ROI — torna-a facilmente adaptável a diferentes formatos de nuvens de pontos e casos de uso. Em conjunto, essas contribuições reforçam a viabilidade da codificação embedded adaptativa como uma solução robusta e flexível para os desafios impostos por grandes volumes de dados 3D.