Banca de DEFESA: Lucas Coelho de Almeida

Uma banca de DEFESA de MESTRADO foi cadastrada pelo programa.
DISCENTE : Lucas Coelho de Almeida
DATA : 16/12/2022
HORA: 16:00
LOCAL: https://teams.microsoft.com/l/meetup-join/19%3a0a9998084fcc459f92b72fb6608767f7%40thread.tacv2/16708
TÍTULO:

PROPOSTA DE UM MOTOR DE BUSCA METASEMÂNTICA COMO FERRAMENTA DE INVESTIGAÇÃO DE DADOS OBTIDOS ATRAVÉS DA INTERNET


PALAVRAS-CHAVES:

Não informado.


PÁGINAS: 122
RESUMO:

A digitalização das relações e da informação têm aumentado a capacidade do ser humano de produzir dados de forma exponencial. Contudo, na mesma taxa em que novos dados são criados, é cada vez mais necessário também compreender e garimpar grandes bases de dados, inclusive sem qualquer estrutura ou formatação e com propósitos diversos. Nesse contexto, o uso de técnicas de indexação de dados usando motores de busca (do inglês Search Engines) e de interpretação de conjuntos de dados com o objetivo de classificá-los e categorizá-los se mostra indispensável para cenários de Big Data e Data Lake, em que a informação pode vir de diversas fontes com características técnicas e semânticas diferentes, exigindo classificações multi-classe e técnicas de processamento de linguagem natural, comumente designadas por técnicas de NLP (do inglês Natural Language Processing). Adicionalmente, é preciso entender se as ferramentas de classificação têm viés e se os resultados são úteis e condizentes com o esperado, especialmente em contextos de investigação de crimes digitais. Esse é o problema da transparência da tomada de decisão, ou seja, da clara e/ou legível representação dos parâmetros que levaram a máquina a uma determinada decisão/classificação. Um sistema de investigação ideal, portanto, deveria ser capaz de indexar grandes bases de dados, entender a semântica e ser passível de adaptação/aprendizagem para atuar em diferentes cenários, e ao final do processo, ainda fornecer resultados enriquecidos com os parâmetros que levaram a máquina a tomar determinadas decisões para posterior auditoria da transparência no processo. Portanto, esta dissertação tem como objetivo propor uma arquitetura fim a fim de um motor de busca que indexe e use interpretações metasemânticas baseadas em técnicas de processamento de linguagem natural em dados oriundos de páginas Web, de forma a prover, também, exemplos de parâmetros similares às classificações derivadas das amostras. O prefixo ”meta” no termo ”metasemântica” se refere a um conjunto de técnicas de classificação, predição e enriquecimento de dados aplicados para emular o processo de indexação semântica, porém preservando a auditabilidade do processo. Para efeito de validação da proposta, foram criadas amostras de páginas Web e utilizou-se bases de dados oficiais para treinamentos de instâncias de aprendizado de máquina para simulação de contextos reais de aplicação do projeto. Como resultado, a validação mostra como o motor de busca proposto permite o armazenamento e processamento de dados sem formatação originários de páginas Web e aumenta a velocidade e objetividade com que investigações passam a ser realizadas e auditadas em contextos de processamento de linguagem natural, especialmente relevantes para contextos de crimes digitais.


MEMBROS DA BANCA:
Externo à Instituição - ANDERSON CLAYTON ALVES NASCIMENTO - UW
Interno - 906.575.601-97 - DANIEL ALVES DA SILVA - UnB
Presidente - 1311780 - FABIO LUCIO LOPES DE MENDONCA
Interno - 2556078 - GEORGES DANIEL AMVAME NZE
Notícia cadastrada em: 12/12/2022 13:47
SIGAA | Secretaria de Tecnologia da Informação - STI - (61) 3107-0102 | Copyright © 2006-2024 - UFRN - app20_Prod.sigaa14