Portal de Programas de Pós-Graduação (UnB)

SIGAA - Sistema Integrado de Gestão de Atividades Acadêmicas

PPGEST PROGRAMA DE PÓS-GRADUAÇÃO EM ESTATÍSTICA INSTITUTO DE CIÊNCIAS EXATAS Telefone/Ramal: Não informado E-mail: Não informado https://www.unb.br/pos-graduacao

Dissertações/Teses

Clique aqui para acessar os arquivos diretamente da Biblioteca Digital de Teses e Dissertações da UnB

2024

	Dissertações
1	Helena Santos Brandão A Study of Non-Parametric Entropy Estimators for Analyzing Financial Data Orientador : RAUL YUKIHIRO MATSUSHITA MEMBROS DA BANCA : RAUL YUKIHIRO MATSUSHITA ANTONIO EDUARDO GOMES EDUARDO YOSHIO NAKANO ERALDO SERGIO BARBOSA DA SILVA Data: 27/03/2024 Mostrar Resumo Esta dissertação é composta por uma coletânea de quatro artigos que abordam a estimação da entropia diferencial com aplicações em dados financeiros. A obtenção de um estimador robusto e dotado de propriedades satisfatórias para tal medida mostra-se de suma importância para sua aplicação. Nesse contexto, os objetivos do presente estudo incluem realizar uma revisão abrangente dos estimadores de entropia diferencial não paramétricos e propor aprimoramentos na escolha e otimização de seu uso, visando encontrar um estimador mais adequado para dados financeiros, os quais frequentemente apresentam distribuições com caudas pesadas e mudanças de regimes. Mostrar Abstract In financial risk, the conventional approach has typically linked risk to the variance of a variable, such as the return of a stock or portfolio. By recognizing the constraints of this conventional method and the need for various risk metrics, alternative measures have been developed to address downside risk or extreme outcomes specifically. One such complementary metric is the uncertainty measure, which enables us to capture and describe different aspects of risk, going beyond traditional notions of variability alone. Obtaining a robust estimator with desirable properties for entropy is crucial for its practical application. In particular, our study aims to conduct a comprehensive review of non-parametric differential entropy estimators and then propose adjustments regarding the choice and optimization of their use to find an estimator with convenient properties for application in financial data, which are often characterized by distributions with heavy tails. We also conducted real-data applications to illustrate the use of the proposed measures.
2	Yasmin Lírio Souza de Oliveira "Distribuição Gumbel bivariada multimodal" Orientador : CIRA ETHEOWALDA GUEVARA OTINIANO MEMBROS DA BANCA : CIRA ETHEOWALDA GUEVARA OTINIANO GUILHERME SOUZA RODRIGUES RAUL YUKIHIRO MATSUSHITA VERONICA ANDREA GONZALEZ LOPEZ Data: 29/05/2024 Mostrar Resumo A DEFINIR. Mostrar Abstract A DEFINIR.

2023

	Dissertações
1	PEDRO CARVALHO BROM Relação entre variância e amplitude de retornos financeiros Orientador : RAUL YUKIHIRO MATSUSHITA MEMBROS DA BANCA : RAUL YUKIHIRO MATSUSHITA ALAN RICARDO DA SILVA ROBERTO VILA GABRIEL REGINA CÉLIA BUENO DA FONSECA Data: 31/01/2023 Mostrar Resumo Este trabalho, que está organizado em forma de coletânea de três artigos, discorre sobre a questão do truncamento da distribuição de dados passados, reconciliando essa limitação com a ocorrência de eventos futuros ilimitados. Mostramos que isso é possível mediante aplicação de uma lei de potência entre o comprimento do truncamento (ℓ) e o desvio padrão dos dados (σ) na forma ℓ = ζσβ, na qual ζ e β são coeficientes positivos. Essa abordagem é aplicável para uma ampla classe de distribuições simétricas — incluindo os vôos truncados de Lévy —, não sendo necessário especificar a forma exata da função de distribuição de probabilidade dos dados. Além disso, os momentos da distribuição podem variar no tempo. Em particular, a metodologia proposta foi aplicada em dados de retornos financeiros intradiários de taxas de câmbio de diferentes moedas, totalizando mais de 32 milhões de observações. Nesse caso, nosso trabalho propõe um novo tipo de padronização não-gaussiana, na forma z = r/σβ, no qual r é um retorno financeiro (tipicamente sujeito a clusters de volatilidade) e z é o retorno padronizado sem clusters de volatilidade. Mostrar Abstract This work, organized as a collection of three articles, proposes a solution to the truncation problem, reconciling past-bounded information and future-unbounded events. We show that this is possible by applying a power law relating the length of the truncation (ℓ) and the standard deviation of the data (σ) given by ℓ = ζσβ, where ζ and β are positive coefficients. This approach is applicable for a wide class of symmetric distributions—including truncated Lévy flights — as it does not require the exact form of the probability distribution function. In addition, distributional moments may vary over time. In particular, we applied the proposed methodology to intraday financial returns of exchange rates for different currencies, totaling more than 32 million observations. In this case, we propose a non-Gaussian standardization in the form z = r/σβ, where r is a financial return (typically subject to volatility clusters) and z is the standardized return without volatility clusters.
2	Rodrigo Marques dos Santos Um método bayesiano para verificação de ajuste do modelo logístico de três parâmetros em teoria da resposta ao item. Orientador : ANTONIO EDUARDO GOMES MEMBROS DA BANCA : ANTONIO EDUARDO GOMES ANDRE LUIZ FERNANDES CANCADO RAUL YUKIHIRO MATSUSHITA DALTON FRANCISCO DE ANDRADE Data: 27/02/2023 Mostrar Resumo A Teoria de Resposta ao Item tem sido cada vez mais utilizada em estudos que tem como objetivo estimar o traço latente e, dentre os modelos existentes, tem-se que os logísticos são uns dos mais utilizados.Porém, cada vez mais estudos mostram que o pressuposto de que as Curvas Características dos Itens (CCI’s) seguem a forma Logística não são válidos, tornando a checagem desse pressuposto cada vez mais importante.Por esse motivo, estimar a CCI de formas alternativas e não paramétricas pode ser uma poderosa ferramenta para comparar com a CCI gerada pelo modelo logístico e, assim, permitir inferência sobre a veracidade desse pressuposto. Esse estudo propõe um teste não paramétrico que se utiliza de inferência Bayesiana, mais especificamente o método de Posterior Predictive Model Checking (PPMC) para testar essa hipótese. Para comparar com a CCI calculada pelo Modelo Logístico, foram utilizadas as regressões Isotônica e de Nadaraya-Watson para criar 6 estatísticas do teste. Foram feitas duas análises, uma utilizando uma simulação e outra aplicando esse teste a dados reais de uma aplicação do SARESP. Os resultados da simulação foram satisfatórios, com o teste indicando diferenças significativas em pouquíssimos itens que de fato seguiam o Modelo Logístico de 3 parâmetros, e conseguindo reconhecer bem os itens que tinham CCI’s não monotônicos.Apesar disso, o teste reconheceu apenas um item que era uma mistura de distribuições.Para os dados reais, os estimadores de Regressão Isotônica indicaram valores diferentes dos que foram indicados pela Regressão de Nadaraya-Watson, em sua maioria. Mostrar Abstract he Item Response Theory has been increasingly used in studies that aim to estimate the latent trait and, among the existing models, the logistic ones are the most used. However, more and more studies show that the assumption that Item Characteristic Curves (ICC’s) follow the Logistic form are not valid, making it increasingly important to check this assumption. herefore, estimating the ICC in alternative, nonparametric ways can be a powerful tool to compare with the ICC generated by the logistic model and thus allow inference about the veracity of this assumption.This study proposes a nonparametric test that uses Bayesian inference, more specifically the Posterior Predictive Model Checking (PPMC) method to test this hypothesis. To compare with the ICC calculated by the Logistic Model, Isotonic and Nadaraya-Watson regressions were used to create 6 test statistics. Two analyses were done, one using a simulated data set and the other applying this test to real data from a SARESP application. The simulation results were satisfactory, with the test indicating significant differences in very few items that actually followed the 3-parameter Logistic Model, and managing to recognize well those items that had a non-monotonic ICC. Despite this, the test recognized only one item that were mixtures of distributions.For the real data, the Isotonic Regression estimators indicated different values than those indicated by the Nadaraya-Watson Regression, for the most part of items.
3	Arthur Canotilho Machado Computação Bayesiana Aproximada via fatoração da distribuição a posteriori Orientador : GUILHERME SOUZA RODRIGUES MEMBROS DA BANCA : GUILHERME SOUZA RODRIGUES RAUL YUKIHIRO MATSUSHITA THAIS CARVALHO VALADARES RODRIGUES KELLY CRISTINA MOTA GONÇALVES Data: 01/03/2023 Mostrar Resumo É comum em problemas modernos de Inferência Bayesiana se deparar comdados complexos e/ou de alta dimensão, como os que surgem no campo da genética de populações (Beaumont, Zhang e Balding, 2002), para os quais a função de verossimilhança e as distribuições marginas são difíceis de serem computadas ou até mesmo intratáveis, gerando, assim, problemas na obtenção da distribuição a posteriori. Existem diversos métodos de aproximação da distribuição a posteriori para esses tipos de casos, entre eles o Amostrador de Gibbs aproximado, proposto por Rodrigues, Nott e Sisson (2019),o qual permite a geração de amostras de uma distribuição a posteriori aproximada usando princípios da Computação Bayesiana Aproximada (ABC) e do Amostrador de Gibbs. Santos (2021) propôs um aprimoramento da técnica a partir da descorrelação prévia dos parâmetros de interesse e do uso de modelos de regressão quantílica via redes neurais no processo de aproximação das distribuições condicionais completas. Neste trabalho sugerimos a substituição do Amostrador de Gibbs aproximado por um algoritmo que aproxima distribuições definidas por uma fatorações conveniente da distribuição a posteriori. São apresentadas uma revisão da teoria e aplicações práticas comparando os métodos de Rodrigues, Nott e Sisson (2019), de Santos (2021) e o proposto neste trabalho. Foram gerados conjuntos de dados sintéticos para comparação dos métodos. O algoritmo proposto neste trabalho mostrou boa performance comparado aos seus pares, apresentando um avanço na técnica. Mostrar Abstract It is common in modern Bayesian inference problems to come across complex and/or high-dimensional models, such as those that arise in the field of population genetics (Beaumont Zhang, & Balding, 2002), where the likelihood function and marginal distributions are difficult or even intractable to compute, leading to problemsin obtaining the posterior distribution. There are several methods for approximating the posterior distribution for these type of cases, including the Approximate Gibbs Sampler proposed by Rodrigues, Nott, and Sisson (2019), which allows the generation ofsamples from an approximate posterior distribution using principles of Approximate Bayesian Computation (ABC) and Gibbs Sampling. Santos (2021) proposed an improvement to the technique by previously decorrelating the parameters of interest and using quantile regression models via neural networks in the process of approximating the complete conditional distributions In this work, we suggest replacing the Approximate Gibbs Sampler with an algorithm that approximates the terms of a convenient factorization ofthe posterior distribution. We present a review of the theory and practical applications comparing the methods of Rodrigues, Nott, and Sisson (2019), of Santos (2021), and the proposed in this work. Synthetic datasets were generated to compare the methods.The algorithm proposed in this work showed good performance compared to its peers.
4	Ricardo Torres Bispo Reis Quantile-based Recalibration of Artificial Neural Networks Orientador : GUILHERME SOUZA RODRIGUES MEMBROS DA BANCA : GUILHERME SOUZA RODRIGUES JOSE AUGUSTO FIORUCCI THAIS CARVALHO VALADARES RODRIGUES RAFAEL IZBICKI Data: 01/03/2023 Mostrar Resumo Redes neurais artificiais (RNA) são ferramentas poderosas para predição e modelagem de dados. Embora venham se tornando ainda mais poderosas, melhorias recentes comprometeram sua calibração em favor da melhoria da acurácia de predição, fazendo assim com que sua incerteza real seja difícil de ser quantificada. Para resolvereste problema, propomos um novo método de recalibração para RNA de pós-processamento baseado em quantis. Para ilustrar as mecânicas do método, apresentamos dois exemplos. Em ambos, a recalibração reduziu o Erro Quadrático Médio em relação aos modelos originais descalibrados e ofereceu uma representação mais fidedigna do modelo generativo. Para investigar mais a fundo os efeitos do procedimento de recalibração proposto, também apresentamos um estudo de simulação comparando várias configurações de parâmetros-a recalibração melhorou com sucesso a performance em relação aos modelos-base em todos os cenários considerados. Por fim, aplicamos o método proposto a um problema de predição de preços de diamantes, onde a recalibração também foi capaz de melhorar a performance geral dos modelos. Mostrar Abstract Artificial neural networks (ANN) are powerful tools for prediction and data modeling. Although they are becoming ever more powerful, modern improvements have compromised their calibration in favor of enhanced prediction accuracy, thus making their true confidence harder to assess. To address this problem, we propose a new post-processing quantile-based method of recalibration for ANN. To illustrate the method's mechanics we present two toy examples. In both, recalibration reduced the Mean Squared Error over the original uncalibrated models and provided a better representation of the data generative model. To further investigate the effects of the proposed recalibration procedure, we also present a simulation study comparing various parameter configurations--the recalibration successfully improved performance over the base models in all scenarios under consideration. At last, we apply the proposed method to a problem of diamond price prediction, where it was also able toimprove the overall model performance.
5	Lucas José Gonçalves Freitas Clusterização de textos aplicada ao tratamento de dados jurídicos desbalanceados. Orientador : THAIS CARVALHO VALADARES RODRIGUES MEMBROS DA BANCA : THAIS CARVALHO VALADARES RODRIGUES ANDRE LUIZ FERNANDES CANCADO NÁDIA FELIX FELIPE DA SILVA RAFAEL BASSI STERN Data: 02/03/2023 Mostrar Resumo O Supremo Tribunal Federal (STF), instância máxima do sistema judiciário brasileiro, produz, assim como tribunais de outras instâncias, imensa quantidade de dados organizados em forma de texto, por meio de decisões, petições, liminares, recursos e outros documentos legais. Tais documentos são classificados e agrupados por servidores públicos especializados em autuação e catalogação de processos judiciais, que em casos específicos usam ferramentas tecnológicas de apoio. Alguns processos que chegam ao STF, por exemplo, são classificados em um ou mais objetivos de desenvolvimento sustentável (ODS) da Agenda 2030 da Organização das Nações Unidas (ONU). Como se trata de uma tarefa repetitiva e relacionada à detecção de padrões, é possível desenvolver ferramentas baseadas em aprendizagem de máquina para tal finalidade.Neste trabalho, são propostos modelos de Processamento de Linguagem Natural (NLP) para agrupamento de processos, com objetivo de aumentar a base de dados em determinados objetivos de desenvolvimento sustentável (ODS) com poucas entradas naturalmente. A atividade de clusterização ou agrupamento, que tem enorme importância por si só, também é capaz de reunir entradas sem etiqueta em torno de processos já classificados por funcionários do tribunal, permitindo, assim, que novas etiquetas sejam alocadas em processos similares. Os resultados obtidos mostram que os conjuntos aumentados por clusterização podem ser utilizados em fluxos de aprendizagem supervisionada para auxílio na classificação processual, especialmente em contextos com dados desbalanceados. Mostrar Abstract The Federal Supreme Court (STF), the highest instance of the Brazilian judicial system, produces, as well as courts of other instances, an immense amount of data organized in text form, through decisions, petitions, injunctions, appeals and other legal documents. Such documents are classified and grouped by public employees specialized in cataloging of judicial processes, which in specific cases use technological support tools. Some processes in the STF, for example, are classified under one or more sustainable development goals (SDGs) of the United Nations (UN) 2030 Agenda. As it is a repetitive task related to pattern recognition, it is possible to develop tools based on machine learning for this purpose. In this work, Natural Language Processing (NLP) models are proposed for clustering processes, in order to increase the database on certain sustainable development goals (SDGs) with few inputs naturally. The activity of clustering, which is of enormous importance in its own right, is also able to gather unlabeled entries around cases already classified by court officials, thus allowing new labels to be allocated to similar cases. The results of the work show that cluster-augmented sets can be used in supervised learning flows to aid in the classification of legal texts, especially in contexts with unbalanced data.
6	Gustavo Martins Venancio Pires Um modelo híbrido para séries temporais hierárquicas com múltipla sazonalidade Orientador : JOSE AUGUSTO FIORUCCI MEMBROS DA BANCA : DIEGO CARVALHO DO NASCIMENTO EDUARDO YOSHIO NAKANO JOSE AUGUSTO FIORUCCI PAULO HENRIQUE FERREIRA DA SILVA Data: 14/03/2023 Mostrar Resumo Esta dissertação propõe um modelo híbrido capaz de realizar previsões de séries temporais hierárquicas com múltiplas sazonalidades. Essa metodologia híbrida consiste em utilizar um modelo deMachine Learningque possua variáveis contendo metodologias estatísticas deséries temporais para gerar previsões coesas. Essa metodologia foi aplicada no banco de dados da competiçãoM5-Forecasting(2020) disponibilizada peloKaggle, em que o objetivo era prever com maior acurácia a venda diária de 3.409 produtos distribuídos em 5 níveis de hierarquia por 28 dias. Durante o trabalho foram comparadas 5 abordagens diferentes e o modelo deLight Gradient Boosting Machine(LGBM) contendo uma variável baseada na metodologia estatística TBATS (Trigonometricseasonality, Box-Cox transformation ARMA errors, Tred and Seasonal components) chegouaobter um ganho de acurácia de 27% em comparação com os modelos de LGBM sem a variável em questão. Esse modelo teria obtido a 318ª colocação na competição, ficando entreos top 6% competidores. Mostrar Abstract This Master’s Thesis proposes a hybrid model capable of forecasting hierarchical time series with multiple seasonality. This hybrid methodology consists of using aMachine Learningmodel that has variables containing time series statistical methodologies to generate cohesive forecasts. This methodology was applied to theM5-Forecasting(2020) competition available through Kaggle, in which the objective was to more accurately predict the daily sale of 3,409 products distributed in 5 levels of hierarchy by 28 days. During the dissertation, 5 different approaches were compared andtheLight Gradient Boosting Machine(LGBM) model containing a variable based on the TBATS (Trigonometric seasonity, Box-Cox transformation ARMA errors, Tred and Seasonal components) obtained an accuracy gain of 27% compared to the LGBM models without the variable mentioned. This model would have obtained the 318th place in the competition, being among the top 6% competitors.
7	Roberto de Souza Marques Buffone Análise da Taxa de Acidentes Trânsito com Vítimas Usando a Regressão Beta Geograficamente Ponderada Orientador : ALAN RICARDO DA SILVA MEMBROS DA BANCA : ALAN RICARDO DA SILVA ANDRE LUIZ FERNANDES CANCADO TEREZINHA KESSIA DE ASSIS RIBEIRO FLÁVIO JOSÉ CRAVEIRO CUNTO Data: 14/06/2023 Mostrar Resumo A regressão linear clássica permite, de forma simples, que uma variável quantitativa contínua seja modelada a partir de outras variáveis. Porém, esse tipo de metodologia possui alguns pressupostos, como a independência entre as observações, que se ignorados trazem problemas metodológicos. Adicionalmente, nem todos os dados se adéquam à distribuição normal, necessitando assim de outros tipos de regressão para a modelagem. Com isso, a Regressão Beta Geograficamente Ponderada (RBGP) é apresentada com intuito de atribuir o fator da dependência espacial ao estudo, juntamente com a análise de taxas e proporções a partir da distribuição beta, que tem seu suporte no intervalo unitário e tem uma fácil adequabilidade, por seu ajuste flexível, aos dados estudados. Neste trabalho a RBGP foi aplicada à taxa de acidentes de trânsito com vítimas em Fortaleza-CE, entre os anos de 2009 a 2011, comparando seus resultados aos modelos globais e locais de regressão clássica e de regressão clássica com a transformação da variável resposta pela função logito e à regressão beta global. Além disso, foi desenvolvido o pacote ‘gwbr’ em R com os algoritmos necessários para a aplicação da RBGP. Ao final, conclui-se que a abordagem local com o uso da distribuição beta é um modelo viável para explicar a taxa de acidentes de trânsito com vítimas, visto a adequabilidade do modelo tanto à distribuições assimétricas, quanto à distribuições simétricas. Por conta disso, se tratando da análise de taxas, é sempre recomendado o uso da distribuição beta. Mostrar Abstract Classical linear regression allows, in a simple way, that a continuous quantitative variable is modeled from other variables. However, this type of methodology has certain assumptions, such as independence between observations, which if ignored can lead to methodological issues. Additionally, not all data follows a normal distribution, which leads to alternative methods for modeling. In this context, Geographically Weighted Beta Regression (GWBR) is presented with the aim of incorporating spatial dependence into the modeling, along with the analysis of rates and proportions using the beta distribution. The beta distribution, with its scope within the unit interval and its flexible nature, easily adapts to the analyzed data. In this study, GWBR was applied to the rate of traffic accidents with victims in Fortaleza-CE, Brazil, from 2009 to 2011, comparing its results to global and local models of classical regression, classical regression with logit transformation of the response variable, and global beta regression. Additionally, the ‘gwbr’ package was developed in R software, providing the necessary algorithms for GWBR application. In conclusion, it was found that the local approach using the beta distribution is a viable model for explaining the rate of traffic accidents with victims, given its suitability to both asymmetric and symmetric distributions. Therefore, when analyzing rates, the use of the beta distribution is always recommended.
8	Matheus Stivali Dois ensaios sobre a modelagem da curva de juros Orientador : JOSE AUGUSTO FIORUCCI MEMBROS DA BANCA : JOSE AUGUSTO FIORUCCI EDUARDO YOSHIO NAKANO RAUL YUKIHIRO MATSUSHITA GERALDO NUNES SILVA Data: 12/12/2023 Mostrar Resumo [Introdução] Entender o comportamento das taxas de juro é essencial para a gestão macroeconômica e para as decisões dos investidores privados. A taxa de juros de curto prazo é definida pela autoridade monetária de acordo com seus objetivos de política pública e essa taxa é obtida por meio de operações de mercado aberto. O comportamento das taxas de juros pagas para dívidas de prazo mais longo é influenciado pela taxa de curto prazo, mas esse é mais complexo e depende das expectativas em relação ao comportamento futuro das taxas de curto prazo e da inflação. A estrutura a termo das taxas de juros é a correspondência entre a maturidade de uma dívida (tempo até o vencimento) e o nível das taxas de juros associado a mesma, e sua representação gráfica é denominada curva de rendimentos. Esta pode assumir diferentes formas, a situação considerada normal é aquela em que as taxas de juros aumentam monotonamente com a maturidade. Curvas invertidas, em "forma de S" e humped ocorrem quando o mercado espera mudanças na taxa de curto prazo nos próximos meses ou anos. A dissertação avalia duas linhas de análise estatística da curva de juros para o Brasil: a primeira preocupada com a interpolação dos dados observados a cada dia para a estimação da curva completa, e a segunda preocupada com a extrapolação de informações passadas da curva de juros. Muitas das aplicações da curva de rendimentos dependem da relação entre maturidade e juros ser observável para todas as maturidades, o que não ocorre. Em cada dia útil são observadas apenas alguns pontos da curva que correspondem aos títulos ou contratos futuros negociados naquele dia. Daí a relevância dos exercícios implementados no segundo capítulo em que várias técnicas de interpolação são utilizadas para obtenção da curva completa. Adicionalmente, a previsão da curva de rendimentos é uma ferramenta essencial para a estruturação da dívida pública, para a condução da política monetária, e para agentes privados que também emitem títulos de dívida ou compram os mesmos. Prever a curva de juros envolveria a modelagem das séries de juros de cada maturidade. Uma forma alternativa, mais parcimoniosa, foi proposta para Diebold e Li (2006). Tal abordagem é objeto do terceiro capítulo, comparando o desempenho desse modelo com técnicas de previsão de referência. [Materiais e Métodos] Para as análises foram utilizados dados de contratos futuros de taxas de juros (DI1) negociados no Brasil entre janeiro de 2018 e abril de 2023, totalizando 1313 dias úteis. Em cada dia são negociados em torno de 38 contratos de diferentes maturidades. O segundo capítulo desenvolve uma análise comparativa de técnicas de interpolação das taxas de juros que são estimadas em cada dia incluído na amostra. Os modelos abordados neste capítulo são chamados empíricos, pois não impõem restrições derivadas de modelos teóricos (econômicos) de estrutura de termo durante o processo de estimação. São considerados os modelos: regressão polinomial, modelos de spline, regressão de Kernel, regressão local (Loess), modelo Nelson-Siegel estimado por mínimos quadrados e mínimos quadrados não-lineares e extensões desse modelo (família Nelson-Siegel). Esses modelos são avaliados em relação a: qualidade do ajuste, robustez (em relação a outliers), e suavidade. Para a avaliação da qualidade do ajuste a cada dia é construído um conjunto de treinamento (insample) e um conjunto de validação (out-of-sample). A performance no conjunto de validação é o mais relevante para a avaliação dos modelos já que esse seria o problema típico subjacente a estimação de curva de rendimentos. Para a avaliação da robustez, a curva de rendimentos de cada dia da amostra é estimada duas vezes, uma com os dados originais e outra em que o nível da taxa de juros de uma maturidade selecionada aleatoriamente foi modificada por uma perturbação de mais ou menos, também definido aleatoriamente, 2%. Tanto para a avaliação da qualidade do ajuste quanto para a robustez são utilizadas as métricas de Erro Quadrático Médio e Erro Médio Absoluto. Para a avaliação da suavidade são consideradas três métricas utilizadas na literatura baseadas na segunda derivada das funções estimadas. O terceiro capítulo se vale de estimativas dos parâmetros do modelo Nelson-Siegel feitas no segundo capítulo utilizando mínimos quadrados ordinários e mínimos quadrados não-lineares para implementar o modelo Diebold-Li. O filtro de Kalman é utilizado para avaliar a validade da interpretação dos parâmetros como variáveis latentes. As séries de estimativas são modeladas como três processos autorregressivos separados e como um vetor autorregressivo para fins de previsão. Os parâmetros preditos são então utilizados para estimar o nível de juros em maturidades específicas para avaliação da performance das previsões. Como modelos concorrentes são consideradas as previsões de random-walk e o modelo de suavização exponencial de Holt-Winters. Para avaliação da performance se utilizou a estratégia de “walk-forward validation”, considerando um conjunto de treinamento inicial de 987 dias (75% da amostra). Destaca-se que o conjunto de validação (de 3 de janeiro de 2022 até 20 de abril de 2023) abarca um período de mudanças contínuas na forma da curva de rendimentos. Para a comparação dos diferentes modelos se utilizou o teste de Diebold-Mariano, com a modificação proposta por Harvey e outros. [Resultados e Considerações Finais] O segundo capítulo fez uma avaliação abrangente dos modelos de interpolação para estimar a curva de juros. Além dos modelos normalmente considerados pela literatura, foram considerados os modelos de regressão de Kernel e de regressão local (Loess) até então não aplicados a esse tipo de problema. Foram consideradas três dimensões para a comparação desses modelos, tanto na dimensão de qualidade do ajuste quanto na de robustez o modelo Loess apresentou o melhor desempenho fora da amostra sendo que em algumas situações ele não tinha um desempenho estatisticamente diferente do modelo de smoothing splines. Na dimensão relacionada a suavidade os modelos baseados em função (regressão polinomial e família Nelson-Siegel) tiveram o melhor desempenho. Para a comparação dos modelos foi utilizado o teste de comparações múltiplas, até então também não aplicado a esse tipo de problema. O terceiro capítulo fez uma implementação do modelo Diebold-Li (alternativamente chamado de Nelson-Siegel dinâmico) para a economia brasileira recente. O modelo dinâmico de NelsonSiegel teve um desempenho ruim em comparação com os resultados originais do Diebold and Li (2006) e alguns exercícios anteriores usando dados brasileiros de outros períodos. Em muitos casos, foi superado pela previsão de random-walk. Mostrar Abstract The dissertation undertakes two distinct lines of statistical analysis on the yield curve for Brazil: the first involves the interpolation of daily observed data to estimate the complete curve. In contrast, the second focuses on extrapolating past information to forecast the yield curve. These analyses aim to model the behaviour of interest rates in Brazil, offering insights for improved macroeconomic management and supporting investment decisions. The analysis utilizes data from interest rate futures contracts traded in Brazil between January 2018 and April 2023. The second chapter is dedicated to estimating empirical models of the Term Structure of Interest Rates. Despite B3 periodically releasing yield curve estimates for monitoring the Brazilian market, various estimation techniques are considered for alternative purposes due to inherent trade-offs. The interest rate and maturity relationship holds for all terms, but daily observations are limited to specific maturities corresponding to traded securities or derivatives. Therefore, estimating the entire curve from these observed data points is crucial. This chapter evaluates empirical models, which do not impose restrictions derived from theoretical term structure models during the estimation process. These models are focused on obtaining a smooth function from observed data while adhering to specific constraints, such as the non-negativity of interest rates. The evaluation criteria include the quality of fit, robustness to outliers, and smoothness of the estimated function. This chapter contributes to literature by assessing models not previously applied to yield curve estimation and utilizing the multiple comparison procedure. Results highlight the strong fit of spline models, emphasize the greater smoothness of Nelson-Siegel family models, and recognize the noteworthy performance of the previously overlooked Loess model. The third chapter delves into modelling the yield curve dynamics through a factor model perspective to generate curve predictions. The analysis incorporates Brazilian data by implementing the Nelson-Siegel Dynamic model proposed by Diebold and Li (2006) and further developed in Diebold et al. (2006). Both original estimation procedures, two-step and one-step, are considered, focusing on the latter using the Kalman filter. Out-of-sample predictive capacity is assessed through the Diebold-Mariano test, comparing the performance of these implementations against simpler models.
9	Gabriel Ângelo da Silva Gomes Ensaios sobre análise estatística de dados de impressões digitais Orientador : RAUL YUKIHIRO MATSUSHITA MEMBROS DA BANCA : RAUL YUKIHIRO MATSUSHITA GLADSTON LUIZ DA SILVA ROBERTO VILA GABRIEL REGINA CÉLIA BUENO DA FONSECA Data: 13/12/2023 Mostrar Resumo O presente resumo expandido é uma síntese dos cinco artigos que compõem esta dissertação, os quais são decorrência de alguma necessidade de ordem prática em que a estatística pôde colaborar. O primeiro ensaio é referente à predição de atributos humanos a partir de Redes Neurais Convolucionais aplicadas às impressões digitais. O segundo trabalho trata de uma revisão bibliométrica que abrangeu o período de 2018 a 2023 em que foram propostos métodos automatizados de contagem de minúcias em impressões digitais. O terceiro artigo é resultado de um estudo estatístico referente à distibuição de fequências das minutiae e suas relações com os detalhes de níveis 1 e 3, e também seu comportamento diante do tipo de sexo e dedo. O quarto paper resulta de uma inicativa inédita de disponibilizar uma amostra de impressões digitais representativa da população brasileira e, com isso, espera-se fomentar pesquisas acadêmicas e científicas com propósito ético, não comercial e sem fins lucrativos. Por fim, o quinto estudo trata da aplicação da divergência de Rényi, como uma opção ao teste qui-quadrado, ao realizar testes de hipótese envolvendo contagens menores que cinco de minúcias em impressões digitais. Mostrar Abstract This dissertation is organized as a collection of five articles regarding applying statistical tools in fingerprint studies. The first applies convolutional neural networks to fingerprint data for predicting human attributes such as sex, hand types (left or right), and position of fingers (right index finger, for example). The second presents a bibliometric review from 2018 to 2023 of automated minutiae counting initiatives, we noted that most involve convolutional neural networks. The third deals with a statistical analysis of the distribution of Level 2 details concerning levels 1 and 3, in addition to considering sex and type of finger. The fourth suggests an initiative to disseminate 1,000 fingerprints sampled from Brazilians (50 males and 50 females) for ethical, non-profit academic and scientific research. This initiative aims to promote fingerprint identification studies. Finally, the fifth essay suggests Rényi’s divergence as an alternative to the traditional chi-square test to evaluate goodness-of-fit, homogeneity, and independence in contingency tables involving rare events. We illustrate this method using fingerprint minutiae data sampled from the Brazilian Federal Police records.
10	Aitcheou Gauthier Zountchegnon Previsão de séries temporais aplicada a dados de venda de uma grande varejista do Brasil Orientador : JOSE AUGUSTO FIORUCCI MEMBROS DA BANCA : JOSE AUGUSTO FIORUCCI EDUARDO YOSHIO NAKANO GUILHERME SOUZA RODRIGUES MARINHO GOMES DE ANDRADE FILHO Data: 19/12/2023 Mostrar Resumo O comércio varejista desempenha um papel crucial na economia brasileira, sendo o planejamento do volume de vendas e outros fatores associados a esse setor de extrema importância para seu crescimento. Para a previsão e planejamento eficazes das vendas, métodos relacionados a séries temporais surgem como ferramentas fundamentais. Este estudo concentra-se no desenvolvimento e avaliação de modelos preditivos, os quais devem levar em consideração características típicas desses dados, como a estrutura hierárquica, a presença de múltiplas sazonalidades nas séries de níveis mais elevados e o comportamento intermitente nas séries de níveis mais baixos. Mostrar Abstract Retail trade plays a crucial role in the Brazilian economy, and planning for sales volume and other factors related to the retail sector is of great importance for its growth. To effectively forecast and plan sales quantities, methodologies related to time séries can be employed. This study focuses on the development and evaluation of predictive models, which should consider typical characteristics of such data, such as hierarchical structure, the presence of multiple seasonalities in higher-level séries, and intermittent behavior in lower-level séries.

2022

	Dissertações
1	Matheus Gorito de Paula Aprendizagem cruzada para previsão de séries temporais univariadas. Orientador : JOSE AUGUSTO FIORUCCI MEMBROS DA BANCA : JOSE AUGUSTO FIORUCCI EDUARDO YOSHIO NAKANO GUILHERME SOUZA RODRIGUES FLÁVIO LUIZ DE MORAES BARBOZA Data: 19/09/2022 Mostrar Resumo Aprendizado de máquina se refere ao processo pelo qual os computadores desenvolvem o reconhecimento de padrões, ou a capacidade de aprender continuamente, ou fazer previsões com base em dados, e então, fazer ajustes sem serem especificamente programados para isso. Dentro dos métodos de aprendizado de máquina, esse trabalho foca na técnica deStacking. Competições de Previsões de Séries Temporais são competições que têm como objetivo avaliar e comparar a acurácia de modelos de previsão de Séries Temporais. Nesse projeto utiliza-se o banco de Séries Temporais da competição M3 para realizar previsões utilizando os modelos de referência de Séries Temporais. Após, treina-se um modelo de Boostingcom os resultados das previsões buscando obter resultados mais eficientes nas competições. Mostrar Abstract Machine learning refers to the process by which computers develop pattern recognition, or the ability to continually learn, or make predictions based on data, and then make adjustments without being specifically programmed to do so. Within machine learning methods, this work focuses on the Stacking technique. Time Series Forecast Competitions are competitions that aim to evaluate and compare the accuracy of Time Series forecast models. In this project we use the Time Series database from the M3 competition to make predictions using the Time Series reference models. Afterwards, we train a Boosting model with the results of the predictions seeking to obtain more efficient results in competitions.
2	Marcos Douglas Rodrigues de Sousa Regressão Binomial Negativa Inflacionada de Zeros Geograficamente Ponderada. Orientador : ALAN RICARDO DA SILVA MEMBROS DA BANCA : ALAN RICARDO DA SILVA ANDRE LUIZ FERNANDES CANCADO FRANCISCO JOSÉ DE AZEVEDO CYSNEIROS THAIS CARVALHO VALADARES RODRIGUES Data: 21/09/2022 Mostrar Resumo O objetivo deste trabalho é trazer uma abordagem sobre a modelagem de dados de contagem, considerando a existência de zeros na distribuição. Pressupondo a utilização de dados espacias, em que o fenômeno em análise não apresente estacionariedade, a regressão geograficamente ponderada surge para solucionar este problema. Sendo assim, este trabalho traz uma extensão da regressão binomial negativa geograficamente ponderada (RBNGP) para incluir a distribuição binomial negativa inflacionada de zeros, sendo intitulada regressão binomial negativa inflacionada de zeros geograficamente ponderada (RBNIZGP). Para verificar a performance de ajuste do modelo RBNIZGP, foram utilizados alguns dados simulados de distribuições Poisson, binomial negativa, Poisson inflacionado de zeros e binomial negativa inflacionada de zeros, sem variação espacial. E por último, para verificação da qualidade do ajuste no caso de variação espacial, foram utilizados dados reais sobre casos de COVID-19 na Coréia do Sul, sendo dados que foram analisados por (Weinstein et al., 2021). Os resultados das simulações mostraram que o modelo RBNIZGP foi capaz de modelar os dados com distribuição Poisson, binomial negativa, Poisson inflacionada de zeros e binomial negativa inflacionada de zeros, sem variação espacial, por meio de um grande parâmetro de suavização. Já no estudo de caso real, os resultados mostraram que localmente, os modelos ajustados poderiam ser Poisson ou binomial negativo, refinando dessa forma a análise, e mostrando a flexibilidade do modelo RBNIZGP. Mostrar Abstract The goal of this work is to bring an approach to the modeling of count data, considering the existence of zeros in the distribution. Assuming the use of spatial data, in which the phenomenon under analysis does not present stationarity, the geographically weighted regression appears to solve this problem. Therefore, this work brings an extension of the geographically weighted negative binomial regression (GWNBR) to include a zero-inflated negative binomial distribution, entitled geographically weighted zero-inflated negative binomial regression (GWZINBR). To verify the performance of the fit of the RBNIZGP model, some simulated data from distributions, zero-inflated poisson and zero-inflated negative binomial, without spatial space, were used. Finally, adjustment was used in the case of selection of the real quality of data on COVID-19 cases in South Korea, with data from South Korea being analyzed by (Weinstein et al., 2021). The results of the simulations showed that the RBNIZGP model was able to model the data with Poisson, negative binomial, zero inflated Poisson and zero inflated negative binomial distributions, without spatial variation, by means of a large bandwidth. In the real case study, the results showed that locally, the adjusted models could be Poisson or negative binomial, thus refining the analysis, and showing the flexibility of the GWZINBR model.
3	Monique Lohane Xavier Silva Um modelo de risco de crédito bayesiano para classificação de clientes inadimplentes Orientador : EDUARDO YOSHIO NAKANO MEMBROS DA BANCA : EDUARDO YOSHIO NAKANO HELTON SAULO BEZERRA DOS SANTOS JOSE AUGUSTO FIORUCCI MARCELO ANGELO CIRILLO Data: 03/11/2022 Mostrar Resumo O objetivo desse trabalho foi propor uma modelagem bayesiana de risco de crédito para a classificação de clientes quanto ao seu risco de inadimplência. O diferencial da metodologia proposta é a possibilidade de incorporar uma informaçãoa priorino processo de classificação dos clientes e não apenas na obtenção das estimativas dos parâmetros domodelo que gera o Escore de Risco. A principal vantagem desse procedimento se deve à simplicidade em incorporar a opinião do especialista no processo de classificação, algo que não ocorre na modelagem bayesiana tradicional, cuja informaçãoa priorirecai sobre os parâmetros dos modelos que, geralmente, são quantidades abstratas e/ou associadas à covariáveis sujeitas a problemas de multicolinearidade. Para a devida ilustração da metodologia proposta, utilizou-se um conjunto de dadosna literaturae os resultados obtidos mostraram que o modelo é útil para a classificação de clientes quanto a sua probabilidade de inadimplência. Mostrar Abstract The aim of this work was to propose a bayesian credit risk model for classifying customers in terms of their default risk. The differential of the proposed methodology is the possibility of incorporatinga priori information in the customer classification process and not just in the estimation of the customers' evaluation parameters. The main advantage of this procedure is due to the simplicity in incorporating the expert's opinion in the classification process, something that does not occur in traditional bayesian modeling, whose a priori information falls on the parameters of the models, which are usually abstract quantities and/or associated with covariates with multicollinearity problems. To illustrate the proposed methodology, a dataset in the literature was usedand the results obtained showed that the model is useful for classifying customers in terms of their probability of default
4	Beatriz Leal Simões e Silva Um novo modelo Weibull bimodal inversível Orientador : CIRA ETHEOWALDA GUEVARA OTINIANO MEMBROS DA BANCA : CIRA ETHEOWALDA GUEVARA OTINIANO ANTONIO EDUARDO GOMES HELTON SAULO BEZERRA DOS SANTOS MARCELO BOURGUIGNON PEREIRA Data: 03/11/2022 Mostrar Resumo A distribuição Weibull é um dos modelos mais utilizados em estatística em áreas relacionadas, pois possui uma expressão simples para a função de densidade de probabilidade, função de sobrevivência e momentos. No entanto, a distribuição Weibull não é capaz de ajustar dados bimodais. Neste trabalho, propomos uma nova generalização da distribuição Weibull de três parâmetros, um novo modelo Weibull bimodal invertível (NIBW), que pode ser bimodal e sua função de distribuição cumulativa e função quantílica tem uma forma simples e fechada, o que o torna muito interessante em procedimentos de simulação e para o cálculo de medidas de risco nas áreas aplicadas. Diversas propriedades do modelo foram estudadas e a versão não negativa do modelo (NNIBW) foi utilizada na realização das estimativas de máxima verossimilhança dos parâmetros e testada por simulação de Monte Carlo. Além disso, usando quatro conjuntos de dados de temperatura, é realizado o ajuste do nosso modelo e comparado com outra distribuição bimodal. Também é calculado o tempo de retorno e por fim, um modelo de regressão com covariáveis é ajustado para um conjunto de dados escolhido. Mostrar Abstract The Weibull distribution is one of the most used models in statistics and applied areas, as it has a simple expression for the probability density function, survival function, and moments. However, the Weibull distribution is not able to fit bimodal data. In this work, we propose a new generalization of the three-parameter Weibull distribution, a new invertible bimodal Weibull model (NIBW), which can be bimodal and its cumulative distribution function and quantile function have a simple and closed form, which makes it very interesting in simulation procedures and for the calculation of risk measures in the applied areas. Several properties of the model were studied and the non-negative version of the model (NNIBW) was used in the performance of the maximumlikelihood estimates of the parameters and tested using Monte Carlo simulation. Furthermore, using four sets of temperature data, we fitted and compared our model with another bimodal distribution, calculate the return time and fit as well a regression model for one chosen dataset.
5	Ana Lívia Protázio Sá Modelos Log-Simétricos Bivariados: Propriedades Teóricas e Estimação Paramétrica Orientador : ROBERTO VILA GABRIEL MEMBROS DA BANCA : ROBERTO VILA GABRIEL CIRA ETHEOWALDA GUEVARA OTINIANO JOSE AUGUSTO FIORUCCI JEREMIAS DA SILVA LEÃO Data: 17/11/2022 Mostrar Resumo A distribuição gaussiana bivariada tem sido a base da probabilidade e da estatística por muitos anos. No entanto, esta distribuição enfrenta alguns problemas, principalmente devido ao fato de que muitos fenômenos do mundo real geram dados que seguem distribuições assimétricas. Modelos log-simétricos bidimensionais possuem propriedades atrativas e podem ser considerados boas alternativas para resolver este problema, pois possuem propriedades estatísticas que podem torná-las preferíeis a distribuição guassiana. Nesta dissertação, propomos novas caracterizações de distribuições log-simétricas bivariadas e suas aplicações. Esta dissertação visa desenvolver importantes contribuições para a estatística probabilística, teórica e aplicada devido à flexibilidade e propriedades interessantes dos modelos descritos. Teoricamente, uma distribuição é log-simétrica quando a variável aleatória correspondente e sua recíproca têm a mesma distribuição (ver Jones 2008). Uma caracterização de distribuições desse tipo pode ser construída tomando a função logaritmo de uma variável aleatória simétrica. Portanto, distribuições log-simétricas são usadas para descrever o comportamento de dados estritamente positivos.A classe desse tipo de distribuição é bastante ampla e inclui grande parte das distribuições bimodais e aquelas com caudas mais leves ou mais pesadas que a distribuição log-normal; ver, por exemplo, Vanegas e Paula (2016). Alguns exemplos de distribuiçõeslog-simétricas são: log-normal, log-Student-$t$, log-logistic, log-Laplace, log-Cauchy, log-power-exponencial, log-slash, harmonic law, Birnbaum-Saunders, e Birnbaum-Saunders-$t$; ver, por exemplo, Crow e Shimizu (1988), Birnbaum e Saunders (1969), Riecke Nedelman (1991), Johnson et al. (1994), 1995, Díaz-García e Leiva (2005), Marshall e Olkin (2007), Jones (2008) e Vanegas e Paula (2016). Estudamos as principais propriedades estatísticas dos modelos, no capítulo 1 apresentemos o modelo log-simétrico bivariado (BLS) proposto, ademais neste capítulo as principais propriedades matemáticas, como representação estocástica,função quantil, distribuição condicional, distância Mahalanobis, independência, momentos, função de correlação, entre outras propriedades do modelo BLS são discutidas. No capítulo 2, propomos o método de máxima verossimilhança para a estimação dos parâmetros das distribuições propostas. No capítulo 3, realizamos a simulação de Monte Carlo para avaliar a performance dos estimadores de máxima verossimilhança, utilizando o viés e o Erro Quadrático Médio, considerando vários cenários para diferentes distribuições, o que mostrou bons resultados com valores próximos a zero. No Capítulo 4, realizamos a aplicação a um conjunto de dados reais refentesafatigue, os dados são baseados no artigo de Marchant et al. (2015), no qual ele propôs um modelo de regressão multivariado Birnbaum-Saunders, realizamos a estimação dos parâmetros utilizando o método de Máxima verossimilhança e usamos as seguintes váriaveisVon Mises stress(𝑇1)e die limetime(𝑇2), para a estimação dos parâmetros extras utilizamos estimação perfilada, além disso computamos os valores de critério de informação de Akaike (AIC) e Bayesiano (BIC), para utilizarmos como critério de seleção de modelo. Os resultados são vistos como favoráveis ao modelo log-Laplace. Mostrar Abstract The bivariate Gaussian distribution has been the basis of probability and statistics for many years. Nonetheless, this distribution faces some problems, mainly due to the fact that many real-world phenomena generate data that follow asymmetric distributions. Bidimensional log-symmetric models have attractive properties and can be considered as good alternatives to solve this problem. In this dissertation, we propose new characterizations of bivariate log-symmetric distributions and their applications. This dissertation aims to develop important contributions to probability, theoretical and applied statistics due to the flexibility and interesting properties of the outlined models. We implemented maximum likelihood estimation for the parameters of the distributions. A Monte Carlo simulation study was performed to evaluate the performance of the parameter estimation. Finally, we applied the proposed methodology to a real data set
6	Gustavo Maia Rodrigues Gomes Estrutura Multi-Armed Bandit para Alocação em Portfólio Orientador : RAUL YUKIHIRO MATSUSHITA MEMBROS DA BANCA : RAUL YUKIHIRO MATSUSHITA JOSE AUGUSTO FIORUCCI ERALDO SERGIO BARBOSA DA SILVA REGINA CÉLIA BUENO DA FONSECA Data: 22/11/2022 Mostrar Resumo Há mais de um século, a comunidade acadêmica estuda o mercado financeiro na tentativa de entender seu comportamento para maximizar os lucros. Este trabalho procura maneiras de maximizar os resultados no mercado financeiro criando um procedimento de duas fases que chamamos de MAB-MMAR. Primeiro, estabelece-se modelos generativos individuais para cada ativo, para simular, via Monte Carlo, retornos futuros, usando Multifractal Model of Asset Returns que é capaz de multiescalar os momentos da distribuição de retorno sob escalas temporais, sendo uma alternativa às representações do tipo ARCH que tem sido o foco de pesquisas empíricas sobre a distribuição de preços nos últimos anos. Em segundo lugar, constrói-se uma estrutura de Multi-Armed Bandit (MAB) aplicando o algorítimo Upper Confidence Bound (UCB)- Tuned sobre os caminhos simulados, a fim de realizar escolhas entre ativos que otimizem a alocação de recursos. Além disso, como camada de proteção para as operações, propomos o Método da Dupla Barreira, onde a operação é encerrada se uma barreira inferior for tocada. Como comparação de desempenho, foram testados os modelos One-Asset, 1/n, Modern Portfolio Theory (MPT) e Axiomatic Second-order Stochastic Dominance Portfolio Theory (ASSDPT). Nossos resultados são promissores, onde se revela que, em geral, o MAB-MMAR foi o que melhor desempenhou nos mais variados cenários. Mostrar Abstract For over a century, the academic community has studied the financial market in an attempt to understand its behavior to maximize profits. This work looks for ways to maximize results in the financial market by creating a two-phase procedure that we call MAB-MMAR. First, individual generative models are established for each asset, to simulate, via Monte Carlo, future returns, using the Multifractal Model of Asset Returns, which is able to multiscale the moments of the return distribution under time scales, being an alternative to representations of the ARCH type, which are the representations that have been the focus of empirical research on the distribution of prices in recent years. Second, a Multi-Armed Bandit (MAB) structure is built by applying the Upper Confidence Bound (UCB)-Tuned algorithm on the simulated paths, in order to make choices between assets that optimize the allocation of resources. Furthermore, as a layer of protection for operations, we propose the Double Barrier Method, where the operation is terminated if a lower barrier is touched. As a performance comparison, the One-Asset, 1/n, Modern Portfolio Theory (MPT) and Axiomatic Second-order Stochastic Dominance Portfolio Theory (ASSDPT) models were tested. Our results are promising, revealing that, in general, the MAB-MMAR performed best in the most varied scenarios.
7	Ana Carolina Souto Valente Motta Associação entre Saúde Cardiovascular e Determinantes Socioeconômicos: Uma Aplicação de modelos de regressão logística multinomial e ordinal Orientador : JOANLISE MARCO DE LEON ANDRADE MEMBROS DA BANCA : JOANLISE MARCO DE LEON ANDRADE ANDRE LUIZ FERNANDES CANCADO EDUARDO YOSHIO NAKANO JULIA MARIA PAVAN SOLER Data: 28/11/2022 Mostrar Resumo Objetivo: Estimar a prevalência de Saúde Cardiovascular (SCV) Ideal na população adulta brasileira e avaliar a associação entre SCV e determinantes sociais com base na Pesquisa Nacional de Saúde 2019. Métodos: Inquérito de saúde de âmbito nacional (n=77.494). O escore de SCV proposto pela Associação Americana do Coração incluiu 4 metas comportamentais (tabagismo, índice de massa corpórea, exercício e dieta) e 3 metas biológicas (colesterol, pressão arterial e glicose). Prevalências (e intervalos de 95% de confiança) de SCV ideal e suas metas individuais foram estimadas utilizando expansão da amostra. Associações entre SCV e determinantes socioeconômicos (Escolaridade, Índice de riqueza e status de ocupação) foram avaliadas por modelos de regressão logística, ordinal e multinomial, ajustando-se por variáveis sociodemográficas. Resultados: Apenas 0,5% (IC95% 0,4;0,6) da população apresentou SCV Ideal (7 metas favoráveis) e 8,9% (IC95% 8,5;9,3), SCV superior (6-7 metas favoráveis), com pior desempenho em metas comportamentais. Escolaridade, riqueza e ocupação, além das covariáveis faixa etária, estado civil, presença de doenças crônicas, região e situação de domicílio apresentaram associação significante com SCV. Modelos de regressão logística binária, multinomial e ordinal identificaram praticamente as mesmas variáveis independentes significantes, sendo o multinomial mais interessante clinicamente e o ordinal de difícil interpretabilidade e avaliação no contexto de amostragem complexa. Conclusão: A baixíssima prevalência de SCV Ideal e associações entre SCV e características sociodemográficas observadas na população adulta brasileira evidenciam a necessidade de políticas públicas para promoção, vigilância e atenção à SCV com intervenções mais direcionadas e eficazes visando um aumento na prevalência de SCV. Mostrar Abstract Objective: To estimate the prevalence of Ideal Cardiovascular Health (CVH) in the Brazilian adult population and to evaluate the association between CVH and social determinants based on the 2019 National Health Survey. Methods: Nationwide health survey (n=77,494). The CVH score proposed by the American Heart Association includes 4 behavioral metrics (smoking, body mass index, exercise, and diet) and 3 biological metrics (cholesterol, blood pressure, and glucose). Prevalence (and 95% confidence intervals) of ideal CVH and their individual metrics were estimated using sample expansion. Associations between CVH and socioeconomic determinants (Education, Wealth and Occupation Index) were evaluated by logistic, ordinal and multinomial regression models,adjusting for sociodemographicvariables. Results:Only0.5%(95%CI 0.4;0.6) of the population presented Ideal CVH (7 favorable metrics) and 8.9% (95%CI 8.5;9.3) presented superior CVH (6-7 favorable metrics), with worse performance in behavioral metrics. Education, wealth index and occupation status, in addition to the covariates age group, marital status, presence of chronic diseases, region, and urban-rural classification were significantly associated with CVH. Binary, multinomial and ordinallogistic regression models identified practically the same significant independent variables, with the multinomial being more interesting clinically and the ordinal being difficult to interpret and evaluate in the context of complex sampling. Conclusion: The very low prevalence of Ideal CVH and associations between CVH and sociodemographic characteristics observed in the Brazilian adult population highlight the need for public policies to promote, monitor and care for CVH with more targeted and effective interventions to increase the prevalence of CVH.
8	Lídia Almeida de Carvalho Uma proposta para controle da taxa de exposição de itens em testes adaptativos computadorizados Orientador : ANTONIO EDUARDO GOMES MEMBROS DA BANCA : ANTONIO EDUARDO GOMES GUILHERME SOUZA RODRIGUES RAUL YUKIHIRO MATSUSHITA CAIO LUCIDIUS NABEREZNY AZEVEDO Data: 29/11/2022 Mostrar Resumo O desenvolvimento dos testes adaptativos computadorizados só foi possível devido aos avanços tecnológicos das últimas décadas, permitindo que esta metodologia obtenha estimativas para a habilidade dos examinadoscom base em um número reduzido de itens selecionados especificamente para cada respondente a partir do seu traço latente estimado. Suas dificuldades surgem quando um pequeno grupo de itens é exposto com frequência, colocando em risco a segurança do teste.Assim, esta pesquisa tem como objetivo propor um método para a etapade seleção de itens, com base no uso de informação ponderada por uma potência de ordem alfa da proporção corrente de respondentes não expostos a cada item, a fim de reduzir a taxa de exposição dos itens, de modo que não tenham taxas de exposição muito altas ou itens que nunca tenham sido expostos mesmo com grau de dificuldade próximo da habilidade real theta do respondente. Os resultados demonstram as vantagens da metodologia proposta comrelação às já utilizadas, apresentando melhor desempenho na proporção de itens superexpostos com todos os valores de alfa para informação ponderada aleatória e aumentando a proporção de itens expostos para maiores valores de alfa no método de máxima informação ponderada, para o banco de itens simulado. O método de máxima informação ponderada com alfa aleatório apresentou melhor desempenho dentre todos os métodos aqui abordados ao ser aplicado no banco de itens real. Outras vantagens relacionadas a escolha dos valores de alfa também são citadas Mostrar Abstract The development of computerized adaptive tests was only possible due to the technological advances of the last decades, allowing this methodology to obtain estimates for the ability of the examinees based on a reduced number of items selected specifically for each respondent from their estimated latent trait. Its difficulties arise when a small group of items is exposed frequently, jeopardizing the security of the test. Thus, this research aims to propose a method for the item selection step, based on the use of information weighted by a power of order alpha of the current proportion of respondents not exposed to each item, in order to reduce the exposure rate of the items, so that they do not have very high exposure rates or items that have never been exposed even with a degree of difficulty close to the respondent’s real skill theta. The results demonstrate the advantages of the proposed methodology in relation to those already used, presenting better performance in the proportion of overexposed items with all values of alfa for random weighted information and increasing the proportion of exposed items for higher values of alpha in the weighted maximum information method, for the simulated item bank. The weighted maximum information method with random alpha presented the best performance among all the methods discussed here when applied to the real item bank. Other advantages related to the choice of alpha values are also mentioned.

Aprendizagem cruzada para previsão de séries temporais univariadas.

Um modelo de risco de crédito bayesiano para classificação de clientes inadimplentes

Estrutura Multi-Armed Bandit para Alocação em Portfólio

Associação entre Saúde Cardiovascular e Determinantes Socioeconômicos: Uma Aplicação de modelos de regressão logística multinomial e ordinal

Uma proposta para controle da taxa de exposição de itens em testes adaptativos computadorizados