A prevalência de corpora em inglês em tarefas de Reconhecimento de Entidades Nomeadas (NER) destaca um viés inerente no desenvolvimento de NER, representando desafios para a pesquisa multilíngue. Este estudo aborda essas questões explorando métodos zero-shot em um contexto de Processamento de Linguagem Natural (PLN) multilíngue. Especificamente, investiga diferentes estratégias de Engenharia de Prompts e as compara com abordagens tradicionais de NER, avaliando a viabilidade do uso de Modelos de Linguagem de Código Aberto (LLMs) para anotação automática. Para apoiar essa pesquisa, foi criado um corpus gold-standard de NER em código-misto, e um pipeline de PLN foi desenvolvido para extrair informações de documentos não estruturados utilizando modelos de NER de última geração.
processamento de linguagem natural, reconhecimento de entidades nomeadas, textos multilíngues, modelos de linguagem, grandes modelos de linguagem, transformers, construção de corpus
The prevalence of English corpora in Named Entity Recognition (NER) tasks highlights an inherent bias in NER development, posing challenges for multilingual research. This study addresses these challenges by exploring zero-shot methods within a multilingual Natural Language Processing (NLP) context. Specifically, it investigates distinct Prompt Engineering strategies and compares them to traditional NER approaches, evaluating the feasibility of using open-source Large Language Models (LLMs) for automatic annotation. To support this research, a gold-standard code-mixed NER corpus was created, and an NLP pipeline was developed to extract information from unstructured documents using state-of-the-art NER models.