Enhancing Retrieval-Augmented Generation Capabilities through the Design of a Quote-Extraction Agent
retrieval-augmented generation; quote extraction; knowledge distillation; small language models; low-rank adaptation; semantic evaluation; contextual noise
Contextualização e Motivação
Modelos de linguagem de grande porte (LLMs) alcançaram desempenho de referência em uma ampla gama de tarefas de processamento de linguagem natural, incluindo resposta a perguntas, sumarização e geração de diálogos. No entanto, essas capacidades acarretam custos computacionais elevados, latência de inferência significativa e consumo substancial de memória, fatores que limitam a implantação prática desses modelos em ambientes com restrições de recursos ou requisitos de tempo real. A Geração Aumentada por Recuperação (RAG) oferece uma direção promissora para mitigar parte dessas limitações, ao permitir que modelos acessem conhecimento externo em tempo de inferência em vez de codificar todo o conhecimento do mundo em seus próprios parâmetros.
Contudo, os pipelines RAG convencionais introduzem um problema próprio. O estágio de recuperação tipicamente retorna passagens completas com base em sinais de relevância superficiais, inundando a entrada do modelo com conteúdo redundante ou distrator. O modelo generativo precisa, então, simultaneamente filtrar esse ruído e raciocinar sobre a informação relevante, uma carga dupla que aumenta o risco de alucinações e reduz o embasamento factual. Esse problema é particularmente agudo para Modelos de Linguagem Compactos (SLMs), que possuem capacidade limitada para processar contextos longos e ruidosos.
As abordagens existentes apresentam limitações significativas. Frameworks como o RAFT treinam um único modelo para simultaneamente raciocinar sobre documentos recuperados e gerar respostas, exigindo ajuste fino de modelos grandes em dados específicos de domínio. Técnicas de engenharia de prompt podem melhorar o raciocínio sem modificar parâmetros, mas não resolvem o problema do ruído: o modelo ainda recebe o contexto completo e não filtrado. Além disso, a maioria dos trabalhos de otimização de RAG concentra-se em modelos grandes, embora SLMs em cenários sensíveis a latência ou com restrições de custo sejam precisamente os que mais se beneficiariam de entradas mais limpas.
Esta dissertação parte da hipótese de que uma arquitetura modular e desacoplada, na qual um extrator leve seleciona evidências relevantes e um gerador separado raciocina sobre elas, pode superar abordagens monolíticas, especialmente para modelos compactos. Ao delegar a tarefa de filtragem a um componente especializado treinado por meio de destilação de conhecimento caixa-preta, o gerador é liberado para se concentrar exclusivamente no raciocínio sobre evidências concisas e de alta qualidade. Essa separação de responsabilidades também proporciona benefícios práticos: o extrator pode ser treinado uma única vez e reutilizado com diferentes geradores, sem necessidade de qualquer modificação no componente generativo, tornando o sistema adaptável e escalável para diversos cenários de implantação.
Metodologia Detalhada
A metodologia proposta se desenvolve em cinco estágios integrados. O primeiro estágio consiste na formalização da tarefa de extração de citações como um problema de aprendizado supervisionado via destilação professor-aluno. Dado um contexto textual C e uma pergunta Q, o objetivo é treinar um modelo capaz de identificar um subconjunto mínimo de sentenças R ⊂ C que estejam semanticamente alinhadas com a resposta esperada A. Um aspecto crítico dessa formalização é a assimetria entre as entradas do professor e do aluno. Durante a construção do conjunto de dados, o modelo professor tem acesso ao triplo (Q, A, C), ou seja, conhece tanto a pergunta quanto a resposta esperada ao selecionar as citações de apoio. O modelo aluno, por sua vez, é treinado para produzir as mesmas seleções de citações recebendo apenas (Q, C), sem acesso à resposta A. Essa assimetria é deliberada: em tempo de inferência, a resposta é desconhecida, de modo que o aluno deve aprender a identificar evidências que sustentam a resposta a partir apenas da pergunta e do contexto. O processo de destilação, portanto, transfere a capacidade do professor de reconhecer passagens relevantes para um modelo que opera sob condições realistas de implantação, nas quais a resposta ainda não foi gerada.
O segundo estágio abrange a geração automatizada do conjunto de dados por meio de uma configuração híbrida de modelos professores composta por Gemini 2.5 Pro e GPT-5.1, orquestrados via LangChain. Para cada amostra, os modelos professores foram instruídos a extrair apenas o conjunto mínimo de citações do contexto que sustentasse diretamente a resposta de referência, utilizando um formato fixo de delimitação (##begin_quote## ... ##end_quote##). Essa convenção facilita a extração automática de citações e estabelece um padrão de formatação que o modelo aluno deve internalizar para uso em pipelines de produção. A escolha de delimitadores textuais em vez de JSON estruturado foi motivada por evidências recentes de que restrições de formato rígido degradam a qualidade do raciocínio e introduzem sobrecarga operacional com taxas de falha não triviais. Para garantir a qualidade dos dados, o conjunto de teste completo e aproximadamente 2% do conjunto de treinamento foram manualmente revisados pelo autor.
O terceiro estágio consiste no ajuste fino dos modelos alunos compactos. Três modelos com capacidades distintas foram selecionados: Qwen 3:4B, Llama 3.2:3B e Llama 3.2:1B. Esses modelos representam pontos distintos ao longo do espectro desempenho-eficiência, desde uma configuração ultra-leve (1B) até um limite superior (4B) para avaliar a relação entre escala e qualidade da extração. Todos foram ajustados por meio de Adaptação de Baixo Posto (LoRA) com pesos base quantizados em 4 bits (INT4), enquanto apenas os adaptadores LoRA foram treinados em precisão FP16. A adaptação LoRA foi aplicada tanto às camadas de atenção quanto às camadas MLP da arquitetura transformer, seguindo evidências empíricas de que atualizar ambos os tipos de camadas produz desempenho superior.
Framework de Avaliação
O quarto estágio define um framework de avaliação híbrido que combina julgamento semântico via avaliação baseada em LLM com métricas lexicais e estruturais determinísticas. Essa abordagem multifacetada garante que as citações extraídas sejam avaliadas não apenas pela qualidade do conteúdo, mas também pela conformidade de formato e pela reprodutibilidade.
O mecanismo central de avaliação emprega o GPT-4.0 como juiz semântico automatizado independente, não utilizado no processo de destilação, evitando viés circular. O juiz opera por comparação pareada em ambas as direções: a precisão semântica mede qual fração das citações extraídas é sustentada pelo conjunto de referência, enquanto a revocação semântica mede qual fração das referências é capturada pela saída do modelo. O F1-score semântico combina ambas em uma medida balanceada, capturando equivalências semânticas que seriam ignoradas por matching exato de strings.
A pontuação BM25 fornece uma medida determinística e agnóstica a modelos do alinhamento lexical, operando puramente sobre estatísticas de tokens. A pontuação de formatação constitui uma métrica binária que verifica se a saída adere estritamente ao formato de delimitação prescrito, requisito essencial para implantação em produção, onde as citações precisam ser programaticamente parseáveis. A combinação dessas três dimensões garante que o framework capture qualidade de conteúdo, conformidade estrutural e fidelidade lexical simultaneamente.
Resultados e Análise
Os resultados experimentais fornecem evidências empíricas consistentes de que a separação entre extração de citações e raciocínio é uma estratégia viável e eficaz para melhorar pipelines RAG. A avaliação foi conduzida sobre 600 amostras de teste reservadas, comparando os três modelos alunos antes e depois do ajuste fino com LoRA.
No que diz respeito à conformidade de formatação, o Qwen 3:4B alcança 100% tanto antes quanto depois do ajuste fino, demonstrando capacidades de seguimento de instruções que se transferem diretamente para extração estruturada. Em contraste, os modelos Llama requerem adaptação específica: o Llama 3.2:1B melhora de 3,51% para 92,65%, enquanto o Llama 3.2:3B aumenta de 63,94% para 93,49%. Em sistemas de produção, a formatação correta é essencial para a integração confiável com ferramentas downstream.
A pontuação BM25 complementa a avaliação semântica com uma medida determinística de sobreposição lexical. O Qwen 3:4B com LoRA alcança a maior pontuação (81,58%), seguido pelo Llama 3.2:3B com LoRA (76,66%). O Qwen 3:4B original já demonstra forte alinhamento lexical (67,23%), superando ambos os modelos Llama originais. Os ganhos com LoRA variam: +41,19 pp para Llama 3.2:1B, +36,47 pp para Llama 3.2:3B e +14,35 pp para Qwen 3:4B, indicando retornos decrescentes para modelos mais recentes que já capturam parte do comportamento necessário durante o pré-treinamento. Observa-se também forte correlação entre conformidade de formatação e pontuações BM25: a saída estruturada reduz tokens espúrios e foca a atenção do modelo na evidência central.
Do ponto de vista semântico, os resultados revelam perfis de desempenho distintos entre as famílias de modelos. Para os modelos Llama, o LoRA produz melhorias consistentes: o Llama 3.2:1B apresenta ganhos modestos (F1: 23,52% → 32,08%), confirmando que modelos muito pequenos permanecem limitados em capacidade para extração multi-hop, enquanto o Llama 3.2:3B alcança melhorias substanciais (F1: 38,31% → 59,14%). O achado mais revelador diz respeito ao Qwen 3:4B, cujo modelo original já alcança 68,32% de revocação, 83,75% de precisão e 71,30% de F1, superando ambos os modelos Llama originais e até o Llama 3.2:3B ajustado. Após o LoRA, o Qwen 3:4B atinge o melhor desempenho geral: 83,84% de revocação, 75,90% de precisão e 75,99% de F1. Observa-se um trade-off em que a revocação aumenta (+15,52 pp) enquanto a precisão diminui (-7,85 pp). Esse trade-off é favorável em pipelines RAG, onde a revocação é mais crítica: a omissão de uma citação crucial pode causar alucinação no gerador, ao passo que a inclusão de citações extras impõe apenas um aumento modesto no contexto sem degradar a qualidade da geração.
Impacto Downstream
Para validar a utilidade prática da extração de citações, uma comparação controlada foi conduzida utilizando três modelos geradores de base em duas condições: recebendo apenas as citações curadas e recebendo o contexto completo. Os resultados demonstram que fornecer citações concisas em vez do contexto integral melhora consistentemente a acurácia das respostas em todas as configurações testadas. O Llama 3.2:1B quase triplica sua acurácia, subindo de 24,4% para 62,2% (+37,8 pp), evidenciando como o ruído contextual prejudica desproporcionalmente arquiteturas compactas. O Llama 3.2:3B melhora de 57,7% para 83,0% (+25,3 pp), enquanto o GPT-3.5 Turbo, um modelo consideravelmente maior e mais capaz, ainda registra um ganho expressivo, subindo de 75,8% para 88,5% (+12,7 pp). Esses resultados confirmam que a filtragem de citações de fato auxilia consideravelmente a acurácia das respostas em modelos de diversos tamanhos, comprovando a importância do trabalho em questão.