METEOR (metric) (PT)
METEOR é um nome usado na área de processamento de linguagem natural (PLN) para vários conceitos relacionados, mas distintos. Primeiramente, é uma conhecida métrica automática para avaliar a qualidade da tradução automática. Além disso, em 2024, dois projetos de pesquisa independentes relacionados a grandes modelos de linguagem (LLMs) foram apresentados sob o mesmo nome: um método de treinamento evolucionário e um modelo de linguagem multimodal.
METEOR como métrica de avaliação da qualidade da tradução
METEOR (abreviação de Metric for Evaluation of Translation with Explicit ORdering) é uma métrica automática para avaliar a qualidade da tradução automática, proposta em 2005 pelos pesquisadores Satanjeev Banerjee e Alon Lavie, da Universidade Carnegie Mellon[1]. Seu objetivo era aumentar a consistência das avaliações automáticas com os julgamentos humanos, especialmente no nível de sentenças individuais, corrigindo algumas das deficiências da métrica anterior, BLEU.
As principais características da métrica METEOR são:
- Consideração da precisão e do recall: Diferentemente do BLEU, que se concentra apenas na precisão (precision), o METEOR calcula a média harmônica entre a precisão e o recall, o que permite penalizar traduções que omitem palavras importantes.
- Correspondência flexível de palavras: O METEOR utiliza características linguísticas para comparar a tradução com a referência. Ele considera não apenas correspondências exatas, mas também diferentes formas de palavras (usando stemming) e sinônimos (usando a WordNet).
- Penalidade pela ordem incorreta das palavras: A métrica inclui uma penalidade que pune a ordem incorreta das palavras na tradução candidata, mesmo que todas as palavras correspondam à referência.
Essas melhorias permitem que a métrica METEOR tenha uma correlação significativamente melhor com as avaliações humanas em comparação com o BLEU[2]. A métrica é amplamente utilizada em pesquisas sobre tradução automática, sumarização automática e avaliação de legendas de imagens[3].
METEOR como método de treinamento evolucionário de LLMs
Em 2024, um grupo de pesquisadores chineses apresentou um método chamado METEOR: Evolutionary Journey of Large Language Models from Guidance to Self-Growth[4]. Este método é projetado para o treinamento eficiente de LLMs especializados em domínios de conhecimento específicos (por exemplo, finanças, medicina), sem a necessidade de treinar o modelo do zero.
Os autores descrevem um esquema de "evolução" de LLMs em três fases:
- Destilação de conhecimento de um modelo forte para um fraco (weak-to-strong data distillation): Para gerar o corpus de treinamento, utiliza-se um modelo "professor" mais poderoso (por exemplo, GPT-4). Nesse processo, o modelo de domínio primeiro gera um plano de solução, e o modelo forte cria a resposta seguindo esse plano. Isso alinha a distribuição do conhecimento e permite que o modelo alvo o absorva de forma mais eficaz.
- Treinamento iterativo com feedback externo (guided iterative training): O modelo treinado na primeira fase resolve tarefas de forma independente, enquanto o modelo forte atua como um "árbitro", avaliando as respostas e apontando erros. Este ciclo reflexivo desenvolve no modelo de domínio a capacidade de autoavaliação.
- Autoevolução (self-evolution): O modelo continua a melhorar sem um supervisor externo, utilizando as habilidades adquiridas para gerar e corrigir novos dados.
Este método oferece uma abordagem prática para a criação de LLMs especialistas compactos e econômicos para setores específicos[5].
METEOR como um modelo LLM multimodal
Também em 2024, uma equipe de pesquisadores do KAIST apresentou um grande modelo de linguagem multimodal chamado METEOR: Mamba-based Traversal of Rationales[6]. O modelo é projetado para a compreensão abrangente de informações visuais e para a geração de respostas a perguntas visuais.
A principal característica do METEOR é o uso de racionalizações (rationales) detalhadas. O modelo não apenas fornece a resposta final, mas também gera e se baseia em uma "cadeia de raciocínio" oculta — uma explicação sequencial de como chegar à resposta, semelhante ao modo como um ser humano raciocinaria.
A arquitetura do METEOR utiliza um módulo especial baseado no modelo Mamba — uma arquitetura eficiente para o processamento de sequências muito longas. Este módulo codifica longas cadeias de raciocínio, que podem incluir a descrição de objetos na imagem, suas relações espaciais e os passos para resolver a tarefa[7].
O modelo foi testado com sucesso em benchmarks multimodais complexos, como MME, AI2D (compreensão de diagramas) e MathVista (resolução de problemas matemáticos em um contexto visual). Ele demonstrou resultados elevados sem a necessidade de módulos externos adicionais de visão computacional, o que indica um uso eficiente de seus próprios parâmetros[7].
Notas
- ↑ Banerjee, S., and A. Lavie. «METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments». ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for MT, 2005. [1]
- ↑ Lavie, A., and A. Agarwal. «METEOR: An Automatic Metric for MT Evaluation with High Levels of Correlation with Human Judgments». ACL Workshop on Statistical Machine Translation, 2007. [2]
- ↑ «Evaluating Large Language Models: Powerful Insights Ahead». DataScienceDojo. [3]
- ↑ Li, J., X. Xu, and Y. Gao. «METEOR: Evolutionary Journey of Large Language Models from Guidance to Self-Growth». arXiv preprint arXiv:2411.11933, 2024. [4]
- ↑ Li, J., X. Xu, and Y. Gao. «METEOR: Evolutionary Journey of Large Language Models from Guidance to Self-Growth». ar5iv.org. [5]
- ↑ Lee, B.-K., et al. «Meteor: Mamba-based Traversal of Rationales for Large Language and Vision Models». NeurIPS 2024 (poster). [6]
- ↑ 7.0 7.1 Lee, B.-K., et al. «Meteor: Mamba-based Traversal of Rationales for Large Language and Vision Models». arXiv preprint arXiv:2405.15574, 2024. [7]